Submit Search
Upload
単語コレクター(文章自動校正器)
•
2 likes
•
10,528 views
J
JubatusOfficial
Follow
単語コレクター(文章自動校正器)
Read less
Read more
Engineering
Report
Share
Report
Share
1 of 12
Download now
Download to read offline
Recommended
小町のレス数が予測できるか試してみた
小町のレス数が予測できるか試してみた
JubatusOfficial
JubaQLご紹介
JubaQLご紹介
JubatusOfficial
"アレ"からJubatusを使う
"アレ"からJubatusを使う
JubatusOfficial
捗るリコメンドシステムの裏事情(ハッカドール)
捗るリコメンドシステムの裏事情(ハッカドール)
mosa siru
超絶技巧プログラミングと Ruby 3.0 (大江戸 Ruby 会議 05 コミッタ LT)
超絶技巧プログラミングと Ruby 3.0 (大江戸 Ruby 会議 05 コミッタ LT)
mametter
まだCPUで消耗してるの?Jubatusによる近傍探索のGPUを利用した高速化
まだCPUで消耗してるの?Jubatusによる近傍探索のGPUを利用した高速化
JubatusOfficial
Introduction of mruby & Webruby script example
Introduction of mruby & Webruby script example
kishima7
Jubatus 新機能ハイライト
Jubatus 新機能ハイライト
JubatusOfficial
Recommended
小町のレス数が予測できるか試してみた
小町のレス数が予測できるか試してみた
JubatusOfficial
JubaQLご紹介
JubaQLご紹介
JubatusOfficial
"アレ"からJubatusを使う
"アレ"からJubatusを使う
JubatusOfficial
捗るリコメンドシステムの裏事情(ハッカドール)
捗るリコメンドシステムの裏事情(ハッカドール)
mosa siru
超絶技巧プログラミングと Ruby 3.0 (大江戸 Ruby 会議 05 コミッタ LT)
超絶技巧プログラミングと Ruby 3.0 (大江戸 Ruby 会議 05 コミッタ LT)
mametter
まだCPUで消耗してるの?Jubatusによる近傍探索のGPUを利用した高速化
まだCPUで消耗してるの?Jubatusによる近傍探索のGPUを利用した高速化
JubatusOfficial
Introduction of mruby & Webruby script example
Introduction of mruby & Webruby script example
kishima7
Jubatus 新機能ハイライト
Jubatus 新機能ハイライト
JubatusOfficial
初心から一週間で作ってみた Kinesis Client Library for Go
初心から一週間で作ってみた Kinesis Client Library for Go
Terui Masashi
Buildinsider OFFLINE TypeScriptの基礎から実践・利用事例まで
Buildinsider OFFLINE TypeScriptの基礎から実践・利用事例まで
Masahiro Wakame
Sphinxを用いたBiopythonチュートリアル翻訳
Sphinxを用いたBiopythonチュートリアル翻訳
Kozo Nishida
脱! 俺たちは雰囲気でBPをいじっている
脱! 俺たちは雰囲気でBPをいじっている
Naoaki Yamaji
現実世界から学ぶ効率のいいサーバの使い方
現実世界から学ぶ効率のいいサーバの使い方
時雨 大西
じっくりコトコト煮込んだJavaスープ
じっくりコトコト煮込んだJavaスープ
Kazuhiro Serizawa
LT#7 Hello coffeeしてきた
LT#7 Hello coffeeしてきた
Shingo Inoue
JavaScriptで出来る、あんなことこんなこと
JavaScriptで出来る、あんなことこんなこと
Mayu Kimura
Parascript
Parascript
Shoichi Masuhara
My misstake on Ansible’s lineinfile module
My misstake on Ansible’s lineinfile module
Yukiya Hayashi
1000万DL突破!BrainWarsのアーキテクチャ
1000万DL突破!BrainWarsのアーキテクチャ
Masakazu Matsushita
Django learning Part2
Django learning Part2
Yusuke Muraoka
TranslimitのChatOps事情と愉快なbotたち
TranslimitのChatOps事情と愉快なbotたち
Masakazu Matsushita
Db tech showcase2015 how to replicate between clusters
Db tech showcase2015 how to replicate between clusters
Hiroaki Kubota
Django/Celeyを用いたデータ分析Webアプリケーションにおける非同期処理の設計と実装
Django/Celeyを用いたデータ分析Webアプリケーションにおける非同期処理の設計と実装
Satoshi Nagayasu
BrainWarsのアーキテクチャ(OpsWorks & DynamoDB編)
BrainWarsのアーキテクチャ(OpsWorks & DynamoDB編)
Masakazu Matsushita
Python と Xpath で ウェブからデータをあつめる
Python と Xpath で ウェブからデータをあつめる
Shuhei Iitsuka
やすい・はやい・うまいMTのホスティング環境を求めて - jaws-ug-3to-2013-sprint
やすい・はやい・うまいMTのホスティング環境を求めて - jaws-ug-3to-2013-sprint
taiju higashi
クライアントサイドjavascript簡単紹介
クライアントサイドjavascript簡単紹介
しくみ製作所
JavaのテストGroovyでいいのではないかという話
JavaのテストGroovyでいいのではないかという話
disc99_
発言小町からのプロファイリング
発言小町からのプロファイリング
JubatusOfficial
Python 特徴抽出プラグイン
Python 特徴抽出プラグイン
JubatusOfficial
More Related Content
What's hot
初心から一週間で作ってみた Kinesis Client Library for Go
初心から一週間で作ってみた Kinesis Client Library for Go
Terui Masashi
Buildinsider OFFLINE TypeScriptの基礎から実践・利用事例まで
Buildinsider OFFLINE TypeScriptの基礎から実践・利用事例まで
Masahiro Wakame
Sphinxを用いたBiopythonチュートリアル翻訳
Sphinxを用いたBiopythonチュートリアル翻訳
Kozo Nishida
脱! 俺たちは雰囲気でBPをいじっている
脱! 俺たちは雰囲気でBPをいじっている
Naoaki Yamaji
現実世界から学ぶ効率のいいサーバの使い方
現実世界から学ぶ効率のいいサーバの使い方
時雨 大西
じっくりコトコト煮込んだJavaスープ
じっくりコトコト煮込んだJavaスープ
Kazuhiro Serizawa
LT#7 Hello coffeeしてきた
LT#7 Hello coffeeしてきた
Shingo Inoue
JavaScriptで出来る、あんなことこんなこと
JavaScriptで出来る、あんなことこんなこと
Mayu Kimura
Parascript
Parascript
Shoichi Masuhara
My misstake on Ansible’s lineinfile module
My misstake on Ansible’s lineinfile module
Yukiya Hayashi
1000万DL突破!BrainWarsのアーキテクチャ
1000万DL突破!BrainWarsのアーキテクチャ
Masakazu Matsushita
Django learning Part2
Django learning Part2
Yusuke Muraoka
TranslimitのChatOps事情と愉快なbotたち
TranslimitのChatOps事情と愉快なbotたち
Masakazu Matsushita
Db tech showcase2015 how to replicate between clusters
Db tech showcase2015 how to replicate between clusters
Hiroaki Kubota
Django/Celeyを用いたデータ分析Webアプリケーションにおける非同期処理の設計と実装
Django/Celeyを用いたデータ分析Webアプリケーションにおける非同期処理の設計と実装
Satoshi Nagayasu
BrainWarsのアーキテクチャ(OpsWorks & DynamoDB編)
BrainWarsのアーキテクチャ(OpsWorks & DynamoDB編)
Masakazu Matsushita
Python と Xpath で ウェブからデータをあつめる
Python と Xpath で ウェブからデータをあつめる
Shuhei Iitsuka
やすい・はやい・うまいMTのホスティング環境を求めて - jaws-ug-3to-2013-sprint
やすい・はやい・うまいMTのホスティング環境を求めて - jaws-ug-3to-2013-sprint
taiju higashi
クライアントサイドjavascript簡単紹介
クライアントサイドjavascript簡単紹介
しくみ製作所
JavaのテストGroovyでいいのではないかという話
JavaのテストGroovyでいいのではないかという話
disc99_
What's hot
(20)
初心から一週間で作ってみた Kinesis Client Library for Go
初心から一週間で作ってみた Kinesis Client Library for Go
Buildinsider OFFLINE TypeScriptの基礎から実践・利用事例まで
Buildinsider OFFLINE TypeScriptの基礎から実践・利用事例まで
Sphinxを用いたBiopythonチュートリアル翻訳
Sphinxを用いたBiopythonチュートリアル翻訳
脱! 俺たちは雰囲気でBPをいじっている
脱! 俺たちは雰囲気でBPをいじっている
現実世界から学ぶ効率のいいサーバの使い方
現実世界から学ぶ効率のいいサーバの使い方
じっくりコトコト煮込んだJavaスープ
じっくりコトコト煮込んだJavaスープ
LT#7 Hello coffeeしてきた
LT#7 Hello coffeeしてきた
JavaScriptで出来る、あんなことこんなこと
JavaScriptで出来る、あんなことこんなこと
Parascript
Parascript
My misstake on Ansible’s lineinfile module
My misstake on Ansible’s lineinfile module
1000万DL突破!BrainWarsのアーキテクチャ
1000万DL突破!BrainWarsのアーキテクチャ
Django learning Part2
Django learning Part2
TranslimitのChatOps事情と愉快なbotたち
TranslimitのChatOps事情と愉快なbotたち
Db tech showcase2015 how to replicate between clusters
Db tech showcase2015 how to replicate between clusters
Django/Celeyを用いたデータ分析Webアプリケーションにおける非同期処理の設計と実装
Django/Celeyを用いたデータ分析Webアプリケーションにおける非同期処理の設計と実装
BrainWarsのアーキテクチャ(OpsWorks & DynamoDB編)
BrainWarsのアーキテクチャ(OpsWorks & DynamoDB編)
Python と Xpath で ウェブからデータをあつめる
Python と Xpath で ウェブからデータをあつめる
やすい・はやい・うまいMTのホスティング環境を求めて - jaws-ug-3to-2013-sprint
やすい・はやい・うまいMTのホスティング環境を求めて - jaws-ug-3to-2013-sprint
クライアントサイドjavascript簡単紹介
クライアントサイドjavascript簡単紹介
JavaのテストGroovyでいいのではないかという話
JavaのテストGroovyでいいのではないかという話
Viewers also liked
発言小町からのプロファイリング
発言小町からのプロファイリング
JubatusOfficial
Python 特徴抽出プラグイン
Python 特徴抽出プラグイン
JubatusOfficial
Jubatus 1.0 の紹介
Jubatus 1.0 の紹介
JubatusOfficial
かまってちゃん小町
かまってちゃん小町
JubatusOfficial
新聞から今年の漢字を予測する
新聞から今年の漢字を予測する
JubatusOfficial
Jubakitの解説
Jubakitの解説
JubatusOfficial
Jubatus解説本の紹介
Jubatus解説本の紹介
JubatusOfficial
新機能紹介 1.0.6
新機能紹介 1.0.6
JubatusOfficial
小町の溜息
小町の溜息
JubatusOfficial
JUBARHYME
JUBARHYME
JubatusOfficial
銀座のママ
銀座のママ
JubatusOfficial
地域の魅力を伝えるツアーガイドAI
地域の魅力を伝えるツアーガイドAI
JubatusOfficial
gRPCをちょこっと調べた話
gRPCをちょこっと調べた話
Shuzo Kashihara
FIT2012招待講演「異常検知技術のビジネス応用最前線」
FIT2012招待講演「異常検知技術のビジネス応用最前線」
Shohei Hido
もくもくしたこと
もくもくしたこと
k_oi
Jubatusハンズオン 機械学習はじめてみた
Jubatusハンズオン 機械学習はじめてみた
JubatusOfficial
もくもく成果 IMAMASU
もくもく成果 IMAMASU
JubatusOfficial
コンテンツマーケティングでレコメンドエンジンが必要になる背景とその活用
コンテンツマーケティングでレコメンドエンジンが必要になる背景とその活用
JubatusOfficial
jubarecommenderの紹介
jubarecommenderの紹介
JubatusOfficial
Jubaanomalyについて
Jubaanomalyについて
JubatusOfficial
Viewers also liked
(20)
発言小町からのプロファイリング
発言小町からのプロファイリング
Python 特徴抽出プラグイン
Python 特徴抽出プラグイン
Jubatus 1.0 の紹介
Jubatus 1.0 の紹介
かまってちゃん小町
かまってちゃん小町
新聞から今年の漢字を予測する
新聞から今年の漢字を予測する
Jubakitの解説
Jubakitの解説
Jubatus解説本の紹介
Jubatus解説本の紹介
新機能紹介 1.0.6
新機能紹介 1.0.6
小町の溜息
小町の溜息
JUBARHYME
JUBARHYME
銀座のママ
銀座のママ
地域の魅力を伝えるツアーガイドAI
地域の魅力を伝えるツアーガイドAI
gRPCをちょこっと調べた話
gRPCをちょこっと調べた話
FIT2012招待講演「異常検知技術のビジネス応用最前線」
FIT2012招待講演「異常検知技術のビジネス応用最前線」
もくもくしたこと
もくもくしたこと
Jubatusハンズオン 機械学習はじめてみた
Jubatusハンズオン 機械学習はじめてみた
もくもく成果 IMAMASU
もくもく成果 IMAMASU
コンテンツマーケティングでレコメンドエンジンが必要になる背景とその活用
コンテンツマーケティングでレコメンドエンジンが必要になる背景とその活用
jubarecommenderの紹介
jubarecommenderの紹介
Jubaanomalyについて
Jubaanomalyについて
More from JubatusOfficial
jubabanditの紹介
jubabanditの紹介
JubatusOfficial
Jubakitの紹介
Jubakitの紹介
JubatusOfficial
データ圧縮アルゴリズムを用いたマルウェア感染通信ログの判定
データ圧縮アルゴリズムを用いたマルウェア感染通信ログの判定
JubatusOfficial
Jubatusでuserとbrandのレコメンドを試してみた話
Jubatusでuserとbrandのレコメンドを試してみた話
JubatusOfficial
相撲
相撲
JubatusOfficial
興味ありそうなもの検索
興味ありそうなもの検索
JubatusOfficial
チーム:大杉さんの壮大な夢
チーム:大杉さんの壮大な夢
JubatusOfficial
Jubatus使ってみた 作ってみたJubatus
Jubatus使ってみた 作ってみたJubatus
JubatusOfficial
More from JubatusOfficial
(8)
jubabanditの紹介
jubabanditの紹介
Jubakitの紹介
Jubakitの紹介
データ圧縮アルゴリズムを用いたマルウェア感染通信ログの判定
データ圧縮アルゴリズムを用いたマルウェア感染通信ログの判定
Jubatusでuserとbrandのレコメンドを試してみた話
Jubatusでuserとbrandのレコメンドを試してみた話
相撲
相撲
興味ありそうなもの検索
興味ありそうなもの検索
チーム:大杉さんの壮大な夢
チーム:大杉さんの壮大な夢
Jubatus使ってみた 作ってみたJubatus
Jubatus使ってみた 作ってみたJubatus
単語コレクター(文章自動校正器)
1.
単語コレクター (文章自動校正器) チーム ML 中 翔吾 大郷
友海
2.
動機 ● 作成した文章が正しい日本語を使っているか自動で校正 してほしい – 人手で確認するのが面倒&抜けが出てくる可能性も・・・ そこでJubatusと読売新聞データを使って 自動校正しようと思った! – ただし、新聞記事の本文は正しい日本語が使われているもの と仮定 –
今回は読売新聞データをつかっているので、 新米記者が書いた記事を自動校正することを想定 – 名前の意味:単語をcorrect(正しい)にする、collect(集める)
3.
アーキテクチャ(学習) Jubatus (分類)読売新聞 データ.txt Mecab 単語群 語彙数のクラス に分類
4.
アーキテクチャ(使用時) Jubatus (分類)入力文章.txt Mecab 単語群 分類された単語 を結合 出力文章.txt
5.
入力データ mecabで分かち書きした単語を、 1単語タイプ=1クラスラベルとして学習
6.
分類結果 [結果] : [入力] 入力自身と同じラベルのクラスに分類された。
7.
分類結果② [結果] : [入力]
8.
(課題1)望む出力:「ほんま」→「本当」 ・「ほんま」が学習データに含まれていた場合、 出力が修正されない(「ほんま」→「ほんま」) 課題 (課題2):「晴れ」→「定例」 「今日は」→「定例」 「とっても」→「定例」 ・学習した単語数が少ないと、不明な分類結果となる
9.
課題 (課題3):「し」→「し」 「ます」→「ます」 「た」→「た」 望ましい出力: 「し」→「し」 「ます」→「まし」 「た」→「た」 ・ 単語に分割して直接入力しているため、前後の単語 を考慮せずに最小の単語で分類されてしまう。 そこで・・・
10.
課題 (課題3):「し」→「し」 「ます」→「ます」 「た」→「た」 入力単語を2単語一組として結合して学習する 例:
11.
分類結果③ [結果] : [入力] 「しまし」を学習することはできた
12.
まとめ ・単語自身を学習することができた ・近い単語の分類(=校正)については未確認 ・単語のみの学習では不十分 →前後の文脈(単語の使用方法)を考慮 →入力を文章にする、idf等のデータ変換方法の検証 が必要
Download now