Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
吉村研究室
B2211017
片渕 小夜
201310合同ゼミ①
3次元空間中の文字の回転角度を利用し
た情景中文字の検出と認識
2013/10/07IS1-031
目次
1. 文字認識技術の概要と諸問題
2. 提案手法の説明
3. 実験の説明と考察
4. まとめ
5. 参考文献
2013/10/07IS1-032
1.文字認識技術の概要と諸問題
2013/10/07IS1-033
文字認識技術の概要と諸問題(1)
2013/10/07IS1-034
今では携帯電話やタブレットPC,
スマートフォンでカメラが内蔵
されていない機器は殆ど無い
カメラを入力手段とする文字認識への期待が高まっている
文字認識技術の概要と諸問題(2)
2013/10/07IS1-035
カメラで撮影した文字は回転や透視投影の変形を含み、
従来のフラットヘッドスキャナで取得された文書画像を対象とするOCR
では認識が難しい
文字認識技術の概要と諸問題(3)
2013/10/07IS1-036
 従来手法では…
1. アフィン不変な特徴を用いたレイアウトに依存しない
文字認識手法
→認識対象は白の背景に黒で印刷された文字、情景内からの文
字検出については考慮されて...
2.提案手法の説明
2013/10/07IS1-037
大まかな流れ
2013/10/07IS1-038
1. 連結成分切り出し
2. 文字認識
3. 非文字の棄却、文字検出
1.連結成分切り出し
2013/10/07IS1-039
面積が50px以下の領域
はノイズとして判定
2.文字認識
2013/10/07IS1-0310
① 特徴抽出
標準文字に対して計算機上で3次元の回転処理を施し回転文字
を生成、特徴抽出を行う
回転はx軸,y軸,z軸の順に
行われる
回転処理を行う際には画素値
の線形補間を用いている
2.文字認識
2013/10/07IS1-0311
② 特徴抽出
特徴ベクトルとして加重方向指数ヒストグラム(392次元)を抽出
して使用する
特徴抽出によって得られた特徴ベクトルから、文字のクラスごと
に平均ベクトル、共分散行列の固有値、固有...
2.文字認識
2013/10/07IS1-0312
③ 認識
識別関数としてMQDF(Modified quadratic discriminant
function)を採用
→識別精度を損なうこと無く、計算量を大幅に削減できる
(補足)数式中の変数
2013/10/07IS1-0313
X:入力文字のn次元特徴ベクトル
M:母集団の平均ベクトル
k:識別に用いる固有ベクトル数
N:各クラスのサンプル数
P(ω):クラスωの事前確立
Φ𝑖, 𝜆𝑖:標本共分散行列の第i固...
3.非文字の棄却、文字検出
2013/10/07IS1-0314
 取り出した連結成分集合に非文字の連結成分が含
まれている
→非文字連結部分を棄却
非文字連結部分
3.非文字の棄却、文字検出
2013/10/07IS1-0315
① 小さな非文字の連結部分を除去
ピリオドと分類された連結部分を棄却
※この研究では「1つの文字は連結した1つの領域で成り立って
いる」として文字を認識するため、「i」,「j」の...
3.非文字の棄却、文字検出
2013/10/07IS1-0316
② 閾値よりも大きい値を持つ連結成分を非文字として
棄却
MQDFの値が最小となる文字クラスに連結成分を分類
→値が小さいほどその連結成分が文字である可能性が高い
なお、閾値は全...
3.非文字の棄却、文字検出
2013/10/07IS1-0317
③ グループA, グループBに含まれる連結成分の数を
カウントし、少ない方のグループを棄却する
3.実験の説明と考察
2013/10/07IS1-0318
実験データ
2013/10/07IS1-0319
 認識対象文字が合計1271個含まれる情景内画像50
枚
※学習した回転角度の範囲内で回転している文字
※Z軸まわりの回転角度が一定である
文字検出の精度を比較
するため、2値化によって
画像...
評価基準
2013/10/07IS1-0320
R 再現率 =
𝑇𝑃
𝑇𝑃 + 𝐹𝑁
∗ 100 %
𝑃 適合率 =
𝑇𝑃
𝑇𝑃 + 𝐹𝑃
∗ 100(%)
𝐹 𝐹値 =
2 ∗ 𝑅 ∗ 𝑃
𝑅 + 𝑃
(%)
TP(TruePositive)...
実験手法(1)
2013/10/07IS1-0321
 同じ平面に印字されている文字は、3次元空間中で
あってもある程度同じ向きを持つと想定される
 回転角度を想定した結果を用いて連結成分を絞り
込む
同じ回転角度を持つ!
実験手法(2)
2013/10/07IS1-0322
A) 文字の回転角度による棄却を行わない手法
B) 文字の回転角度による棄却を追加した手法(2クラ
スを許容とする)
2クラス:最大個数の回転角度クラスとその回転角度±10度のク
ラスのうち...
実験結果(1)
2013/10/07IS1-0323
実験結果(2)
2013/10/07IS1-0324
実験結果(3)
2013/10/07IS1-0325
文字の回転角度を用いた非文字の連結成分棄却により誤検出が
減少していることがわかる
実験結果(4)
2013/10/07IS1-0326
4.まとめ
2013/10/07IS1-0327
研究のまとめ
2013/10/07IS1-0328
 情景内に含まれる回転や透視投影の変形を含む文字を
認識することができた
 回転文字の辞書を作成
 MQDFによるある種の「文字らしさ」をもって判定をしている
 回転角度による棄却によ...
この研究が面白いと感じた部分
2013/10/07IS1-0329
 iPhoneを使った文字認識アプリを作ったことがある
1. 2値化
2. テキストライン検出、文字のベースラインを2次スプ
ライン曲線で当てはめる
3. 文字の並ぶピッチを...
5.参考文献
2013/10/07IS1-0330
使用した論文
蔵元 侃太,大山 航,若林 哲史,木村 文隆
『3次元空間中の文字の回転角度を利用した情景文字
の検出と認識』
『SSII2013第19回画像センシングシンポジウム』(2013
年6月)IS1-03
2013/10/07IS1-0...
参考ページ
2013/10/07IS1-0332
 画像処理ソリューション(2013/08/23アクセス)
 http://imagingsolution.blog107.fc2.com/
 吉田大祐(2006)『eラーニングのための単語...
Upcoming SlideShare
Loading in …5
×

201310合同ゼミ論文紹介

1,093 views

Published on

201310月の合同ゼミの時のスライド.

Published in: Technology
  • Login to see the comments

201310合同ゼミ論文紹介

  1. 1. 吉村研究室 B2211017 片渕 小夜 201310合同ゼミ① 3次元空間中の文字の回転角度を利用し た情景中文字の検出と認識 2013/10/07IS1-031
  2. 2. 目次 1. 文字認識技術の概要と諸問題 2. 提案手法の説明 3. 実験の説明と考察 4. まとめ 5. 参考文献 2013/10/07IS1-032
  3. 3. 1.文字認識技術の概要と諸問題 2013/10/07IS1-033
  4. 4. 文字認識技術の概要と諸問題(1) 2013/10/07IS1-034 今では携帯電話やタブレットPC, スマートフォンでカメラが内蔵 されていない機器は殆ど無い カメラを入力手段とする文字認識への期待が高まっている
  5. 5. 文字認識技術の概要と諸問題(2) 2013/10/07IS1-035 カメラで撮影した文字は回転や透視投影の変形を含み、 従来のフラットヘッドスキャナで取得された文書画像を対象とするOCR では認識が難しい
  6. 6. 文字認識技術の概要と諸問題(3) 2013/10/07IS1-036  従来手法では… 1. アフィン不変な特徴を用いたレイアウトに依存しない 文字認識手法 →認識対象は白の背景に黒で印刷された文字、情景内からの文 字検出については考慮されていない 2. 教師なし学習を用いて情景内から文字を検出、認識 する手法 →回転している文字について考慮されていない 回転や透視投影の影響を受けている文字を 情景内から検出、認識する手法を提案する
  7. 7. 2.提案手法の説明 2013/10/07IS1-037
  8. 8. 大まかな流れ 2013/10/07IS1-038 1. 連結成分切り出し 2. 文字認識 3. 非文字の棄却、文字検出
  9. 9. 1.連結成分切り出し 2013/10/07IS1-039 面積が50px以下の領域 はノイズとして判定
  10. 10. 2.文字認識 2013/10/07IS1-0310 ① 特徴抽出 標準文字に対して計算機上で3次元の回転処理を施し回転文字 を生成、特徴抽出を行う 回転はx軸,y軸,z軸の順に 行われる 回転処理を行う際には画素値 の線形補間を用いている
  11. 11. 2.文字認識 2013/10/07IS1-0311 ② 特徴抽出 特徴ベクトルとして加重方向指数ヒストグラム(392次元)を抽出 して使用する 特徴抽出によって得られた特徴ベクトルから、文字のクラスごと に平均ベクトル、共分散行列の固有値、固有ベクトルを算出し、そ れらを学習辞書とする A A A
  12. 12. 2.文字認識 2013/10/07IS1-0312 ③ 認識 識別関数としてMQDF(Modified quadratic discriminant function)を採用 →識別精度を損なうこと無く、計算量を大幅に削減できる
  13. 13. (補足)数式中の変数 2013/10/07IS1-0313 X:入力文字のn次元特徴ベクトル M:母集団の平均ベクトル k:識別に用いる固有ベクトル数 N:各クラスのサンプル数 P(ω):クラスωの事前確立 Φ𝑖, 𝜆𝑖:標本共分散行列の第i固有ベクトルと第i固有値 𝜎2 :特徴ベクトルXの事前確立分布を球状と仮定した場合の分散 𝑁0:𝜎2の信頼度定数
  14. 14. 3.非文字の棄却、文字検出 2013/10/07IS1-0314  取り出した連結成分集合に非文字の連結成分が含 まれている →非文字連結部分を棄却 非文字連結部分
  15. 15. 3.非文字の棄却、文字検出 2013/10/07IS1-0315 ① 小さな非文字の連結部分を除去 ピリオドと分類された連結部分を棄却 ※この研究では「1つの文字は連結した1つの領域で成り立って いる」として文字を認識するため、「i」,「j」の2つの連結領域から なる文字を認識することはできない i j ピリオドと判断され棄却 i j
  16. 16. 3.非文字の棄却、文字検出 2013/10/07IS1-0316 ② 閾値よりも大きい値を持つ連結成分を非文字として 棄却 MQDFの値が最小となる文字クラスに連結成分を分類 →値が小さいほどその連結成分が文字である可能性が高い なお、閾値は全ての連結成分に対して求めた識別関数値(MQDF の出力値)ヒストグラムを用いた大津の判別分析により決定する
  17. 17. 3.非文字の棄却、文字検出 2013/10/07IS1-0317 ③ グループA, グループBに含まれる連結成分の数を カウントし、少ない方のグループを棄却する
  18. 18. 3.実験の説明と考察 2013/10/07IS1-0318
  19. 19. 実験データ 2013/10/07IS1-0319  認識対象文字が合計1271個含まれる情景内画像50 枚 ※学習した回転角度の範囲内で回転している文字 ※Z軸まわりの回転角度が一定である 文字検出の精度を比較 するため、2値化によって 画像中の全ての文字連結成分 を切り出せる画像を扱う
  20. 20. 評価基準 2013/10/07IS1-0320 R 再現率 = 𝑇𝑃 𝑇𝑃 + 𝐹𝑁 ∗ 100 % 𝑃 適合率 = 𝑇𝑃 𝑇𝑃 + 𝐹𝑃 ∗ 100(%) 𝐹 𝐹値 = 2 ∗ 𝑅 ∗ 𝑃 𝑅 + 𝑃 (%) TP(TruePositive),TN(TrueNegative):文字、非文字を 正しく認識した個数 FP(FalsePositive),FN(FalseNegative):文字、非文字を 誤って分類した個数
  21. 21. 実験手法(1) 2013/10/07IS1-0321  同じ平面に印字されている文字は、3次元空間中で あってもある程度同じ向きを持つと想定される  回転角度を想定した結果を用いて連結成分を絞り 込む 同じ回転角度を持つ!
  22. 22. 実験手法(2) 2013/10/07IS1-0322 A) 文字の回転角度による棄却を行わない手法 B) 文字の回転角度による棄却を追加した手法(2クラ スを許容とする) 2クラス:最大個数の回転角度クラスとその回転角度±10度のク ラスのうち連結成分数の多い方のクラス C) 文字の回転角度による棄却を追加した手法(3ク ラスを許容とする) 3クラス:最大個数の回転角度クラスとその回転角度±10度の2ク ラス
  23. 23. 実験結果(1) 2013/10/07IS1-0323
  24. 24. 実験結果(2) 2013/10/07IS1-0324
  25. 25. 実験結果(3) 2013/10/07IS1-0325 文字の回転角度を用いた非文字の連結成分棄却により誤検出が 減少していることがわかる
  26. 26. 実験結果(4) 2013/10/07IS1-0326
  27. 27. 4.まとめ 2013/10/07IS1-0327
  28. 28. 研究のまとめ 2013/10/07IS1-0328  情景内に含まれる回転や透視投影の変形を含む文字を 認識することができた  回転文字の辞書を作成  MQDFによるある種の「文字らしさ」をもって判定をしている  回転角度による棄却により精度向上  ただし、文字は1つの連結成分として考えられているため、 認識ができない文字がある  辞書の容量削減、推定精度の向上  X,Y軸周りの回転角度を用いた文字検出の精度向上
  29. 29. この研究が面白いと感じた部分 2013/10/07IS1-0329  iPhoneを使った文字認識アプリを作ったことがある 1. 2値化 2. テキストライン検出、文字のベースラインを2次スプ ライン曲線で当てはめる 3. 文字の並ぶピッチを判断、1文字ごとに分割し文字を 抽出 4. 回転文字に対応していない 1. ex:1->/, O(オー)->0(ゼロ)などの誤検出  回転文字の辞書を作ることを思いつかなかった
  30. 30. 5.参考文献 2013/10/07IS1-0330
  31. 31. 使用した論文 蔵元 侃太,大山 航,若林 哲史,木村 文隆 『3次元空間中の文字の回転角度を利用した情景文字 の検出と認識』 『SSII2013第19回画像センシングシンポジウム』(2013 年6月)IS1-03 2013/10/07IS1-0331
  32. 32. 参考ページ 2013/10/07IS1-0332  画像処理ソリューション(2013/08/23アクセス)  http://imagingsolution.blog107.fc2.com/  吉田大祐(2006)『eラーニングのための単語辞書を 使用した板書手書き文字認識』(2013/09/14アクセ ス)  http://miuse.mie- u.ac.jp/bitstream/10076/9124/1/2006T028.pdf

×