SlideShare a Scribd company logo
1 of 13
Download to read offline
© 2018 NEPPO Technology Research, All rights reserved.
はじめてのパターン認識
読書会 #01
2018/05/17
Yasunori Endo
© 2018 NEPPO Technology Research, All rights reserved. 2
第1章: はじめに
© 2018 NEPPO Technology Research, All rights reserved. 3
パターン認識とは
• 広辞苑より、「物事の類型を知る働き、およびその内容」
• 身の回りにあるパターン認識装置
• ex) 駅の券売機
• 硬貨や紙幣を入れた時に、真贋と種類を識別する
• 材質、重さ、サイズなどを観測(特徴抽出)し、識別規則に従ってクラス(10円,
50円, 100円, etc.)に分類する
10
10
10
10
10
10
10
識別対象
特徴抽出
特徴ベクトル
サイズ
透磁率
穴の有無
etc.
( ) 識別規則
識別クラス
10円
50円
100円
etc.
© 2018 NEPPO Technology Research, All rights reserved. 4
パターン認識とは contd.
• パターン認識において、識別に有効な特徴をいかに早く抽出で
きるかが、成否を決める鍵となる
• パターン認識の対象は多岐にわたり、特徴抽出法も多岐にわた
るが、特徴ベクトルの形になれば同じ識別規則を使うことがで
きる
• 識別規則は、入力データが所属する正しいクラスを同定するた
めの規則
• 識別規則を作るには、たくさんの学習データ(入力データとそ
のクラスの対)をもとに、入力とクラスの対応関係を学習する
• 未知の入力データに対する正しいクラスを識別する必要があり、
この能力を汎化能力という
© 2018 NEPPO Technology Research, All rights reserved. 5
特徴の型
• 観測された特徴は、定性的特徴(非数値データ)と定量的特徴(数
値データ)に区別される
定性的特徴
定量的特徴
© 2018 NEPPO Technology Research, All rights reserved. 6
特徴の型 contd.
• 定性的な特徴を計算機上で表現するために、符号を用いる
• ex) 2クラスを表現するために 0/1 or -1/+1 を用いる
• クラス数がK個の場合はダミー変数表現
• K個の2値変数を用意し、クラスに対応する変数のみを1、他を0とする
© 2018 NEPPO Technology Research, All rights reserved. 7
特徴ベクトル空間と次元の呪い
• 特徴数を d とすれば、特徴ベクトルはd次元線形空間を張る
• 16x16=256画素の手書き文字画像の場合、256次元ベクトル
• 各文字画像データは、256次元ベクトル空間中の1点に対応する
• 各画素が16レベルの会長をもっているとすると、区画の数は 16^256
と、次元に対し指数関数的に増加する
• Bellman は、未知の複雑な関数を学習するために必要なデータ
が、次元の増加とともに指数関数的に増加することを指摘し、
次元の呪いと呼んだ
• ベクトル空間はd次元超立方体を成す
© 2018 NEPPO Technology Research, All rights reserved. 8
第2章: 識別規則と学習法の概要
© 2018 NEPPO Technology Research, All rights reserved. 9
識別規則の構成法
• 識別規則は、入力データ x からクラス C_i ∈ {C_1, …, C_k}
への写像である
• 代表的な識別規則の構成法は次の通り
• a) 事後確率による方法
• パターン空間に確率分布を仮定し、事後確率が最大のクラスに分類
• ベイズの最大事後確率法が代表例
• b) 距離による方法
• 入力ベクトルと各クラスの代表ベクトルとの距離を計算する
• 最近傍法が代表例
• c) 関数値による方法
• 関数 f(x) の正負や最大値でクラスを決める
• パーセプトロンやサポートベクタマシンが代表例
• d) 決定木による方法
• 識別規則の真偽に応じて次の識別規則を順次適用し、クラスを決める
• 学習データから決定木を自動的に構成する手法が提案されている
© 2018 NEPPO Technology Research, All rights reserved. 10
教師付き学習
• 識別規則は特徴ベクトルからクラスへの写像として表現
• 写像の性質を決めるパラメータを w で表し、パラメータ w と
入力ベクトル x の線形関数(内積) を用いて表現される
• 学習する方法として、教師付き学習がまずある
• 学習データセット D_L を正しく識別できる w を求める
• a) 学習データセットの関数として w を得る
• b) 学習データセット中の学習データを一つずつ用いて w を少しずつ修正する
• b) の場合、同じ学習データを使って何度も学習をする必要がある
• たとえばτ番目の学習でi番目の学習データが使用される場合、得られた関数値と
教師データ t_i の差が小さくなるように w(τ) を修正する
• 差が小さくなったら学習を止め、テストデータセット D_T で性能評価を行う
© 2018 NEPPO Technology Research, All rights reserved. 11
教師付き学習と線形回帰
• 教師入力としてクラス分類値でなく任意の関数値が与えられる
場合、識別関数は x に対する関数値を出力するように学習が行
われる
• このような問題を関数近似(回帰)といい、特に線形関数で近似
する場合は線形回帰と呼ばれる
• ex) 統計データから作物の収量を線形回帰で求める
• このとき、関数値として与えられる作物の収量を被説明変数、関数の
引数として与えられる統計量を説明変数と呼ぶ
• この本では分類問題を中心に扱うため、回帰は他の本を読んで
ね
© 2018 NEPPO Technology Research, All rights reserved. 12
教師なし学習
• 教師なし学習と異なり、教師のいない学習もあり、教師なし学
習と呼ぶ
• 入力データの距離・類似度・統計的な性質に基づいて、くr素
を自動的に生成すること(クラスタリング)が主目的になる (10
章)
• 最近では一部のデータのみ教師をつけ、ほかは教師無しで学習
する形質導入学習が提案されている
• 教師データの付与はコストがかかる作業のため、一部のデータのみに
教師を付与し、他のデータは共通した特徴などを手がかりに、教師の
形質を導入できればコストを下げることができる
© 2018 NEPPO Technology Research, All rights reserved. 13
To be continued...
• 2.2章は式がいっぱい出てきて脳がフリーズしたのでごめんな
さい

More Related Content

Featured

PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024Neil Kimberley
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)contently
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024Albert Qian
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsKurio // The Social Media Age(ncy)
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Search Engine Journal
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summarySpeakerHub
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next Tessa Mero
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentLily Ray
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best PracticesVit Horky
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project managementMindGenius
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...RachelPearson36
 
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Applitools
 
12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at WorkGetSmarter
 
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...DevGAMM Conference
 
Barbie - Brand Strategy Presentation
Barbie - Brand Strategy PresentationBarbie - Brand Strategy Presentation
Barbie - Brand Strategy PresentationErica Santiago
 

Featured (20)

PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
 
How to have difficult conversations
How to have difficult conversations How to have difficult conversations
How to have difficult conversations
 
Introduction to Data Science
Introduction to Data ScienceIntroduction to Data Science
Introduction to Data Science
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best Practices
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project management
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
 
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
 
12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work
 
ChatGPT webinar slides
ChatGPT webinar slidesChatGPT webinar slides
ChatGPT webinar slides
 
More than Just Lines on a Map: Best Practices for U.S Bike Routes
More than Just Lines on a Map: Best Practices for U.S Bike RoutesMore than Just Lines on a Map: Best Practices for U.S Bike Routes
More than Just Lines on a Map: Best Practices for U.S Bike Routes
 
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
 
Barbie - Brand Strategy Presentation
Barbie - Brand Strategy PresentationBarbie - Brand Strategy Presentation
Barbie - Brand Strategy Presentation
 

はじめてのパターン認識読書会#01 第1章 ~ 2.1

  • 1. © 2018 NEPPO Technology Research, All rights reserved. はじめてのパターン認識 読書会 #01 2018/05/17 Yasunori Endo
  • 2. © 2018 NEPPO Technology Research, All rights reserved. 2 第1章: はじめに
  • 3. © 2018 NEPPO Technology Research, All rights reserved. 3 パターン認識とは • 広辞苑より、「物事の類型を知る働き、およびその内容」 • 身の回りにあるパターン認識装置 • ex) 駅の券売機 • 硬貨や紙幣を入れた時に、真贋と種類を識別する • 材質、重さ、サイズなどを観測(特徴抽出)し、識別規則に従ってクラス(10円, 50円, 100円, etc.)に分類する 10 10 10 10 10 10 10 識別対象 特徴抽出 特徴ベクトル サイズ 透磁率 穴の有無 etc. ( ) 識別規則 識別クラス 10円 50円 100円 etc.
  • 4. © 2018 NEPPO Technology Research, All rights reserved. 4 パターン認識とは contd. • パターン認識において、識別に有効な特徴をいかに早く抽出で きるかが、成否を決める鍵となる • パターン認識の対象は多岐にわたり、特徴抽出法も多岐にわた るが、特徴ベクトルの形になれば同じ識別規則を使うことがで きる • 識別規則は、入力データが所属する正しいクラスを同定するた めの規則 • 識別規則を作るには、たくさんの学習データ(入力データとそ のクラスの対)をもとに、入力とクラスの対応関係を学習する • 未知の入力データに対する正しいクラスを識別する必要があり、 この能力を汎化能力という
  • 5. © 2018 NEPPO Technology Research, All rights reserved. 5 特徴の型 • 観測された特徴は、定性的特徴(非数値データ)と定量的特徴(数 値データ)に区別される 定性的特徴 定量的特徴
  • 6. © 2018 NEPPO Technology Research, All rights reserved. 6 特徴の型 contd. • 定性的な特徴を計算機上で表現するために、符号を用いる • ex) 2クラスを表現するために 0/1 or -1/+1 を用いる • クラス数がK個の場合はダミー変数表現 • K個の2値変数を用意し、クラスに対応する変数のみを1、他を0とする
  • 7. © 2018 NEPPO Technology Research, All rights reserved. 7 特徴ベクトル空間と次元の呪い • 特徴数を d とすれば、特徴ベクトルはd次元線形空間を張る • 16x16=256画素の手書き文字画像の場合、256次元ベクトル • 各文字画像データは、256次元ベクトル空間中の1点に対応する • 各画素が16レベルの会長をもっているとすると、区画の数は 16^256 と、次元に対し指数関数的に増加する • Bellman は、未知の複雑な関数を学習するために必要なデータ が、次元の増加とともに指数関数的に増加することを指摘し、 次元の呪いと呼んだ • ベクトル空間はd次元超立方体を成す
  • 8. © 2018 NEPPO Technology Research, All rights reserved. 8 第2章: 識別規則と学習法の概要
  • 9. © 2018 NEPPO Technology Research, All rights reserved. 9 識別規則の構成法 • 識別規則は、入力データ x からクラス C_i ∈ {C_1, …, C_k} への写像である • 代表的な識別規則の構成法は次の通り • a) 事後確率による方法 • パターン空間に確率分布を仮定し、事後確率が最大のクラスに分類 • ベイズの最大事後確率法が代表例 • b) 距離による方法 • 入力ベクトルと各クラスの代表ベクトルとの距離を計算する • 最近傍法が代表例 • c) 関数値による方法 • 関数 f(x) の正負や最大値でクラスを決める • パーセプトロンやサポートベクタマシンが代表例 • d) 決定木による方法 • 識別規則の真偽に応じて次の識別規則を順次適用し、クラスを決める • 学習データから決定木を自動的に構成する手法が提案されている
  • 10. © 2018 NEPPO Technology Research, All rights reserved. 10 教師付き学習 • 識別規則は特徴ベクトルからクラスへの写像として表現 • 写像の性質を決めるパラメータを w で表し、パラメータ w と 入力ベクトル x の線形関数(内積) を用いて表現される • 学習する方法として、教師付き学習がまずある • 学習データセット D_L を正しく識別できる w を求める • a) 学習データセットの関数として w を得る • b) 学習データセット中の学習データを一つずつ用いて w を少しずつ修正する • b) の場合、同じ学習データを使って何度も学習をする必要がある • たとえばτ番目の学習でi番目の学習データが使用される場合、得られた関数値と 教師データ t_i の差が小さくなるように w(τ) を修正する • 差が小さくなったら学習を止め、テストデータセット D_T で性能評価を行う
  • 11. © 2018 NEPPO Technology Research, All rights reserved. 11 教師付き学習と線形回帰 • 教師入力としてクラス分類値でなく任意の関数値が与えられる 場合、識別関数は x に対する関数値を出力するように学習が行 われる • このような問題を関数近似(回帰)といい、特に線形関数で近似 する場合は線形回帰と呼ばれる • ex) 統計データから作物の収量を線形回帰で求める • このとき、関数値として与えられる作物の収量を被説明変数、関数の 引数として与えられる統計量を説明変数と呼ぶ • この本では分類問題を中心に扱うため、回帰は他の本を読んで ね
  • 12. © 2018 NEPPO Technology Research, All rights reserved. 12 教師なし学習 • 教師なし学習と異なり、教師のいない学習もあり、教師なし学 習と呼ぶ • 入力データの距離・類似度・統計的な性質に基づいて、くr素 を自動的に生成すること(クラスタリング)が主目的になる (10 章) • 最近では一部のデータのみ教師をつけ、ほかは教師無しで学習 する形質導入学習が提案されている • 教師データの付与はコストがかかる作業のため、一部のデータのみに 教師を付与し、他のデータは共通した特徴などを手がかりに、教師の 形質を導入できればコストを下げることができる
  • 13. © 2018 NEPPO Technology Research, All rights reserved. 13 To be continued... • 2.2章は式がいっぱい出てきて脳がフリーズしたのでごめんな さい