Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

マルチモーダル対話システムのスゝメ

対話システムの概要とその研究課題、そしてマルチモーダル情報がそれにどう有効なのかについての解説

Related Books

Free with a 30 day trial from Scribd

See all

Related Audiobooks

Free with a 30 day trial from Scribd

See all
  • Be the first to comment

マルチモーダル対話システムのスゝメ

  1. 1. マルチモーダル対話システムのスゝメ @WBA Casual Talk #14 by icoxfog417
  2. 2. Agenda ● About me ● Introduction ○ 対話システムとは ○ 対話システムの類型 ○ 対話システムの基本構成 ○ 対話システムにおける研究課題 ○ 対話システムにおけるマルチモーダルの有用性 ● Case Study ○ 対話システムの論点 ○ マルチモーダルによるアプローチ ● Forecast ○ 現状と今後の見通し ○ 今すぐやりたい人のために
  3. 3. About me
  4. 4. icoxfog417 TIS株式会社所属 業務コンサルタント出身。主にサプライチェーン周りを担当。 要件定義から設計・開発・運用/保守までなんでも。kintoneエ ヴァンジェリストの肩書も持つ。 現在は中長期でのビジネス化を視野に入れた研究開発を行 う。具体的には機械学習・自然言語処理を用いた「人のパート ナーとなれるようなアプリケーション」のプロトタイピングを手 掛ける。 Qiita
  5. 5. icoxfog417 人とロボットとの分業による、生産的な接客の実現を検証中 Robot Dash Board Human customerA customerB customerC report take over (telepresence) 背景:生産年齢人口の現象による販売員単価増+ネットショッピングの普及による来店者数減 コンセプト:ロボットが得意なところ/できることは任せ、人は人ならでは応対に注力する
  6. 6. Introduction
  7. 7. 対話システムとは 端的には、自然言語での入出力(対話)が可能なシステムを指す。似たようなキーワードとし ては、以下がある。 ● 対話型システム: 人の操作とシステムの応答を繰り返すことで漸進的に目的を達成す るシステムを指すが、自然言語を使うとは限らない(CUIなど) ● 質問応答システム: 一問一答形式のシステム。これに対し、対話システムはN回の対話 を行い対話の履歴を利用する 自然言語でコミュニケーションを行い情報を授受することを対話(dialogue)という。人間と対話 する機械またはソフトウェアを対話システム(dialogue system)と呼ぶ。 from 対話システム(自然言語処理シリーズ) 中野 幹生著
  8. 8. 対話システムの類型 1.対話参加者の数 2.入出力のモダリティ 4.対話のドメイン 1.システム:話者 = 1:Nになる場合、マルチパーティー対話システムと呼ばれる。 2.モダリティ(modality)は音声やテキスト、視線やジェスチャーなどの情報伝達様式を指す。 一つを使う場合ユニモーダル、複合的な場合マルチモーダルと呼ぶ。 3.店舗の推薦など達成目標があるのがタスク指向型、雑談などは非タスク指向型 4.特定の話題を扱うのがクローズドドメイン、縛りがないのがオープンドメイン 3.達成目標の有無・種類
  9. 9. 対話システムの基本構成(1/6) 入力理解 対話管理 内部状態更新 ドメイン知識 行動選択出力生成 内部状態 意図理解 状況理解 データベース 音声・表情・ 視線 etc... 姿勢・位置 気温・湿度 etc
  10. 10. 音声認識 対話システムの基本構成(2/6) 入力理解は、後続の意図理解に必要な情報(特徴量)を入力から得ることを目的とする。 入力理解 対話管理 内部状態更新 ドメイン知識 行動選択出力生成 内部状態 意図理解 状況理解 データベース音声・表情・ 視線 etc... 姿勢・位置 気温・湿度 etc冷やし中華 食べたい 冷やし中華食べたい 冷やし中華/食べ/たい マルチモーダルの場合その分理解のためのモジュールが増え、それらを統合するパートが必要になる。 形態素解析 音声認識 GUI入力 これ食べたい click on 冷やし中華 入力統合 これ/食べ/たい これ=冷やし中華
  11. 11. 対話システムの基本構成(3/6) 意図理解は、入力理解からの入力を元にユーザーの意図を理解する()。 具体的には、これは 対話行為タイプ(dialogue act type) と属性(attribute)の集合で表現される 入力理解 対話管理 内部状態更新 ドメイン知識 行動選択出力生成 内部状態 意図理解 状況理解 データベース音声・表情・ 視線 etc... 姿勢・位置 気温・湿度 etc冷やし中華 食べたい 冷やし中華/食べ/たい 対話行為タイプ: 検索要求 ジャンル: 中華 エリア:? 品目: 冷やし中華 オントロジーのような概念構 造(ドメイン知識)から、入力 をより広く理解する 中華 冷やし 中華 麻婆 豆腐 ドメイン知識 属性
  12. 12. 対話システムの基本構成(4/6) 内部状態には、これまでの対話の履歴や意図理解結果(belief state)、外部環境の情報などを保持する。 重要なポイントとして、システムが理解した結果がユーザーに確認されたかという「 基盤化状態」がある。 入力理解 対話管理 内部状態更新 ドメイン知識 行動選択出力生成 内部状態 意図理解 状況理解 データベース音声・表情・ 視線 etc... 姿勢・位置 気温・湿度 etc冷やし中華 食べたい 対話行為タイプ: 検索要求 ジャンル: 中華 エリア:? 品目: 冷やし中華 ユーザーと合意が取れた情 報(=相互信念) 属性 冷やし中華です ね? はい 対話行為タイプ: 検索要求 ジャンル: 中華 エリア:? 品目: 冷やし中華 属性
  13. 13. 対話システムの基本構成(5/6) (入力に対し)どのような対話行動を取るかは様々な手法があるが、ここでは一般的なフレーム型を紹介する。 必要な情報構造(frame)内の空欄(slot)を埋めていくような形式で、slot fillingとも呼ばれる。 入力理解 対話管理 内部状態更新 ドメイン知識 行動選択出力生成 内部状態 意図理解 状況理解 データベース音声・表情・ 視線 etc... 姿勢・位置 気温・湿度 etc冷やし中華 食べたい 対話行為タイプ: 検索要求 ジャンル: 中華 エリア:? 品目: 冷やし中華 属性 エリアがまだ埋 まっていない 対話行為タイプ: 質問 内容: エリア
  14. 14. 対話システムの基本構成(6/6) 対話管理部が出力するのは対話行為タイプであるため、これを言語表現に変換する必要がある。 そこからさらに、出力に利用するモダリティ(音声・画像・ジェスチャーetc)に変換する。 入力理解 対話管理 内部状態更新 ドメイン知識 行動選択出力生成 内部状態 意図理解 状況理解 データベース音声・表情・ 視線 etc... 姿勢・位置 気温・湿度 etc冷やし中華 食べたい 対話行為タイプ: エリア確認要求 言語表現 「場所はどこがいいですか?」 (地図を表示) (尋ねる身振り・アイコンタクト)
  15. 15. 対話システムにおける研究課題(1/3) ● 対話のモデル化 ○ 発話とは何か、対話とは何か・・・ ● 対話管理 ○ 対話進行の主体(ユーザー主導・システム主導・混合) ○ 対話進行者の交代の管理(話者交代) ○ 対話進行のプランニング方法(フレーム型、アジェンダ型・・・) ○ エラーハンドリング(破綻の検知、破綻からの復帰) ● 意図理解 ○ ユーザーの発話内容をどう理解するか ● 表現生成 ○ 適切な応答文の生成(マルチモーダル表現含む) 古典からあまり進捗はない 強化学習での試みが行われてい るが、学習に課題あり(次P) word2vecなど、分散表現を用い た研究が盛ん 頷きの生成やロボに表情をつけ るといった非言語要素の表現研 究が多い
  16. 16. 対話システムにおける研究課題(2/3) ● 対話モデルの学習方法 ○ 強化学習(MDP/POMDP) ○ (対話のデータは概ね少ないので)少ないデータで効率的に学習する方法。教師な し学習の適用、アクティブラーニングなど様々な試みが行われている。 最近はルールベースとの組み合わ せや、学習方法が焦点の印象
  17. 17. 対話システムにおける研究課題(3/3) ニューラルネットの活用 ● 分散表現による意味理解・応答分生成 ○ 入力をword2vecのような分散表現にして、それを元に適切な返答を検索するよう な試みが行われている(りんなはこのアプローチ)。 ○ ただ、端的には雰囲気に合わせた応答を返しているだけなので、雑談には向いて いるが厳密な語彙理解が必要な目的型対話に適用するのは難しい。 ● マルチモーダル情報の記述 ○ 画像に対する説明文を学習させる画像キャプショニング、またこれを発展させた 動画キャプショニングといった研究が行われている。 ○ 状況理解には効果的だが(お年寄りが階段を上っている→サポートしに行くなど)、 対話中は目の前に対話相手しかおらずあまり意味をなさない(使うとしても、視線 方向などの厳密な情報が必要)。もう少し動き回れるロボットなどが出てくれば活 躍するかもしれない。 そう簡単にはい かない
  18. 18. 対話システムにおけるマルチモーダルの有用性 人間が相手の発話からその意味を理解する際は、言葉7%・声38%・表情55%の割合で重視す るという実験結果がある(A. Mehrabian(1968).)。これは実験環境下(好き-嫌いのような感覚・ 態度の伝達時)のみでの結果だが、非言語情報の重要性がわかるものとなっている。 ● 対話管理: 話者の交代(視線で発話を促すなど) ● 意図理解: ユーザーとのコミュニケーションチャネルの確認(頷き、相槌など)、暗黙的な 理解度の確認(わかりましたか?といちいち聞かなくても、察する) 上記のシーンでは特に非言語情報が重要であり、こうした情報を理解できないと、対話シス テムはうまくユーザーとコミュニケーションを行うことができない。 コミュニケーションの成立には、非言語情報も欠かせない
  19. 19. Case Study
  20. 20. 対話システムの論点 idle talking listening engage terminate pass turn take turn engagement turn-taking dialogue management 今回は対話システムのステータスに注目し、論点を以下3つに分けて考える。 ● engagement: どうやって対話を開始/終了するか ● dialogue management: どう対話を行うか ● turn taking: いつ発話するべきか(特にマルチパーティーの場合) これらが、マルチモーダル情報を利用しどう解決が試みられているのかを概観する。 待機 発話 傾聴
  21. 21. マルチモーダルによるアプローチ: engagement どのようにしてユーザーとの対話を開始するか/終了するか Bohus, Dan, Chit W. Saw, and Eric Horvitz. "Directions Robot: In-the-Wild Experiences and Lessons Learned." (2014). action Engagement [Bohus+ 2014] カメラに映るユーザーの顔の位置や大きさなどから コミュニケーションに適した位置関係(F-formation) かどうかを判定し、それを元にユーザーが対話をし たいかどうか(intention)を推定する。 その推定結果が閾値より高ければ対話状態 (engage)に入るために声をかけるなどし、逆低く なった場合対話を打ち切る(terminate)。 Face size, location etc... want engage?
  22. 22. マルチモーダルによるアプローチ: engagement 既存の対話システムは話しかけられるのを待つパターンが多い(Siri然り)。コミュニケーショ ンロボット(Pepperなど)も同様で、「どう話しかけていいかわからない」「何ができるのかわか らない」と、対話が敬遠されることが多い(経験談)。 よってシステム自身から自らの機能を必要とする相手を検知し、その有用性・使用法を説明 するアプローチをとる必要があり、これを欠く場合置物化したり、果てはロボットの使い方を 説明する人が置かれるなど本末転倒な事態が発生する(事実)。 このアプローチを行う際は、当然自然言語情報はほぼ利用できない(対話していないため)。 そのため動きや視線といった、マルチモーダル情報が重要になってくる。 対話システムからどうユーザーにアプローチするかは、重要な検討事項となる
  23. 23. マルチモーダルによるアプローチ: turn-taking Turn-taking [杉山 2015] システムに対する入力音に対し、「応答義務」が あるかどうかを推定する。入力音は、雑音はもち ろん独り言やシステムでない同行者への発話な ど、様々なものを含む。 杉山らの研究では、言語情報は使用せず音響情 報・ユーザーの姿勢などの情報からのみ応答義 務を推定している。 どのタイミングで発話を行うべきか 杉山, 船越, 中野, 駒谷. "多人数対話におけるロボットの応答義務の推 定" (2015).
  24. 24. サッカーと同じように、対話においても「対話をしていない間」は重要である。 ● 発話のタイミングを見計らう ○ パスを受ける・送るタイミング、またパスカットするタイミング ● 発話すべき時に、どう発話すべきかを考える(シュートなのかパスなのか・・・) ○ 議論の焦点、ユーザーの状態(悩んでいるかなど)を考慮 オフザボールの時はシステムに話しかけていない場合もあるため、言語情報が取得できな いこともある。そのため話者達の視線や姿勢、発話までの時間など、マルチモーダル情報 を活用し、いつ何を言うべきかを常に更新し続けておく必要がある。 マルチモーダルによるアプローチ: turn-taking オンザボールだけでなく、オフザボールの動きも重要
  25. 25. マルチモーダルによるアプローチ: dialogue mgmt. ユーザーの意図をどれだけ正確に推定できるか Fisher, Robert, Thomas Kollar, and Reid Simmons. "Building and learning from a contextual knowledge base for a personalized physical therapy coach." ICML Workshop on Robot Learning, Atlanta GA. Vol. 3. No. 5.1. 2013. ※画像はイメージです(実 際はリハビリ用) ユーザーに合わせた対話(パーソナライズ) [Fisher 2013] パーソナルトレーナーを作る試みで、ユーザー がどんな状態の時にどういう行動(運動指示・評 価)を、どう取ればいいのか(厳しく、優しく)を学 習させる。 ユーザーの体の状態(現在どんな運動をしてい るかなど)、発話内容などを統合して状況を判断 させている。
  26. 26. マルチモーダルによるアプローチ: dialogue mgmt. ユーザーの意図をどれだけ正確に推定できるか Ezen-Can, Aysu, et al. "Classifying student dialogue acts with multimodal learning analytics." Proceedings of the Fifth International Conference on Learning Analytics And Knowledge. ACM, 2015. マルチモーダル情報を利用した発話意図理解 [Ezen-Can 2015] プログラミングのチュータープログラムについて の研究で、生徒の発話意図(質問なのか、確認 なのかなど)を理解するために姿勢やジェス チャーといったマルチモーダル情報を活用して いる(わからなくなると片肘ついたりする=質問の 可能性が高くなるなど)。 マルチモーダル情報のみでも、そこそこの精度 で意図を判断できたとの結果。
  27. 27. マルチモーダルによるアプローチ: dialogue mgmt. ユーザーの意図をどれだけ正確に推定できるか Chung-Hsien Wu "Emotion Recognition from Facial Expression and Speech.” 2013. 表情と音声を利用したユーザーの感情理解 [Chung-Hsien Wu 2013] ユーザーの表情の情報と発話の音声情報を組 み合わせて感情を理解するという研究。 ユニモーダル(表情or音声のどちらかのみ)の精 度には限界があり、組み合わせることで(相互補 完的に)精度を高めることができたとの結果。
  28. 28. マルチモーダルによるアプローチ: dialogue mgmt. 対話における発話意図を理解するのにマルチモーダル情報が有効なのは、様々な研究が 示している通りである。しかし実際にはカメラがユーザーを見失って情報が欠落するなど、 その信頼性を担保するのが難しいのも事実である(経験談->前述の研究は何もユーザーの 位置が固定されており、そうではないEngagementで紹介した研究ではこの見失い対応に結 構苦労している)。 そのため、マルチモーダル情報の信頼性向上は課題となる。また、取得したマルチモーダ ル情報をどう統合するのか(顔はツンだが発言はデレの場合、どう評価すればいいかなど) も課題となる。 ユーザーの意図を推定するのに、やはりマルチモーダル情報は有用
  29. 29. Forecast
  30. 30. 現状と今後の見通し: 技術的観点 ● マルチモーダル情報の統合 ○ どこからとるか: 音声、画像、センサー・・・ ○ 何をとるか: 感情、視線、姿勢、脈拍・・・(取得精度の向上も課題) ○ どう組み合わせるか ● マルチモーダルの生成 ○ ジェスチャー、声音の変化など。研究はまだ少ない。 ● 最適化(=学習方法) ○ マルチモーダルの学習データはそれほど量産できないので、少ないデータで効率 よく学習する必要がある(前述の研究でも様々な工夫をしている) ○ 対話中・対話後の自動学習 マルチモーダル情報の統合、マルチモーダル生成、その最適化が大きな課題 まだ未発展の 熱い分野
  31. 31. 現状と今後の見通し: 市場的観点 コミュニケーションロボット、またVR(= バーチャルエージェント)の普及により、 マルチモーダル情報を利用したコミュニ ケーション研究のニーズは拡大してい る。 対話BOTも普及期であり、対話システム 自体が再注目されている コミュニケーションロボット・VRの普及による市場ニーズの拡大 熱い市場的展開
  32. 32. 現状と今後の見通し: やりがい的視点 マルチモーダル対話は機械学習の総合格闘技 全部研究できる
  33. 33. 現状と今後の見通し: 結論 マルチモーダル対話最高! (怖くないよ!) 乗るしかない、このビッグウェーブに!
  34. 34. 今すぐやりたいひとのために(1/2) 対話システム (自然言語処理シリーズ) 中野 幹生 (著) 神がかっている本。研究の歴史から現状、最新動向 まで全部わかる この本を基に後輩が頑張って書いた記事
  35. 35. 今すぐやりたいひとのために(2/2) Tech-Circle BOT Mashup World 先日開催した対話BOTだらけの勉強会の資料集。 いろんなBOTが登場するので、実装したいアイデアをふ くらませよう!
  36. 36. Fin

    Be the first to comment

    Login to see the comments

  • saicologic

    Jun. 5, 2016
  • yappy727

    Jun. 6, 2016
  • ogawatetsuo14

    Jun. 21, 2016
  • Hironsan

    Jul. 4, 2016
  • yoshipa1

    Sep. 5, 2016
  • hadzimme

    Sep. 13, 2016
  • taniokah

    Sep. 20, 2016
  • yumios

    Nov. 27, 2016
  • JunyaKamura

    Jan. 27, 2017
  • 8495625a

    Apr. 4, 2017
  • gekko_qv

    Apr. 27, 2017
  • KeisukeKonishi

    Nov. 3, 2017
  • HirotakaNinomiya

    May. 14, 2018

対話システムの概要とその研究課題、そしてマルチモーダル情報がそれにどう有効なのかについての解説

Views

Total views

7,869

On Slideshare

0

From embeds

0

Number of embeds

94

Actions

Downloads

93

Shares

0

Comments

0

Likes

13

×