SlideShare a Scribd company logo
1 of 23
Download to read offline
1 KYOTO UNIVERSITY
KYOTO UNIVERSITY
DEPARTMENT OF INTELLIGENCE SCIENCE
AND TECHNOLOGY
機械学習と予測モデルコンペティション
京都大学 情報学研究科 知能情報学専攻
鹿島 久嗣
2 KYOTO UNIVERSITY
 “人工知能” の成功:
– クイズ王に勝利した質問応答システム
– プロ棋士に勝利したコンピュータ将棋・囲碁
 今回の“人工知能”ブームは機械学習に支えられている
– とりわけ深層学習がブームを牽引
機械学習の躍進:
“人工知能”の成功を支えるコア技術
3 KYOTO UNIVERSITY
 機械学習とは、もともと
「人間のもつ‟学習能力„を機械(計算機)にも持たせる」
ことを目指す人工知能の一研究分野
 近年では、「統計的」機械学習が主流
– 遺伝子情報処理、自然言語処理他、ビジネス分野での成功
– データ解析技術一般を指すほかの領域との境は曖昧
 深層学習の大ブレーク
– 機械学習≒深層学習≒人工知能??
機械学習とは何か:
機械学習はデータ解析の一分野
4 KYOTO UNIVERSITY
 データ解析手法の大別:予測と発見
– 予測:「これから何が起こるのか?」 ≒ 教師つき学習
• 過去~現在のデータをもとに、将来のデータについての予測
をおこなう
– 発見:「いま何が起きているのか?」 ≒ 教師なし学習
• 過去~現在のデータをもとに、何らかの知見を得る
機械学習には何ができるか:
予測と発見
5 KYOTO UNIVERSITY
 マーケティング
– 商品推薦
– Web上の評判分析
– Web広告の最適化
 金融
– 信用リスク評価
– 不正検出
 サイエンス
– 遺伝子予測(バイオ)
– 新規材料開発(材料)
機械学習の様々な応用:
オンラインショッピングからシステム監視まで
 Web
– 検索
– スパム判定
– SNS
 ヘルスケア
– 医療診断
 マルチメディア
– 音声・画像認識
 システム監視
– 故障・異常検知
6 KYOTO UNIVERSITY
 進む機械学習の社会実装
– 不確定で膨大なデータに対応する方法論が進展
– ブラックボックス・ツールが整備
 IT分野に限らず、様々な分野への応用が検討されている
– ヘルスケア、航空、自動車、バイオ、製薬、材料科学、…
非IT系分野への広がり:
機械学習は社会実装フェーズ
7 KYOTO UNIVERSITY
 機械学習等によるデータの自動解析は、しばしばデータ解析の中
心として捉えられる
 データ解析全体のプロセスは、その大部分が人間に依存する
データ解析の労働集約性:
データ解析プロセスの大部分が人間に依存
データ収集 データ統合
クレンジング
注釈 視覚化
モデル化
評価/解釈
電子化
データ解析のプロセス
大部分が
属人的・労働集約的
データ化(データフィケーション) データ分析(アナリティクス)
8 KYOTO UNIVERSITY
 「2015年までに、ビッグデータ需要により創出される雇用機会は
世界で440万人に達するが、実際に採用につながるのは3分の1
のみにとどまる」(ガートナー)
 「データサイエンティストは、21世紀でもっとも‟セクシー„な職業」
(ハーバード・ビジネス・レビュー)
 これらの‟煽り„はデータ解析の労働集約性の高さを示している
データサイエンティストの不足:
データ解析の属人性の象徴
9 KYOTO UNIVERSITY
 クラウドソーシングとは:
「(インターネットを通じて)不特定多数の人に仕事を
依頼すること、もしくはその仕組み」
 クラウドソーシングのメリット:群衆の叡智にアクセス
(「三人寄れば文殊の知恵」)
 Foldit:タンパク質の立体構造予測
– オンラインゲームの形で実現
クラウドソーシングの登場:
みんなの力を合わせて目標を達成
※ クラウドソーシング ≠ クラウドコンピューティング
10 KYOTO UNIVERSITY
クラウドソーシングによるデータ解析:
知識とスキルを集結してデータ解析を実現
データ収集 データ統合
クレンジング
注釈 視覚化
モデル化
評価/解釈
電子化
データ解析のプロセス
データ化(データフィケーション) データ分析(アナリティクス)
クラウドソーシングによる
プロセス実行
11 KYOTO UNIVERSITY
 自動化の進むモデリング部分も実は労働集約的
–“No free lunch”定理: どんな場合でもうまくいく方法はない
–しばしば、結果を大きく左右するのは、既存の手法の選択+
データ固有のヒューリスティクス(特徴量、サンプル選択など)
 データに合ったモデルを(人手で)広範囲に探索する必要がある
 データ解析コンペティション:モデリングのクラウドソーシング
–データを公開し、結果(予測精度)を競う
クラウドソーシングによる予測モデリング:
予測コンペティションによる網羅的なモデル探索
12 KYOTO UNIVERSITY
 Wikipediaのリンク予測を題材にしたコンペティションを開催
 短期間で‟プロ„ を遥かに超える予測精度を達成
–初期分析結果を4日目で抜き、最終的に20%以上の精度向上
予測コンペティションの威力:
短期間で‟プロ„を超える精度を実現
初期分析の
予測精度
4日で
抜き去られる
20%以上の
精度向上
予測精度
Baba et al. Crowdsourced Data Analytics. In DSAA 2014.
13 KYOTO UNIVERSITY
 :教育用途コンペプラットフォーム
–データ解析の実践を通じた、データ解析教育を目的に開発
–大学講義・演習、企業内研修での利用も
 現在約400名が参加登録
 10を超えるコンペティションを開催
ビッグデータ大学:
実践を通じたデータ解析教育のためのプラットフォーム
14 KYOTO UNIVERSITY
 コンペティションの流れ:
1. 訓練データ(正解付き)とテストデータの公開
2. テストデータに対する予測の提出
3. 期間終了後、テストデータに対する予測精度で順位決定
 リーダーボード:
中間評価用データ(テストデータの一部)に対する順位を公開
コンペティションの仕組み:
テストデータに対する予測精度で勝者を決定
データ公開
予測提出 y=f(x)
最終結果
データ提供者
参加者
数週間~
数か月
15 KYOTO UNIVERSITY
予測精度の評価(イメージ):
正解を隠したテストデータで予測の良さを評価
入力
(配列)
正解
GATTAT ○
ATGCTC ×
CGTGAT ×
CACTTA ○
モデル作成 モデル適用
入力
(配列)
予測
正解
(非公開)
AAAAA ○ ○
TATATA × ×
GTACTA × ×
クロマチン特徴領域が
含まれるか否か
訓練データ テストデータ
予測と正解の一致率で評価
入力
(配列)
予測
正解
(非公開)
AAAAA ○ ○
TATATA × ×
GTACTA × ×
入力
(配列)
予測
正解
(非公開)
AAAAA ○
TATATA ×
GTACTA ×
入力
(配列)
予測
正解
(非公開)
AAAAA
TATATA
GTACTA
16 KYOTO UNIVERSITY
より具体的な予測精度の評価:
予測の自信度を提出⇒正解との相関(AUC)で評価
入力
(配列)
正解
GATTAT ○
ATGCTC ×
CGTGAT ×
CACTTA ○
モデル作成 モデル適用
入力
(配列)
予測
正解
(非公開)
AAAAA ○ ○
TATATA × ×
GTACTA × ×
訓練データ テストデータ
予測と正解の相関(AUC)
で評価
入力
(配列)
予測
正解
(非公開)
AAAAA 0.9 ○
TATATA 0.3 ×
GTACTA 0.2 ×
クロマチン特徴領域が
含まれる自信度
17 KYOTO UNIVERSITY
さらに今回のチャレンジは複数ラベルの予測:
複数のラベルそれぞれに自信度を提出
入力
(配列)
正解
条件1 … 条件8
GATTAT ○ … ×
ATGCTC × … ○
CGTGAT × … ×
CACTTA ○ … ×
訓練データ テストデータ
入力
(配列)
正解
条件1 … 条件8
AAAAA 0.9 … 0.1
TATATA 0.3 … 0.8
GTACTA 0.2 … 0.4
8条件それぞれに対する
正解
8条件それぞれに対する
予測(自信度)
18 KYOTO UNIVERSITY
アカウント作成http://universityofbigdata.net
19 KYOTO UNIVERSITY
今回のチャレンジ
20 KYOTO UNIVERSITY
データをダウンロード
いくつかの規約
に同意
データファイルの
説明
21 KYOTO UNIVERSITY
テストデータへの予測
ファイルを提出
(1日3回まで)
現在の順位
(テストデータの一部で算出)
22 KYOTO UNIVERSITY
最終順位
(テストデータ全部で算出)
チャレンジ終了時
23 KYOTO UNIVERSITY
 広がる機械学習の応用
 コンペティション形式で実際の解析を通じた学習
「DNA配列からのクロマチン特徴予測」
 みんなの力で「専門家」を超える
 コンペティション参加者は
–遺伝研のスーパーコンピュータ
–MATLAB
が利用可能
まとめ:
機械学習と予測モデリングコンペティション

More Related Content

Similar to [DDBJ Challenge 2016] 機械学習と予測モデルコンペティション

中国のAI産業状況、スタートアップ情報リサーチ
中国のAI産業状況、スタートアップ情報リサーチ中国のAI産業状況、スタートアップ情報リサーチ
中国のAI産業状況、スタートアップ情報リサーチYangnuoLiu
 
ソフトウェアとAIの進化が示唆するもの Final Final revised Final
ソフトウェアとAIの進化が示唆するもの Final Final revised FinalソフトウェアとAIの進化が示唆するもの Final Final revised Final
ソフトウェアとAIの進化が示唆するもの Final Final revised FinalRoy Sugimura, Ph.D
 
全脳アーキテクチャ実現への長き道のりをいかに支えるのか
全脳アーキテクチャ実現への長き道のりをいかに支えるのか全脳アーキテクチャ実現への長き道のりをいかに支えるのか
全脳アーキテクチャ実現への長き道のりをいかに支えるのかドワンゴ 人工知能研究所
 
CMSI計算科学技術特論C (2015) ソフトウェア工学の視点から(前編)
CMSI計算科学技術特論C (2015) ソフトウェア工学の視点から(前編)CMSI計算科学技術特論C (2015) ソフトウェア工学の視点から(前編)
CMSI計算科学技術特論C (2015) ソフトウェア工学の視点から(前編)Computational Materials Science Initiative
 
ml_15min_tobitate_tech_8th
ml_15min_tobitate_tech_8thml_15min_tobitate_tech_8th
ml_15min_tobitate_tech_8thYumaMatsuoka
 
構造改革徹底推進会合におけるプレゼン
構造改革徹底推進会合におけるプレゼン構造改革徹底推進会合におけるプレゼン
構造改革徹底推進会合におけるプレゼンHiroshi Maruyama
 
中小企業による人工知能の活用~既存事業のアップグレードとイノベーション~
中小企業による人工知能の活用~既存事業のアップグレードとイノベーション~中小企業による人工知能の活用~既存事業のアップグレードとイノベーション~
中小企業による人工知能の活用~既存事業のアップグレードとイノベーション~Kentaro Imai
 
Computer vision, human vision, and your vision
Computer vision, human vision, and your visionComputer vision, human vision, and your vision
Computer vision, human vision, and your visionMasayuki Tanaka
 
IT化と1億総クリエイター化:知的財産権制度についての近い未来の話
IT化と1億総クリエイター化:知的財産権制度についての近い未来の話IT化と1億総クリエイター化:知的財産権制度についての近い未来の話
IT化と1億総クリエイター化:知的財産権制度についての近い未来の話Tohru Yoshioka-Kobayashi
 
デジタルが切り開く未来ビジネス
デジタルが切り開く未来ビジネスデジタルが切り開く未来ビジネス
デジタルが切り開く未来ビジネスOsaka University
 
AIシステム開発のプロジェクトマネジメント
AIシステム開発のプロジェクトマネジメントAIシステム開発のプロジェクトマネジメント
AIシステム開発のプロジェクトマネジメントNaoshi Uchihira
 
超AIが倫理的であれば 共存できるのか? ー進化倫理学を参考に ー
超AIが倫理的であれば共存できるのか?ー進化倫理学を参考に ー超AIが倫理的であれば共存できるのか?ー進化倫理学を参考に ー
超AIが倫理的であれば 共存できるのか? ー進化倫理学を参考に ーThe Whole Brain Architecture Initiative
 
AI活用の事始め~データサイエンスの観点から~
AI活用の事始め~データサイエンスの観点から~AI活用の事始め~データサイエンスの観点から~
AI活用の事始め~データサイエンスの観点から~Daiki Kato
 

Similar to [DDBJ Challenge 2016] 機械学習と予測モデルコンペティション (17)

20180719 cocn dist
20180719 cocn dist20180719 cocn dist
20180719 cocn dist
 
中国のAI産業状況、スタートアップ情報リサーチ
中国のAI産業状況、スタートアップ情報リサーチ中国のAI産業状況、スタートアップ情報リサーチ
中国のAI産業状況、スタートアップ情報リサーチ
 
ソフトウェアとAIの進化が示唆するもの Final Final revised Final
ソフトウェアとAIの進化が示唆するもの Final Final revised FinalソフトウェアとAIの進化が示唆するもの Final Final revised Final
ソフトウェアとAIの進化が示唆するもの Final Final revised Final
 
20181030 fun
20181030 fun20181030 fun
20181030 fun
 
全脳アーキテクチャ実現への長き道のりをいかに支えるのか
全脳アーキテクチャ実現への長き道のりをいかに支えるのか全脳アーキテクチャ実現への長き道のりをいかに支えるのか
全脳アーキテクチャ実現への長き道のりをいかに支えるのか
 
CMSI計算科学技術特論C (2015) ソフトウェア工学の視点から(前編)
CMSI計算科学技術特論C (2015) ソフトウェア工学の視点から(前編)CMSI計算科学技術特論C (2015) ソフトウェア工学の視点から(前編)
CMSI計算科学技術特論C (2015) ソフトウェア工学の視点から(前編)
 
ml_15min_tobitate_tech_8th
ml_15min_tobitate_tech_8thml_15min_tobitate_tech_8th
ml_15min_tobitate_tech_8th
 
構造改革徹底推進会合におけるプレゼン
構造改革徹底推進会合におけるプレゼン構造改革徹底推進会合におけるプレゼン
構造改革徹底推進会合におけるプレゼン
 
中小企業による人工知能の活用~既存事業のアップグレードとイノベーション~
中小企業による人工知能の活用~既存事業のアップグレードとイノベーション~中小企業による人工知能の活用~既存事業のアップグレードとイノベーション~
中小企業による人工知能の活用~既存事業のアップグレードとイノベーション~
 
Computer vision, human vision, and your vision
Computer vision, human vision, and your visionComputer vision, human vision, and your vision
Computer vision, human vision, and your vision
 
IT化と1億総クリエイター化:知的財産権制度についての近い未来の話
IT化と1億総クリエイター化:知的財産権制度についての近い未来の話IT化と1億総クリエイター化:知的財産権制度についての近い未来の話
IT化と1億総クリエイター化:知的財産権制度についての近い未来の話
 
デジタルが切り開く未来ビジネス
デジタルが切り開く未来ビジネスデジタルが切り開く未来ビジネス
デジタルが切り開く未来ビジネス
 
地方創生It未来大v3
地方創生It未来大v3地方創生It未来大v3
地方創生It未来大v3
 
AIシステム開発のプロジェクトマネジメント
AIシステム開発のプロジェクトマネジメントAIシステム開発のプロジェクトマネジメント
AIシステム開発のプロジェクトマネジメント
 
20181120 ldp ai
20181120 ldp ai20181120 ldp ai
20181120 ldp ai
 
超AIが倫理的であれば 共存できるのか? ー進化倫理学を参考に ー
超AIが倫理的であれば共存できるのか?ー進化倫理学を参考に ー超AIが倫理的であれば共存できるのか?ー進化倫理学を参考に ー
超AIが倫理的であれば 共存できるのか? ー進化倫理学を参考に ー
 
AI活用の事始め~データサイエンスの観点から~
AI活用の事始め~データサイエンスの観点から~AI活用の事始め~データサイエンスの観点から~
AI活用の事始め~データサイエンスの観点から~
 

More from DNA Data Bank of Japan center

NGS解析を始めた時にぶつかりがちな小さい壁あれこれ
NGS解析を始めた時にぶつかりがちな小さい壁あれこれNGS解析を始めた時にぶつかりがちな小さい壁あれこれ
NGS解析を始めた時にぶつかりがちな小さい壁あれこれDNA Data Bank of Japan center
 
[All-in-one2016] ゲノム配列と蛋白質立体構造の統合的検索とモデリング
[All-in-one2016] ゲノム配列と蛋白質立体構造の統合的検索とモデリング[All-in-one2016] ゲノム配列と蛋白質立体構造の統合的検索とモデリング
[All-in-one2016] ゲノム配列と蛋白質立体構造の統合的検索とモデリングDNA Data Bank of Japan center
 
[All-in-one2015] 文献情報関連サービス活用法
[All-in-one2015] 文献情報関連サービス活用法[All-in-one2015] 文献情報関連サービス活用法
[All-in-one2015] 文献情報関連サービス活用法DNA Data Bank of Japan center
 
[All-in-one2015] データベース統合化の取り組みとNBDCで提供するサービス
[All-in-one2015] データベース統合化の取り組みとNBDCで提供するサービス[All-in-one2015] データベース統合化の取り組みとNBDCで提供するサービス
[All-in-one2015] データベース統合化の取り組みとNBDCで提供するサービスDNA Data Bank of Japan center
 
[All-in-one2015] セマンティックウェブ技術を活用した生命科学データ利用環境の紹介
[All-in-one2015] セマンティックウェブ技術を活用した生命科学データ利用環境の紹介[All-in-one2015] セマンティックウェブ技術を活用した生命科学データ利用環境の紹介
[All-in-one2015] セマンティックウェブ技術を活用した生命科学データ利用環境の紹介DNA Data Bank of Japan center
 
[All-in-one2016] 文献情報を利用したサービスの活用法
[All-in-one2016] 文献情報を利用したサービスの活用法[All-in-one2016] 文献情報を利用したサービスの活用法
[All-in-one2016] 文献情報を利用したサービスの活用法DNA Data Bank of Japan center
 
[All-in-one2016] JST/NBDC が提供するサービス及びプロジェクト概観
[All-in-one2016] JST/NBDC が提供するサービス及びプロジェクト概観[All-in-one2016] JST/NBDC が提供するサービス及びプロジェクト概観
[All-in-one2016] JST/NBDC が提供するサービス及びプロジェクト概観DNA Data Bank of Japan center
 
[All-in-one2016] 立体構造データの検索・可視化法
[All-in-one2016] 立体構造データの検索・可視化法[All-in-one2016] 立体構造データの検索・可視化法
[All-in-one2016] 立体構造データの検索・可視化法DNA Data Bank of Japan center
 
[All-in-one2016] 文献情報を利用したサービスの活用法
[All-in-one2016] 文献情報を利用したサービスの活用法[All-in-one2016] 文献情報を利用したサービスの活用法
[All-in-one2016] 文献情報を利用したサービスの活用法DNA Data Bank of Japan center
 
[All-in-one2016] DDBJデータベースを用いた配列の検索と解析
[All-in-one2016] DDBJデータベースを用いた配列の検索と解析[All-in-one2016] DDBJデータベースを用いた配列の検索と解析
[All-in-one2016] DDBJデータベースを用いた配列の検索と解析DNA Data Bank of Japan center
 
[All in-one2017] 「生命の素子」のカタチのデータベース: 蛋質構造データバンク
[All in-one2017] 「生命の素子」のカタチのデータベース: 蛋質構造データバンク[All in-one2017] 「生命の素子」のカタチのデータベース: 蛋質構造データバンク
[All in-one2017] 「生命の素子」のカタチのデータベース: 蛋質構造データバンクDNA Data Bank of Japan center
 
[All in-one2017] 誰でも使える最先端の研究成果/今日からあなたも生命科学者
[All in-one2017] 誰でも使える最先端の研究成果/今日からあなたも生命科学者[All in-one2017] 誰でも使える最先端の研究成果/今日からあなたも生命科学者
[All in-one2017] 誰でも使える最先端の研究成果/今日からあなたも生命科学者DNA Data Bank of Japan center
 
[DDBJing34] NIG SuperComputer の利用方法(1) PCに公開鍵を設定してスパコンにログインする(Mac用)
[DDBJing34]  NIG SuperComputer の利用方法(1) PCに公開鍵を設定してスパコンにログインする(Mac用)[DDBJing34]  NIG SuperComputer の利用方法(1) PCに公開鍵を設定してスパコンにログインする(Mac用)
[DDBJing34] NIG SuperComputer の利用方法(1) PCに公開鍵を設定してスパコンにログインする(Mac用)DNA Data Bank of Japan center
 
[DDBJing34]NIG SuperComputer の利用方法(1) PCに公開鍵を設定してスパコンにログインする(Win用)
[DDBJing34]NIG SuperComputer の利用方法(1) PCに公開鍵を設定してスパコンにログインする(Win用)[DDBJing34]NIG SuperComputer の利用方法(1) PCに公開鍵を設定してスパコンにログインする(Win用)
[DDBJing34]NIG SuperComputer の利用方法(1) PCに公開鍵を設定してスパコンにログインする(Win用)DNA Data Bank of Japan center
 
[DDBJjing34] DRA(DDBJ Read Sequence Archive) の紹介
[DDBJjing34] DRA(DDBJ Read Sequence Archive) の紹介[DDBJjing34] DRA(DDBJ Read Sequence Archive) の紹介
[DDBJjing34] DRA(DDBJ Read Sequence Archive) の紹介DNA Data Bank of Japan center
 

More from DNA Data Bank of Japan center (20)

NGS解析を始めた時にぶつかりがちな小さい壁あれこれ
NGS解析を始めた時にぶつかりがちな小さい壁あれこれNGS解析を始めた時にぶつかりがちな小さい壁あれこれ
NGS解析を始めた時にぶつかりがちな小さい壁あれこれ
 
[DDBJing27] DDBJ Pipeline の紹介と実習
[DDBJing27] DDBJ Pipeline の紹介と実習[DDBJing27] DDBJ Pipeline の紹介と実習
[DDBJing27] DDBJ Pipeline の紹介と実習
 
[All-in-one2016] PDBデータの検索・見方
[All-in-one2016] PDBデータの検索・見方[All-in-one2016] PDBデータの検索・見方
[All-in-one2016] PDBデータの検索・見方
 
[All-in-one2016] ゲノム配列と蛋白質立体構造の統合的検索とモデリング
[All-in-one2016] ゲノム配列と蛋白質立体構造の統合的検索とモデリング[All-in-one2016] ゲノム配列と蛋白質立体構造の統合的検索とモデリング
[All-in-one2016] ゲノム配列と蛋白質立体構造の統合的検索とモデリング
 
[All-in-one2015] 文献情報関連サービス活用法
[All-in-one2015] 文献情報関連サービス活用法[All-in-one2015] 文献情報関連サービス活用法
[All-in-one2015] 文献情報関連サービス活用法
 
[All-in-one2015] データベース統合化の取り組みとNBDCで提供するサービス
[All-in-one2015] データベース統合化の取り組みとNBDCで提供するサービス[All-in-one2015] データベース統合化の取り組みとNBDCで提供するサービス
[All-in-one2015] データベース統合化の取り組みとNBDCで提供するサービス
 
[All-in-one2015] DDBJ へのデータ登録
[All-in-one2015] DDBJ へのデータ登録[All-in-one2015] DDBJ へのデータ登録
[All-in-one2015] DDBJ へのデータ登録
 
[All-in-one2015] セマンティックウェブ技術を活用した生命科学データ利用環境の紹介
[All-in-one2015] セマンティックウェブ技術を活用した生命科学データ利用環境の紹介[All-in-one2015] セマンティックウェブ技術を活用した生命科学データ利用環境の紹介
[All-in-one2015] セマンティックウェブ技術を活用した生命科学データ利用環境の紹介
 
[All-in-one2016] 文献情報を利用したサービスの活用法
[All-in-one2016] 文献情報を利用したサービスの活用法[All-in-one2016] 文献情報を利用したサービスの活用法
[All-in-one2016] 文献情報を利用したサービスの活用法
 
[All-in-one2016] JST/NBDC が提供するサービス及びプロジェクト概観
[All-in-one2016] JST/NBDC が提供するサービス及びプロジェクト概観[All-in-one2016] JST/NBDC が提供するサービス及びプロジェクト概観
[All-in-one2016] JST/NBDC が提供するサービス及びプロジェクト概観
 
[All-in-one2016] 立体構造データの検索・可視化法
[All-in-one2016] 立体構造データの検索・可視化法[All-in-one2016] 立体構造データの検索・可視化法
[All-in-one2016] 立体構造データの検索・可視化法
 
[All-in-one2016] 文献情報を利用したサービスの活用法
[All-in-one2016] 文献情報を利用したサービスの活用法[All-in-one2016] 文献情報を利用したサービスの活用法
[All-in-one2016] 文献情報を利用したサービスの活用法
 
[All-in-one2016] DDBJデータベースを用いた配列の検索と解析
[All-in-one2016] DDBJデータベースを用いた配列の検索と解析[All-in-one2016] DDBJデータベースを用いた配列の検索と解析
[All-in-one2016] DDBJデータベースを用いた配列の検索と解析
 
[All in-one2017] 「生命の素子」のカタチのデータベース: 蛋質構造データバンク
[All in-one2017] 「生命の素子」のカタチのデータベース: 蛋質構造データバンク[All in-one2017] 「生命の素子」のカタチのデータベース: 蛋質構造データバンク
[All in-one2017] 「生命の素子」のカタチのデータベース: 蛋質構造データバンク
 
[All in-one2017] 誰でも使える最先端の研究成果/今日からあなたも生命科学者
[All in-one2017] 誰でも使える最先端の研究成果/今日からあなたも生命科学者[All in-one2017] 誰でも使える最先端の研究成果/今日からあなたも生命科学者
[All in-one2017] 誰でも使える最先端の研究成果/今日からあなたも生命科学者
 
[DDBJing34] NIG SuperComputer の利用方法(1) PCに公開鍵を設定してスパコンにログインする(Mac用)
[DDBJing34]  NIG SuperComputer の利用方法(1) PCに公開鍵を設定してスパコンにログインする(Mac用)[DDBJing34]  NIG SuperComputer の利用方法(1) PCに公開鍵を設定してスパコンにログインする(Mac用)
[DDBJing34] NIG SuperComputer の利用方法(1) PCに公開鍵を設定してスパコンにログインする(Mac用)
 
[DDBJing34]NIG SuperComputer の利用方法(1) PCに公開鍵を設定してスパコンにログインする(Win用)
[DDBJing34]NIG SuperComputer の利用方法(1) PCに公開鍵を設定してスパコンにログインする(Win用)[DDBJing34]NIG SuperComputer の利用方法(1) PCに公開鍵を設定してスパコンにログインする(Win用)
[DDBJing34]NIG SuperComputer の利用方法(1) PCに公開鍵を設定してスパコンにログインする(Win用)
 
[DDBJjing34] DRA(DDBJ Read Sequence Archive) の紹介
[DDBJjing34] DRA(DDBJ Read Sequence Archive) の紹介[DDBJjing34] DRA(DDBJ Read Sequence Archive) の紹介
[DDBJjing34] DRA(DDBJ Read Sequence Archive) の紹介
 
[DDBJing34] BioProject, BioSample の紹介
[DDBJing34] BioProject, BioSample の紹介[DDBJing34] BioProject, BioSample の紹介
[DDBJing34] BioProject, BioSample の紹介
 
[DDBJing34] DDBJ と NIG SuperComputer の紹介
[DDBJing34] DDBJ と NIG SuperComputer の紹介[DDBJing34] DDBJ と NIG SuperComputer の紹介
[DDBJing34] DDBJ と NIG SuperComputer の紹介
 

Recently uploaded

【ゲーム理論入門】ChatGPTが作成した ゲーム理論の問題を解く #3 Slide
【ゲーム理論入門】ChatGPTが作成した ゲーム理論の問題を解く #3 Slide【ゲーム理論入門】ChatGPTが作成した ゲーム理論の問題を解く #3 Slide
【ゲーム理論入門】ChatGPTが作成した ゲーム理論の問題を解く #3 Slidessusere0a682
 
My Inspire High Award 2024「スーパーマーケットで回収されたキャベツ外葉は廃棄されているの?」
My Inspire High Award 2024「スーパーマーケットで回収されたキャベツ外葉は廃棄されているの?」My Inspire High Award 2024「スーパーマーケットで回収されたキャベツ外葉は廃棄されているの?」
My Inspire High Award 2024「スーパーマーケットで回収されたキャベツ外葉は廃棄されているの?」inspirehighstaff03
 
Divorce agreements in administrative work.pdf
Divorce agreements in administrative work.pdfDivorce agreements in administrative work.pdf
Divorce agreements in administrative work.pdfoganekyokoi
 
My Inspire High Award 2024「老いることは不幸なこと?」
My Inspire High Award 2024「老いることは不幸なこと?」My Inspire High Award 2024「老いることは不幸なこと?」
My Inspire High Award 2024「老いることは不幸なこと?」inspirehighstaff03
 
My Inspire High Award 2024      「家族とは何か」
My Inspire High Award 2024      「家族とは何か」My Inspire High Award 2024      「家族とは何か」
My Inspire High Award 2024      「家族とは何か」inspirehighstaff03
 
Establishment and operation of medical corporations.pdf
Establishment and operation of medical corporations.pdfEstablishment and operation of medical corporations.pdf
Establishment and operation of medical corporations.pdfoganekyokoi
 
リアル戦国探究in米沢 事前講座1スライド(スタッフ共有用)『川中島の謎』についてのスライド
リアル戦国探究in米沢 事前講座1スライド(スタッフ共有用)『川中島の謎』についてのスライドリアル戦国探究in米沢 事前講座1スライド(スタッフ共有用)『川中島の謎』についてのスライド
リアル戦国探究in米沢 事前講座1スライド(スタッフ共有用)『川中島の謎』についてのスライドKen Fukui
 
My Inspire High Award2024「外国人が日本のテーブルマナーに驚く理由は?」
My Inspire High Award2024「外国人が日本のテーブルマナーに驚く理由は?」My Inspire High Award2024「外国人が日本のテーブルマナーに驚く理由は?」
My Inspire High Award2024「外国人が日本のテーブルマナーに驚く理由は?」inspirehighstaff03
 
リアル戦国探究in米沢 当日講座2スライド(スタッフ共有用)『人を致すも人に致されず』についてのスライド
リアル戦国探究in米沢 当日講座2スライド(スタッフ共有用)『人を致すも人に致されず』についてのスライドリアル戦国探究in米沢 当日講座2スライド(スタッフ共有用)『人を致すも人に致されず』についてのスライド
リアル戦国探究in米沢 当日講座2スライド(スタッフ共有用)『人を致すも人に致されず』についてのスライドKen Fukui
 
My Inspire High Award 2024    「孤独は敵なのか?」
My Inspire High Award 2024    「孤独は敵なのか?」My Inspire High Award 2024    「孤独は敵なのか?」
My Inspire High Award 2024    「孤独は敵なのか?」inspirehighstaff03
 
My Inspire High Award 2024 「AIと仲良くなるには?」
My Inspire High Award 2024 「AIと仲良くなるには?」My Inspire High Award 2024 「AIと仲良くなるには?」
My Inspire High Award 2024 「AIと仲良くなるには?」inspirehighstaff03
 
TEAMIN Service overview for customer_20240422.pdf
TEAMIN Service overview for customer_20240422.pdfTEAMIN Service overview for customer_20240422.pdf
TEAMIN Service overview for customer_20240422.pdfyukisuga3
 
My Inspire High Award 2024 「本当の『悪者』って何?」
My Inspire High Award 2024 「本当の『悪者』って何?」My Inspire High Award 2024 「本当の『悪者』って何?」
My Inspire High Award 2024 「本当の『悪者』って何?」inspirehighstaff03
 
My Inspire High Award 2024「なぜ議会への関心が低いのか?」
My Inspire High Award 2024「なぜ議会への関心が低いのか?」My Inspire High Award 2024「なぜ議会への関心が低いのか?」
My Inspire High Award 2024「なぜ議会への関心が低いのか?」inspirehighstaff03
 
My Inspire High Award 2024「なぜ、好きなことにいつかは飽きるの」
My Inspire High Award 2024「なぜ、好きなことにいつかは飽きるの」My Inspire High Award 2024「なぜ、好きなことにいつかは飽きるの」
My Inspire High Award 2024「なぜ、好きなことにいつかは飽きるの」inspirehighstaff03
 
リアル戦国探究in米沢 当日講座3スライド(スタッフ共有用)『糧は三度はさいせず』についてのスライド
リアル戦国探究in米沢 当日講座3スライド(スタッフ共有用)『糧は三度はさいせず』についてのスライドリアル戦国探究in米沢 当日講座3スライド(スタッフ共有用)『糧は三度はさいせず』についてのスライド
リアル戦国探究in米沢 当日講座3スライド(スタッフ共有用)『糧は三度はさいせず』についてのスライドKen Fukui
 
My Inspire High Award 2024「なぜ人は他人と違うところがあってもそれをなかなか誇れないのか?」
My Inspire High Award 2024「なぜ人は他人と違うところがあってもそれをなかなか誇れないのか?」My Inspire High Award 2024「なぜ人は他人と違うところがあってもそれをなかなか誇れないのか?」
My Inspire High Award 2024「なぜ人は他人と違うところがあってもそれをなかなか誇れないのか?」inspirehighstaff03
 
My Inspire High Award 2024「他者と自分、対立を防ぐには?」
My Inspire High Award 2024「他者と自分、対立を防ぐには?」My Inspire High Award 2024「他者と自分、対立を防ぐには?」
My Inspire High Award 2024「他者と自分、対立を防ぐには?」inspirehighstaff03
 
My Inspire High Award 2024  「正義って存在するの?」
My Inspire High Award 2024  「正義って存在するの?」My Inspire High Award 2024  「正義って存在するの?」
My Inspire High Award 2024  「正義って存在するの?」inspirehighstaff03
 
What I did before opening my business..pdf
What I did before opening my business..pdfWhat I did before opening my business..pdf
What I did before opening my business..pdfoganekyokoi
 

Recently uploaded (20)

【ゲーム理論入門】ChatGPTが作成した ゲーム理論の問題を解く #3 Slide
【ゲーム理論入門】ChatGPTが作成した ゲーム理論の問題を解く #3 Slide【ゲーム理論入門】ChatGPTが作成した ゲーム理論の問題を解く #3 Slide
【ゲーム理論入門】ChatGPTが作成した ゲーム理論の問題を解く #3 Slide
 
My Inspire High Award 2024「スーパーマーケットで回収されたキャベツ外葉は廃棄されているの?」
My Inspire High Award 2024「スーパーマーケットで回収されたキャベツ外葉は廃棄されているの?」My Inspire High Award 2024「スーパーマーケットで回収されたキャベツ外葉は廃棄されているの?」
My Inspire High Award 2024「スーパーマーケットで回収されたキャベツ外葉は廃棄されているの?」
 
Divorce agreements in administrative work.pdf
Divorce agreements in administrative work.pdfDivorce agreements in administrative work.pdf
Divorce agreements in administrative work.pdf
 
My Inspire High Award 2024「老いることは不幸なこと?」
My Inspire High Award 2024「老いることは不幸なこと?」My Inspire High Award 2024「老いることは不幸なこと?」
My Inspire High Award 2024「老いることは不幸なこと?」
 
My Inspire High Award 2024      「家族とは何か」
My Inspire High Award 2024      「家族とは何か」My Inspire High Award 2024      「家族とは何か」
My Inspire High Award 2024      「家族とは何か」
 
Establishment and operation of medical corporations.pdf
Establishment and operation of medical corporations.pdfEstablishment and operation of medical corporations.pdf
Establishment and operation of medical corporations.pdf
 
リアル戦国探究in米沢 事前講座1スライド(スタッフ共有用)『川中島の謎』についてのスライド
リアル戦国探究in米沢 事前講座1スライド(スタッフ共有用)『川中島の謎』についてのスライドリアル戦国探究in米沢 事前講座1スライド(スタッフ共有用)『川中島の謎』についてのスライド
リアル戦国探究in米沢 事前講座1スライド(スタッフ共有用)『川中島の謎』についてのスライド
 
My Inspire High Award2024「外国人が日本のテーブルマナーに驚く理由は?」
My Inspire High Award2024「外国人が日本のテーブルマナーに驚く理由は?」My Inspire High Award2024「外国人が日本のテーブルマナーに驚く理由は?」
My Inspire High Award2024「外国人が日本のテーブルマナーに驚く理由は?」
 
リアル戦国探究in米沢 当日講座2スライド(スタッフ共有用)『人を致すも人に致されず』についてのスライド
リアル戦国探究in米沢 当日講座2スライド(スタッフ共有用)『人を致すも人に致されず』についてのスライドリアル戦国探究in米沢 当日講座2スライド(スタッフ共有用)『人を致すも人に致されず』についてのスライド
リアル戦国探究in米沢 当日講座2スライド(スタッフ共有用)『人を致すも人に致されず』についてのスライド
 
My Inspire High Award 2024    「孤独は敵なのか?」
My Inspire High Award 2024    「孤独は敵なのか?」My Inspire High Award 2024    「孤独は敵なのか?」
My Inspire High Award 2024    「孤独は敵なのか?」
 
My Inspire High Award 2024 「AIと仲良くなるには?」
My Inspire High Award 2024 「AIと仲良くなるには?」My Inspire High Award 2024 「AIと仲良くなるには?」
My Inspire High Award 2024 「AIと仲良くなるには?」
 
TEAMIN Service overview for customer_20240422.pdf
TEAMIN Service overview for customer_20240422.pdfTEAMIN Service overview for customer_20240422.pdf
TEAMIN Service overview for customer_20240422.pdf
 
My Inspire High Award 2024 「本当の『悪者』って何?」
My Inspire High Award 2024 「本当の『悪者』って何?」My Inspire High Award 2024 「本当の『悪者』って何?」
My Inspire High Award 2024 「本当の『悪者』って何?」
 
My Inspire High Award 2024「なぜ議会への関心が低いのか?」
My Inspire High Award 2024「なぜ議会への関心が低いのか?」My Inspire High Award 2024「なぜ議会への関心が低いのか?」
My Inspire High Award 2024「なぜ議会への関心が低いのか?」
 
My Inspire High Award 2024「なぜ、好きなことにいつかは飽きるの」
My Inspire High Award 2024「なぜ、好きなことにいつかは飽きるの」My Inspire High Award 2024「なぜ、好きなことにいつかは飽きるの」
My Inspire High Award 2024「なぜ、好きなことにいつかは飽きるの」
 
リアル戦国探究in米沢 当日講座3スライド(スタッフ共有用)『糧は三度はさいせず』についてのスライド
リアル戦国探究in米沢 当日講座3スライド(スタッフ共有用)『糧は三度はさいせず』についてのスライドリアル戦国探究in米沢 当日講座3スライド(スタッフ共有用)『糧は三度はさいせず』についてのスライド
リアル戦国探究in米沢 当日講座3スライド(スタッフ共有用)『糧は三度はさいせず』についてのスライド
 
My Inspire High Award 2024「なぜ人は他人と違うところがあってもそれをなかなか誇れないのか?」
My Inspire High Award 2024「なぜ人は他人と違うところがあってもそれをなかなか誇れないのか?」My Inspire High Award 2024「なぜ人は他人と違うところがあってもそれをなかなか誇れないのか?」
My Inspire High Award 2024「なぜ人は他人と違うところがあってもそれをなかなか誇れないのか?」
 
My Inspire High Award 2024「他者と自分、対立を防ぐには?」
My Inspire High Award 2024「他者と自分、対立を防ぐには?」My Inspire High Award 2024「他者と自分、対立を防ぐには?」
My Inspire High Award 2024「他者と自分、対立を防ぐには?」
 
My Inspire High Award 2024  「正義って存在するの?」
My Inspire High Award 2024  「正義って存在するの?」My Inspire High Award 2024  「正義って存在するの?」
My Inspire High Award 2024  「正義って存在するの?」
 
What I did before opening my business..pdf
What I did before opening my business..pdfWhat I did before opening my business..pdf
What I did before opening my business..pdf
 

[DDBJ Challenge 2016] 機械学習と予測モデルコンペティション

  • 1. 1 KYOTO UNIVERSITY KYOTO UNIVERSITY DEPARTMENT OF INTELLIGENCE SCIENCE AND TECHNOLOGY 機械学習と予測モデルコンペティション 京都大学 情報学研究科 知能情報学専攻 鹿島 久嗣
  • 2. 2 KYOTO UNIVERSITY  “人工知能” の成功: – クイズ王に勝利した質問応答システム – プロ棋士に勝利したコンピュータ将棋・囲碁  今回の“人工知能”ブームは機械学習に支えられている – とりわけ深層学習がブームを牽引 機械学習の躍進: “人工知能”の成功を支えるコア技術
  • 3. 3 KYOTO UNIVERSITY  機械学習とは、もともと 「人間のもつ‟学習能力„を機械(計算機)にも持たせる」 ことを目指す人工知能の一研究分野  近年では、「統計的」機械学習が主流 – 遺伝子情報処理、自然言語処理他、ビジネス分野での成功 – データ解析技術一般を指すほかの領域との境は曖昧  深層学習の大ブレーク – 機械学習≒深層学習≒人工知能?? 機械学習とは何か: 機械学習はデータ解析の一分野
  • 4. 4 KYOTO UNIVERSITY  データ解析手法の大別:予測と発見 – 予測:「これから何が起こるのか?」 ≒ 教師つき学習 • 過去~現在のデータをもとに、将来のデータについての予測 をおこなう – 発見:「いま何が起きているのか?」 ≒ 教師なし学習 • 過去~現在のデータをもとに、何らかの知見を得る 機械学習には何ができるか: 予測と発見
  • 5. 5 KYOTO UNIVERSITY  マーケティング – 商品推薦 – Web上の評判分析 – Web広告の最適化  金融 – 信用リスク評価 – 不正検出  サイエンス – 遺伝子予測(バイオ) – 新規材料開発(材料) 機械学習の様々な応用: オンラインショッピングからシステム監視まで  Web – 検索 – スパム判定 – SNS  ヘルスケア – 医療診断  マルチメディア – 音声・画像認識  システム監視 – 故障・異常検知
  • 6. 6 KYOTO UNIVERSITY  進む機械学習の社会実装 – 不確定で膨大なデータに対応する方法論が進展 – ブラックボックス・ツールが整備  IT分野に限らず、様々な分野への応用が検討されている – ヘルスケア、航空、自動車、バイオ、製薬、材料科学、… 非IT系分野への広がり: 機械学習は社会実装フェーズ
  • 7. 7 KYOTO UNIVERSITY  機械学習等によるデータの自動解析は、しばしばデータ解析の中 心として捉えられる  データ解析全体のプロセスは、その大部分が人間に依存する データ解析の労働集約性: データ解析プロセスの大部分が人間に依存 データ収集 データ統合 クレンジング 注釈 視覚化 モデル化 評価/解釈 電子化 データ解析のプロセス 大部分が 属人的・労働集約的 データ化(データフィケーション) データ分析(アナリティクス)
  • 8. 8 KYOTO UNIVERSITY  「2015年までに、ビッグデータ需要により創出される雇用機会は 世界で440万人に達するが、実際に採用につながるのは3分の1 のみにとどまる」(ガートナー)  「データサイエンティストは、21世紀でもっとも‟セクシー„な職業」 (ハーバード・ビジネス・レビュー)  これらの‟煽り„はデータ解析の労働集約性の高さを示している データサイエンティストの不足: データ解析の属人性の象徴
  • 9. 9 KYOTO UNIVERSITY  クラウドソーシングとは: 「(インターネットを通じて)不特定多数の人に仕事を 依頼すること、もしくはその仕組み」  クラウドソーシングのメリット:群衆の叡智にアクセス (「三人寄れば文殊の知恵」)  Foldit:タンパク質の立体構造予測 – オンラインゲームの形で実現 クラウドソーシングの登場: みんなの力を合わせて目標を達成 ※ クラウドソーシング ≠ クラウドコンピューティング
  • 10. 10 KYOTO UNIVERSITY クラウドソーシングによるデータ解析: 知識とスキルを集結してデータ解析を実現 データ収集 データ統合 クレンジング 注釈 視覚化 モデル化 評価/解釈 電子化 データ解析のプロセス データ化(データフィケーション) データ分析(アナリティクス) クラウドソーシングによる プロセス実行
  • 11. 11 KYOTO UNIVERSITY  自動化の進むモデリング部分も実は労働集約的 –“No free lunch”定理: どんな場合でもうまくいく方法はない –しばしば、結果を大きく左右するのは、既存の手法の選択+ データ固有のヒューリスティクス(特徴量、サンプル選択など)  データに合ったモデルを(人手で)広範囲に探索する必要がある  データ解析コンペティション:モデリングのクラウドソーシング –データを公開し、結果(予測精度)を競う クラウドソーシングによる予測モデリング: 予測コンペティションによる網羅的なモデル探索
  • 12. 12 KYOTO UNIVERSITY  Wikipediaのリンク予測を題材にしたコンペティションを開催  短期間で‟プロ„ を遥かに超える予測精度を達成 –初期分析結果を4日目で抜き、最終的に20%以上の精度向上 予測コンペティションの威力: 短期間で‟プロ„を超える精度を実現 初期分析の 予測精度 4日で 抜き去られる 20%以上の 精度向上 予測精度 Baba et al. Crowdsourced Data Analytics. In DSAA 2014.
  • 13. 13 KYOTO UNIVERSITY  :教育用途コンペプラットフォーム –データ解析の実践を通じた、データ解析教育を目的に開発 –大学講義・演習、企業内研修での利用も  現在約400名が参加登録  10を超えるコンペティションを開催 ビッグデータ大学: 実践を通じたデータ解析教育のためのプラットフォーム
  • 14. 14 KYOTO UNIVERSITY  コンペティションの流れ: 1. 訓練データ(正解付き)とテストデータの公開 2. テストデータに対する予測の提出 3. 期間終了後、テストデータに対する予測精度で順位決定  リーダーボード: 中間評価用データ(テストデータの一部)に対する順位を公開 コンペティションの仕組み: テストデータに対する予測精度で勝者を決定 データ公開 予測提出 y=f(x) 最終結果 データ提供者 参加者 数週間~ 数か月
  • 15. 15 KYOTO UNIVERSITY 予測精度の評価(イメージ): 正解を隠したテストデータで予測の良さを評価 入力 (配列) 正解 GATTAT ○ ATGCTC × CGTGAT × CACTTA ○ モデル作成 モデル適用 入力 (配列) 予測 正解 (非公開) AAAAA ○ ○ TATATA × × GTACTA × × クロマチン特徴領域が 含まれるか否か 訓練データ テストデータ 予測と正解の一致率で評価 入力 (配列) 予測 正解 (非公開) AAAAA ○ ○ TATATA × × GTACTA × × 入力 (配列) 予測 正解 (非公開) AAAAA ○ TATATA × GTACTA × 入力 (配列) 予測 正解 (非公開) AAAAA TATATA GTACTA
  • 16. 16 KYOTO UNIVERSITY より具体的な予測精度の評価: 予測の自信度を提出⇒正解との相関(AUC)で評価 入力 (配列) 正解 GATTAT ○ ATGCTC × CGTGAT × CACTTA ○ モデル作成 モデル適用 入力 (配列) 予測 正解 (非公開) AAAAA ○ ○ TATATA × × GTACTA × × 訓練データ テストデータ 予測と正解の相関(AUC) で評価 入力 (配列) 予測 正解 (非公開) AAAAA 0.9 ○ TATATA 0.3 × GTACTA 0.2 × クロマチン特徴領域が 含まれる自信度
  • 17. 17 KYOTO UNIVERSITY さらに今回のチャレンジは複数ラベルの予測: 複数のラベルそれぞれに自信度を提出 入力 (配列) 正解 条件1 … 条件8 GATTAT ○ … × ATGCTC × … ○ CGTGAT × … × CACTTA ○ … × 訓練データ テストデータ 入力 (配列) 正解 条件1 … 条件8 AAAAA 0.9 … 0.1 TATATA 0.3 … 0.8 GTACTA 0.2 … 0.4 8条件それぞれに対する 正解 8条件それぞれに対する 予測(自信度)
  • 23. 23 KYOTO UNIVERSITY  広がる機械学習の応用  コンペティション形式で実際の解析を通じた学習 「DNA配列からのクロマチン特徴予測」  みんなの力で「専門家」を超える  コンペティション参加者は –遺伝研のスーパーコンピュータ –MATLAB が利用可能 まとめ: 機械学習と予測モデリングコンペティション