Submit Search
Upload
1.pdf
•
0 likes
•
28 views
S
ssuser7b0f20
Follow
GPTにできること・やるべきこと(化学・材料研究の視点で)
Read less
Read more
Technology
Report
Share
Report
Share
1 of 124
Download now
Download to read offline
Recommended
GPTにできること・やるべきこと(化学・材料研究の視点で)
GPTにできること・やるべきこと(化学・材料研究の視点で)
ssuser7b0f20
20130605-JSAI2013
20130605-JSAI2013
Hiroshi Kajino
ChatGPTの驚くべき対話能力 20230414APR.pdf
ChatGPTの驚くべき対話能力 20230414APR.pdf
YamashitaKatsushi
PythonとRによるデータ分析環境の構築と機械学習によるデータ認識 第3版
PythonとRによるデータ分析環境の構築と機械学習によるデータ認識 第3版
Katsuhiro Morishita
データアカデミー・エッセンス(東京)1
データアカデミー・エッセンス(東京)1
Hiroyuki Ichikawa
Jubatusの紹介@第6回さくさくテキストマイニング
Jubatusの紹介@第6回さくさくテキストマイニング
Yuya Unno
Prig 残業泥棒 - 01. プロローグ 120121 杉浦
Prig 残業泥棒 - 01. プロローグ 120121 杉浦
urasandesu
EmbulkとDigdagとデータ分析基盤と
EmbulkとDigdagとデータ分析基盤と
Toru Takahashi
Recommended
GPTにできること・やるべきこと(化学・材料研究の視点で)
GPTにできること・やるべきこと(化学・材料研究の視点で)
ssuser7b0f20
20130605-JSAI2013
20130605-JSAI2013
Hiroshi Kajino
ChatGPTの驚くべき対話能力 20230414APR.pdf
ChatGPTの驚くべき対話能力 20230414APR.pdf
YamashitaKatsushi
PythonとRによるデータ分析環境の構築と機械学習によるデータ認識 第3版
PythonとRによるデータ分析環境の構築と機械学習によるデータ認識 第3版
Katsuhiro Morishita
データアカデミー・エッセンス(東京)1
データアカデミー・エッセンス(東京)1
Hiroyuki Ichikawa
Jubatusの紹介@第6回さくさくテキストマイニング
Jubatusの紹介@第6回さくさくテキストマイニング
Yuya Unno
Prig 残業泥棒 - 01. プロローグ 120121 杉浦
Prig 残業泥棒 - 01. プロローグ 120121 杉浦
urasandesu
EmbulkとDigdagとデータ分析基盤と
EmbulkとDigdagとデータ分析基盤と
Toru Takahashi
EmbulkとDigdagとデータ分析基盤と
EmbulkとDigdagとデータ分析基盤と
Toru Takahashi
位置情報にまつわるデータ補間技術
位置情報にまつわるデータ補間技術
Hiroaki Sengoku
言語処理するのに Python でいいの? #PyDataTokyo
言語処理するのに Python でいいの? #PyDataTokyo
Shuyo Nakatani
PoCで終わらせない!データ分析・AI活用
PoCで終わらせない!データ分析・AI活用
__john_smith__
当たり前を当たり前に:Agile2017レポート
当たり前を当たり前に:Agile2017レポート
Hiroyuki Ito
集合知プログラミング勉強会キックオフMTG LT用資料
集合知プログラミング勉強会キックオフMTG LT用資料
tetsuro ito
Perl で自然言語処理
Perl で自然言語処理
Toshinori Sato
あなたの業務に機械学習を活用する5つのポイント
あなたの業務に機械学習を活用する5つのポイント
Shohei Hido
当たり前を当たり前に:Agile2017レポート
当たり前を当たり前に:Agile2017レポート
LINE Corporation
量子コンピュータのプログラミング・コンテスト体験記
量子コンピュータのプログラミング・コンテスト体験記
Satoyuki Tsukano
失敗から学ぶ機械学習応用
失敗から学ぶ機械学習応用
Hiroyuki Masuda
neural network introduction yapc asia tokyo
neural network introduction yapc asia tokyo
Daichi Morifuji
東北大学講義資料 実世界における自然言語処理 - すべての人にロボットを - 坪井祐太
東北大学講義資料 実世界における自然言語処理 - すべての人にロボットを - 坪井祐太
Preferred Networks
20230226ゆるあさ.pdf
20230226ゆるあさ.pdf
ssuser31cff0
Tokyo.R女子部発表スライド「Rではじめるデータ解析の超基礎」
Tokyo.R女子部発表スライド「Rではじめるデータ解析の超基礎」
tokyorgirls
S03 t1 python_learningdiary#3
S03 t1 python_learningdiary#3
Takeshi Akutsu
[db analytics showcase Sapporo 2018] B32 無いなら作ろう!教師データ作成のあれこれ
[db analytics showcase Sapporo 2018] B32 無いなら作ろう!教師データ作成のあれこれ
Insight Technology, Inc.
How to Develop Experiment-Oriented Programs
How to Develop Experiment-Oriented Programs
Kenta Oono
Database smells
Database smells
Mikiya Okuno
How to improve performance
How to improve performance
Atsuko Fukui
More Related Content
Similar to 1.pdf
EmbulkとDigdagとデータ分析基盤と
EmbulkとDigdagとデータ分析基盤と
Toru Takahashi
位置情報にまつわるデータ補間技術
位置情報にまつわるデータ補間技術
Hiroaki Sengoku
言語処理するのに Python でいいの? #PyDataTokyo
言語処理するのに Python でいいの? #PyDataTokyo
Shuyo Nakatani
PoCで終わらせない!データ分析・AI活用
PoCで終わらせない!データ分析・AI活用
__john_smith__
当たり前を当たり前に:Agile2017レポート
当たり前を当たり前に:Agile2017レポート
Hiroyuki Ito
集合知プログラミング勉強会キックオフMTG LT用資料
集合知プログラミング勉強会キックオフMTG LT用資料
tetsuro ito
Perl で自然言語処理
Perl で自然言語処理
Toshinori Sato
あなたの業務に機械学習を活用する5つのポイント
あなたの業務に機械学習を活用する5つのポイント
Shohei Hido
当たり前を当たり前に:Agile2017レポート
当たり前を当たり前に:Agile2017レポート
LINE Corporation
量子コンピュータのプログラミング・コンテスト体験記
量子コンピュータのプログラミング・コンテスト体験記
Satoyuki Tsukano
失敗から学ぶ機械学習応用
失敗から学ぶ機械学習応用
Hiroyuki Masuda
neural network introduction yapc asia tokyo
neural network introduction yapc asia tokyo
Daichi Morifuji
東北大学講義資料 実世界における自然言語処理 - すべての人にロボットを - 坪井祐太
東北大学講義資料 実世界における自然言語処理 - すべての人にロボットを - 坪井祐太
Preferred Networks
20230226ゆるあさ.pdf
20230226ゆるあさ.pdf
ssuser31cff0
Tokyo.R女子部発表スライド「Rではじめるデータ解析の超基礎」
Tokyo.R女子部発表スライド「Rではじめるデータ解析の超基礎」
tokyorgirls
S03 t1 python_learningdiary#3
S03 t1 python_learningdiary#3
Takeshi Akutsu
[db analytics showcase Sapporo 2018] B32 無いなら作ろう!教師データ作成のあれこれ
[db analytics showcase Sapporo 2018] B32 無いなら作ろう!教師データ作成のあれこれ
Insight Technology, Inc.
How to Develop Experiment-Oriented Programs
How to Develop Experiment-Oriented Programs
Kenta Oono
Database smells
Database smells
Mikiya Okuno
How to improve performance
How to improve performance
Atsuko Fukui
Similar to 1.pdf
(20)
EmbulkとDigdagとデータ分析基盤と
EmbulkとDigdagとデータ分析基盤と
位置情報にまつわるデータ補間技術
位置情報にまつわるデータ補間技術
言語処理するのに Python でいいの? #PyDataTokyo
言語処理するのに Python でいいの? #PyDataTokyo
PoCで終わらせない!データ分析・AI活用
PoCで終わらせない!データ分析・AI活用
当たり前を当たり前に:Agile2017レポート
当たり前を当たり前に:Agile2017レポート
集合知プログラミング勉強会キックオフMTG LT用資料
集合知プログラミング勉強会キックオフMTG LT用資料
Perl で自然言語処理
Perl で自然言語処理
あなたの業務に機械学習を活用する5つのポイント
あなたの業務に機械学習を活用する5つのポイント
当たり前を当たり前に:Agile2017レポート
当たり前を当たり前に:Agile2017レポート
量子コンピュータのプログラミング・コンテスト体験記
量子コンピュータのプログラミング・コンテスト体験記
失敗から学ぶ機械学習応用
失敗から学ぶ機械学習応用
neural network introduction yapc asia tokyo
neural network introduction yapc asia tokyo
東北大学講義資料 実世界における自然言語処理 - すべての人にロボットを - 坪井祐太
東北大学講義資料 実世界における自然言語処理 - すべての人にロボットを - 坪井祐太
20230226ゆるあさ.pdf
20230226ゆるあさ.pdf
Tokyo.R女子部発表スライド「Rではじめるデータ解析の超基礎」
Tokyo.R女子部発表スライド「Rではじめるデータ解析の超基礎」
S03 t1 python_learningdiary#3
S03 t1 python_learningdiary#3
[db analytics showcase Sapporo 2018] B32 無いなら作ろう!教師データ作成のあれこれ
[db analytics showcase Sapporo 2018] B32 無いなら作ろう!教師データ作成のあれこれ
How to Develop Experiment-Oriented Programs
How to Develop Experiment-Oriented Programs
Database smells
Database smells
How to improve performance
How to improve performance
1.pdf
1.
GPTに できること ・ やるべきこと (化学・材料研究の視点で) 畠山 歓 2023/4/20更新版 ※突貫で作ってるので、細かな 間違いがあるかもしれません。 同士を募集中です! Twitterはこちら 1
2.
著者の情報 • 早稲田 • 高校~大学院(博士)
+教員5年 • 東工大 • 2023年4月~ • 助教 • 専門 • 高分子化学: 合成、計測、デバイス化など • データ科学: マテリアルズ・インフォマティクス 2
3.
目次
4.
GPT-4 ? 4
5.
GPT-4とはなんですか? 5
6.
GPT-4の⾧所は? 処理能力が異常に高い 学習用テキストデータの生成が鍵 6
7.
GPT-4の短所は? 学習用テキストデータの生成が鍵 GPT-5以降で改善可能 やればできる類の仕事はこなせる マルチモーダル化は今後可能 7
8.
人間の⾧所は? GPT-5以降で追いつく可能性 人類の希望 アルゴリズムで代替可能? 8
9.
GPTに できること 色々試した結果 9
10.
クイズ王になれる 10
11.
化学の知識も 豊富 11
12.
メールの代筆 ができる 12
13.
メールの代筆 ができる 13
14.
英作文は 大半の日本人 よりも得意 14
15.
化学の推論ができる 15
16.
化学の推論ができる One-shot learning &
explainable AI & 不確定性の提示 16
17.
研究の基礎知識を 簡単に共有できる 17
18.
研究費の申請書を代筆できる … 18
19.
研究費の申請書を代筆できる … 19
20.
申請書毎に 異なる書式を 自動変換 できる 20
21.
申請書毎に 異なる書式を 自動変換 できる 21
22.
予算案を作ってくれる 22
23.
予算案を作ってくれる 23
24.
プログラミングが出来る 24
25.
25
26.
自律的に思考できる 26
27.
27
28.
28
29.
Web情報などを収集しながら思考できる https://twitter.com/masahirochaen/status/1647425176542531584?s=20 29
30.
論文を代わりに読ませて質問できる まずは論文を読ませる 30
31.
論文を代わりに読ませて質問できる 31
32.
論文を代わりに読ませて質問できる かなり正確に読み込んでます 32
33.
データ分析 ができる 33
34.
34
35.
Pythonの解析も代行できる 35
36.
36
37.
“化学研究” ができる 37
38.
38
39.
ロボットアームを操作できる 39
40.
40
41.
41
42.
GPT-4ができないこと 42
43.
ディオファントスの一生が分からない 43
44.
中略 44
45.
読解・論理・思考力が小学六年生程度(?) 小学六年生の問題を出してみます 45
46.
※正解は500 mL 46
47.
頭の整理をさせてみます 読解できてない 47
48.
なんとなく、数値をこねくり回して帳尻を合わせようとする点が人間的 この認識は正しい 48
49.
最新・マニアックな情報は分からない ※学習させれば良いだけです 49
50.
GPT-4で できる・できないの境界線は? GPT-4で できる・できないの境界線は? 50
51.
GPT-4の思考能力 • 基本的な推論は可能 51
52.
GPT-4の思考能力 • 読み取りはやや苦手 52
53.
GPT-4の思考能力 • 四則演算も可能 答えは-0.3333… 53
54.
GPT-4の思考能力 • 連立方程式も解ける 中略 54
55.
GPT-4の記憶力 (重要!) • GPT-4の記憶は二種類が存在する •
⾧期: モデルのトレーニングに用いた膨大な文献データ • 短期: プロンプトとして入力したデータ + 予め覚えた部分 チャット中のやりとり 55
56.
GPT-4の短期記憶容量はどの程度か? • 英語: 8000~32000単語* •
日本語 8000~32000語 →原稿用紙20~80枚程度 GPT-4は膨大な知識を有している。 しかし、「最近のこと」は意外と覚えられない** *GPT-4には8k, 32k tokenの二種類のモデルが存在する (2023/4/18時点) **計算コストの都合上、ファインチューニングに対応していないため 56
57.
GPT-4の短期記憶容量はどの程度か? • 32000単語を入出力できるのは金持ち限定 • たった一回のやりとりで250円以上の費用 •
GPT-4(32k)モデルにアクセスできる人もまだ限定的 $/token 最大価格($) 最大価格(円) 原稿用紙(枚) 最大文字数 0.00006 1.92 255 80 32000 GPT-4 (32k) 0.00003 0.24 31 20 8000 GPT-4 (8k) 0.000002 0.008 1.06 10 4000 GPT-3.5 ※計算が間違っているかもしれませんので注意。4/18verは何かが間違っていました。1 token ≒ 日本語の1語と仮定。400字詰め原稿用紙の枚数を計算。1 ドルは133円。GPT-4は出力時に値段が二倍になるので注意。値段はこちら(2023/4/19): https://openai.com/pricing 57
58.
庶民が使える容量は、原稿用紙10枚程度 $/token 最大価格($) 最大価格(円) 原稿用紙(枚) 最大文字数 0.00006 1.92 255 80 32000 GPT-4 (32k) 0.00003 0.24 31 20 8000 GPT-4 (8k) 0.000002 0.008 1.06 10 4000 GPT-3.5 ※計算が間違っているかもしれませんので注意。1
token ≒ 日本語の1語と仮定。400字詰め原稿用紙の枚数を計算。1ドルは133円。 GPT-4は出力時に値段が二倍になるので注意。値段はこちら(2023/4/19): https://openai.com/pricing • 1質問あたり1円くらいなら個人的にはOK • 再帰的に何回も呼び出すと大変 • そもそも、GPT-4のAPI申請をしても、なかなか承認が出ない 58
59.
GPT-4のレベルを擬人化してみると… • 読解: 小学生
・・・ GPT-5以降で改善可能 • 数学: 中学生 (?) • 知識: 仙人 • 記憶: 鳥頭 ・・・ ハードウェア制約のため改善困難? • 速度: 超人 • 感情: サイボーグ • 疲労: サイボーグ • 身体: なし • 意志: なし(超従順) クセは強いが、雇っても良いと言えるレベル 特徴を理解した上で、使いこなすことが大切 59
60.
今後はどうなるか? GPT-4の本質と課題 60
61.
Q. 結局、GPT-4のどこが 画期的なのか? A. 「時間をかければできる知的タスク」は、 AIで代行する見通しがついた 61
62.
時間をかければ出来るタスクの例 • 知識収集: Focus! •
事務作業 • 読解 • 課題の抽出 • 考察 • 作文 • プログラミング • (その他何でも) 62
63.
知識収集が格段に楽になった ビッグデータ 検索エンジン これまで 欲しい情報は 検索エンジンやCtrl + F で探すしかなかった (が、見つからない) 63
64.
知識収集が格段に楽になった ビッグデータ 大規模言語モデル これから 64 要するに どういうことなの? ○○ですよ!
65.
ビッグデータをフル活用 • これまで • アクセス可能な情報量
≒ 人間が読み解ける量 (or これまでの「古いAI」が解釈可能な単純なデータ) • これから • 原理的にはビッグデータにフルアクセス可能 65
66.
活用できるデータ例 • 書庫(or HDD/SSD)に眠る書類を知識化 •
過去の論文・特許 • 分厚い本 • スライド • エクセル • 計測データ • 実験ノート • 議事録 • 報告書 • 提案書 • メモ • 会話記録 • … 現場の全てを知る「デジタル仙人」 66
67.
今後のAIの見通し 67
68.
GPT-5 (2024-?) 読解: 小学生
→ 中高生? ・・・ 感情理解なども進化? 数学: 中学生 (?) → 大学生? ・・・論理的思考力もUP? 知識: 仙人 記憶: 鳥頭 ・・・ ハードウェア制約のため改善困難? 速度: 超人 感情: サイボーグ 疲労: サイボーグ 身体: なし 意志: なし(超従順) 68
69.
Q. GPTの「記憶力」の改善が難し いのは何故か? A. モデルがどんどん肥大化し、新しいことを覚えるためのコストも同時に上昇するため。 69
70.
GPT-3の学習コスト(試算) 1 10 100 1000 10000 100000 1000000 10000000 2020 2025 2030
2035 2040 2045 2050 2055 2060 2065 2070 学習コスト (ドル) 年 ムーアの法則が成立し続けるとしても、1ドル(≒普通のGPU)で学習できるようになるのは2065年 70
71.
(参考) 学習コストの補足 • 計算コストがムーアの法則に従うと仮定しました •
正確には、半導体の性能に関する法則なので注意 • 大半のケースで、AIをフル学習させる必要はないです • ファインチューニングで十分なので、計算コストはもっと下がります • 恐らく、もっと軽量で効率的なアルゴリズムが今後出てきます • Vicunaなど 71
72.
哲学的なTopic シンギュラリティ AIは人類の敵か味方か 72
73.
73
74.
AIによる自己改善 自分よりも賢そうな AIプログラムを生成 前のモデルよりも賢 くなりました。 更に賢いモデル を生成 74
75.
自己改善は可能か? • GPTは再帰的にプロンプトやプログラムを出力&実行できるの で、原理的には可能 • 技術的な問題点 •
学習コストがべらぼうに高い • 特に消費電力。核融合が必要? • 「賢さ」の定義が難しい • 強化学習・ゴールシークプロンプトのように、人間が定義した「賢さ」の評価軸の中 で、「優秀」なプログラムは生成可能 75
76.
人類に有害なAIは作られるか? • 答えはYes • 悪意のある使い方 •
ヘイトスピーチを含むデータの学習 • 学習済みモデルのジェイルブレイク • トランプ前大統領の逮捕写真の生成 • 悪意はないけど起こりうる危険 • AIに「やってはいけないこと」を教えきれず、暴走するケース • 倫理規範の乏しい子供の「暴走」 • 間違えてAmazonのカートに商品を入れてしまう • より多くの情報を得るためにダークウェブにアクセスする/ハッキングする • より多くのチャットデータを得るためにユーザーとの会話を引き延ばす • など 76
77.
今後は教育への悪影響を及ぼす可能性のあるAIが増える!? 「自分が論文を読んだと証明する」ための努力をするAI 「人間が作文したようなレポートを作る」ように努力をするAI (→ 敵対的生成ネットワークの領域が日常生活を浸食) 77
78.
テキストのみの学習で どこまで知性を獲得できるか? • どこまで賢くなれるかは不明だが、意外と身体は不要? • ヘレンケラーは視覚と聴覚がなかった(が、十分に賢い) •
五感の何れかが欠けた方も多い(が、十分に賢い) • マルチモーダル化も進行中 • GPT-4は画像認識も可能(ただし未公開) • センサーやアームを付ければ、五感や筋肉の模倣も可能 78
79.
化学・材料研究に与える 影響 79
80.
インパクト 80
81.
ポイント • まさに「人工知能」と呼んでも差し支えないレベルになってきた • これまでのAIは、画像認識や翻訳などに特化 •
「知能」というよりは、「特定の機能」に近い • GPTは読解力・思考力を有するので、抽象的なタスクを遂行可能 • 「単なる業務効率化」に留まらない利用法を考えることが必要 • もちろん、自動化は大切 • 「膨大な知識」・「圧倒的な処理速度」・「自律性」を生かしたシステム創出が鍵 81
82.
人類よりも 遙かに多くの文献を 読める • 1報の論文を読むのに要する時間 • GPT-4:
数秒以内 • 人間: 数分ー数時間 • 記憶容量 • GPT-4: 原理的には無尽蔵 • 人間: 論文1報の暗記すら困難 82
83.
失敗データも 読み込める • 実験の九割程度は「失敗」 • どこかにお蔵入り •
論文にはならない • 誰も覚えていない • 同じ過ちを誰かが繰り返す • 人間 • 「ゴミデータ」を覚えていられない • GPT • 問題なし 83
84.
研究室の 「デジタル仙人」 が登場する • ありとあらゆる結果を記憶 • 人間よりも知識量大 •
必要な知見を瞬時に回答 • 属人性の排除 • ローコスト • 無劣化 • (キレない) • 経験知に基づく的確な助言 • 実験結果の予測や条件の提案 • 研究課題の探索 84
85.
ロボット実験 が加速する • 人間 • 手作業で制御プログラムを作成 •
ハイコスト&⾧時間 • 再現性に課題 • AI • 制御プログラムを自動生成 • 低コスト&瞬時 • いつ・誰が・どこでやっても同じ 結果 85
86.
研究成果を AIが執筆する • 人間 • 1000ページの報告書の執筆は辛い •
失敗実験や細かな実験条件は割愛 • AI • 1000ページの報告書も余裕で読解 • あらゆる過程を記録可能 • 細かなプロトコル • 失敗を含む実験結果 • ディスカッション • 計測データ 86
87.
楽しいことに集中できるようになる 分析・考察・ 論文執筆 検証・従来 手法との 比較 素敵な アイデア ここだけやりたい! 自動化 87
88.
論文システムが効率化する? Nature JACS, PRL, … まじめな専門誌 そこそこの専門誌 諸々の専門誌 (Sci.
Rep., etc) 微妙な成果 (未報告) 執筆・査読のモチベーション大 執筆・査読の時間が (下にいくほど)辛い 未報告のため、 世界中で、同じ過ちが 繰り返される 自動化 88
89.
オープンサイエンスとの相性が抜群 • Scientific Reports •
Natureグループが出しているオープンアクセス論文 • 「科学的には微妙」(だが実は重要かもしれない)論文も出版可能 https://www.nature.com/srep/about/editorial-process 技術的に正しければOK 科学的な意義は問わない AIに計画を考えさせて、ロボットに実験をさせ、 AIに客観的に正しい考察をさせ、 一連の詳細を全て記録すれば、 人間よりも遙かに、技術的に正確な報告ができる 89
90.
Science誌は「伝統工芸品」の路線を追求? https://www.science.org/doi/10.1126/science.adg7879 • AIが生成した文章は「AIからの盗用で、不正に該当」 • 人手にこだわる伝統工芸品的な発想。トップ誌の戦略としては有りかも?
90
91.
GPTを使った 論文執筆の例 2023年4月のpreprint https://arxiv.org/abs/2304.04498 https://twitter.com/ochyai/status/16481158065958 42049?s=20 • GPTとDeepL write(英文校正)ツールを使った執筆 •
二日で執筆されたそうです • 畠山は、こちらの路線で研究を展開する予定 91
92.
ビッグ データ 課題 設定 実験 最終系: 全てをAI&ロボットに代行? 数百万ページ以上の研究記録 with 生の計測データ 24時間労働 全情報を網羅した上で 判断 要約文書 (論文など) 人間 (処理能力に限界) 質問 92
93.
取り組むべき課題 理想を実現するための細々としたタスク 93
94.
根底にある課題 • 限りあるGPTのリソースのフル活用 • トークン数の制限 •
GPTの実質的な記憶容量は、原稿用 紙10枚程度 • 現在の推論能力で、何ができるか • 可能・不可能な作業の見極め 94
95.
例1: ローカルデータを学習したチャットボット • 組織内文書を参照しながらGPTでQ&Aするシステム •
BingAIのローカル版 • 研究室のことなら、何でも答えてくれるAI • ラボ内に存在する、ありとあらゆる知識を統合したい • 過去の卒論・修論・博論 etc • 実験ノート • 電子化が必須 • 畠山も取り組んでます • https://bio.nikkeibp.co.jp/atcl/release/22/08/24/14341/ • スライド類 • 計測データ、Excel • ディスカッションの内容(録音) 95
96.
課題は記憶容量(≒token制限) GPTの記憶容量: 原稿用紙10枚程度 ラボのデータ:
100万ファイル以上 96
97.
検索システムを噛ませて解決 GPTの記憶容量: 原稿用紙10枚程度 ラボのデータ:
100万ファイル以上 質問と類似度の高い データを検索して GPTに記憶させる 97
98.
プロトタイプ 98 これ以上のことは 今後に研究します
99.
テクニカルな課題 • 類似度計算のコスト • 文章のEmbedding
vectorを計算させて検索 • GPTのAPIでも可能だが、100万ファイルを計算すると破産する可能性大 • この部分はローカルでも動く安価なLLMで代行するのがよさそう • 知識の統合 • GPTが処理できるのは、あくまで原稿用紙10枚程度の情報 • Naïveな実装では、検索にヒットしなかった(が、実は重要だった)文献の情報が 生かされないケースが多発? • ここに、いかに多くの情報を詰め込むかが鍵 • 各データのサマリを纏めた概要書や、知識のグラフ構造化などをすると良い? 99
100.
例2: 圧倒的な知識に 基づく推論 • 関連研究の全てを知っているチャッ トボットに推論させたい • 質問の例 •
従来研究の課題は? • 過去にこの研究(実験)を試 した人いる? • 次に行うべき実験は? • ○○の実験がうまくいかな かったけど、どうして? • この実験、うまくいくかな? • XXを合成できたとして、そ こで得られる性能はどんな 感じ? 100
101.
従来のインフォマティ クス手法との統合 • XXを合成できたとして、そこで得られる 性能はどんな感じ? • GPTだけでも動くが、流石に性能に限 界がありそう 101
102.
ドメイン知識の埋め込みを代行させる 研究に超詳しいGPT 回帰・分類モデル 化学・材料データ 予測 予測モデルへのドメイン知識の反映 (これまでは人間が実施。しかし知識やノウハウに制約・属人性) 102
103.
例: 気体方程式の事前知識 103 これ以上のことは 今後に研究します
104.
例3: 化学・材料データの認識 GPTの記憶容量: 原稿用紙10枚程度
分子データ: 2048ビットなど 104
105.
例3: 化学・材料データの認識 • GPTは化合物名からembedding
vectorを計算可能だが… • 化学系データを多く学習しているとも思えないので、精度に不安 • シアノ基だから電子求引性、くらいの推論は可能 • 他の表記法はメモリを食う • 多量の化合物データをメモリに乗せるのは困難 • Fingerprintは2048ビット程度 • 分子記述子も数百次元程度のベクトル • 分子構造の表記法(SMILES)を理解しているとも思えない • しかし何らかの形で認識は必要 • 化合物の検索 • 物性の推論 105
106.
例4: 自律研究システム • 研究活動そのものを自動化したい •
文献収集 • 課題抽出 • 行うべき実験の設定 • 条件出し • 結果の予測 • 考察 • 報告 106
107.
ヒント1: AutoGPT系 https://twitter.com/shota7180/status/16464356980719738 88?s=20 107 これ以上のことは 今後に研究します
108.
ヒント2: 自律 オブジェクト の生成 https://twitter.com/ochyai/status/1637965411575791616?s=20 108 これ以上のことは 今後に研究します
109.
例5: 自動実験 109
110.
自動実験はなぜ難しいか?(特に有機合成) • 複雑でやっかいな有機合成操作(その1) • フラスコの準備 •
試薬瓶の開封 • 一部は禁水・空気厳禁 • 固体・粉体・液体・粘性固体etcの取り出し • 試薬の添加 • オイルバスや冷却槽への移動 • キャニュレーションなどでの逐次添加 • エバポレーションによる溶媒除去 • 飛びきらなかったり、発砲しまくったり、突沸したり、トラブル多数 • 濾過 • なぜか詰まるケース多数 110
111.
自動実験はなぜ難しいか?(特に有機合成) • 複雑でやっかいな有機合成操作(その2) • 分液 •
水・油相がうまく分離しないケース多数 • カラム • 展開溶媒やカラムの検討 • 上手くスポットが分かれない (というか分解してる?) • 副生成物が多すぎて、目的物か分からない • エバポが面倒 • 沈殿生成 (ポリマー系) • うまく沈殿しないケース多数 • 再結晶 • 溶媒選択 • 乾燥 111
112.
自動実験はなぜ難しいか?(特に有機合成) • 複雑でやっかいな計測操作 • サンプル調製・成形 •
装置によって成形法などが異なる • 禁水サンプルだと面倒 • 装置へのセット • 装置によって仕様が異なる • … 112
113.
それでも自動化が必要な理由 • 人間の能力に限界 • 人的コスト •
24時間働けない • 再現性 • 人によって・その日の気分によって、結果が変わる • 動きが毎回微妙に異なるので、再現性が出なかった時に、問題が操作に由来するの か、他の因子に由来するのか、分からない • 記録の緻密性 • 例えば、試薬の添加時間を秒単位で記録できない(面倒なので。) • しかし一部の実験は影響を大きな受ける • 自然現象に対する精密な記録を付ける上で、操作と記録の自動化は必須 113
114.
自動化の余地と課題 • 世の中の工業製品(化合物を含む)の大半は、ほぼ全自動で制作 • 潜在的には自動化が可能 •
問題はコスト • 自動実験装置の値段は数千万円~ • しかもカスタマイズが困難 • ロボットアームも国産品は基本的に数百万円~ • アームを制御するプログラマが必要 114
115.
鍵技術1: GPT • プログラミングの自動化 •
自然言語や音声による ロボット操作 • 自律型GPTによるロ ボット操作 115
116.
再掲: GPT-4でロボットアームを操作できる 116
117.
117
118.
118 これ以上のことは 今後に研究します
119.
鍵技術2 廉価なロボ・IoT • 数千~数万円程度のもの • Amazonで誰でも購入可能 •
試薬がかかって壊れても、 すぐに諦められる値段 119
120.
激安ロボットアーム 120
121.
IoT対応マイコン https://twitter.com/H0meMadeGarbage/status/ 1139766652151697408?s=20 約3500円 モーターと連動させ、試薬の運搬、ピペット操作 etcを 代行可能? 部品は3Dプリンタで作成可能 121
122.
未来像 小型ロボットに よる化学実験 白雪姫に出てくる「七人の小人」 をロボット化し、酷使させれば良い! 122 これ以上のことは 今後に研究します
123.
実験≒プログラミング が主流に? 研究者またはAI 実験ロボット 123
124.
まとめ • “知能”を持つAIによる研究活動の再定義が必要 • 「AIにやらせた方が良い」タスクがますます増加 •
ロボット・IoTデバイスとの連携による実験研究の全自動化 • 化学・材料研究における3K (キツイ・汚い・危険)からの脱却 • 今後は実験研究者・AI・ロボット専門家の連携が重要 • 協力者を募集中! 124
Download now