1.pdf

GPTに
できること
･
やるべきこと
(化学･材料研究の視点で)
畠山歓
2023/4/20更新版
※突貫で作ってるので､細かな
間違いがあるかもしれません｡
同士を募集中です!
Twitterはこちら 1

著者の情報
• 早稲田
• 高校～大学院(博士) +教員5年
• 東工大
• 2023年4月～
• 助教
• 専門
• 高分子化学: 合成、計測、デバイス化など
• データ科学: マテリアルズ・インフォマティクス
2

GPT-4の⾧所は?
処理能力が異常に高い
学習用テキストデータの生成が鍵
6

GPT-4の短所は?
学習用テキストデータの生成が鍵
GPT-5以降で改善可能
やればできる類の仕事はこなせる
マルチモーダル化は今後可能
7

人間の⾧所は?
GPT-5以降で追いつく可能性
人類の希望
アルゴリズムで代替可能?
8

GPTに
できること
色々試した結果
9

メールの代筆
ができる
12

メールの代筆
ができる
13

英作文は
大半の日本人
よりも得意
14

化学の推論ができる
15

化学の推論ができる
One-shot learning & explainable AI & 不確定性の提示 16

研究の基礎知識を
簡単に共有できる
17

研究費の申請書を代筆できる
… 18

研究費の申請書を代筆できる
… 19

申請書毎に
異なる書式を
自動変換
できる
20

申請書毎に
異なる書式を
自動変換
できる
21

予算案を作ってくれる
22

予算案を作ってくれる
23

プログラミングが出来る
24

自律的に思考できる
26

Web情報などを収集しながら思考できる
https://twitter.com/masahirochaen/status/1647425176542531584?s=20
29

論文を代わりに読ませて質問できる
まずは論文を読ませる
30

31

かなり正確に読み込んでます
32

データ分析
ができる
33

Pythonの解析も代行できる
35

“化学研究”
ができる
37

ロボットアームを操作できる
39

ディオファントスの一生が分からない
43

読解･論理･思考力が小学六年生程度(?)
小学六年生の問題を出してみます
45

頭の整理をさせてみます
読解できてない
47

なんとなく､数値をこねくり回して帳尻を合わせようとする点が人間的
この認識は正しい
48

最新･マニアックな情報は分からない
※学習させれば良いだけです
49

GPT-4で
できる･できないの境界線は?
GPT-4で
できる･できないの境界線は?
50

GPT-4の思考能力
• 基本的な推論は可能
51

• 読み取りはやや苦手
52

• 四則演算も可能
答えは-0.3333… 53

• 連立方程式も解ける
中略
54

GPT-4の記憶力 (重要!)
• GPT-4の記憶は二種類が存在する
• ⾧期: モデルのトレーニングに用いた膨大な文献データ
• 短期: プロンプトとして入力したデータ
+
予め覚えた部分チャット中のやりとり 55

GPT-4の短期記憶容量はどの程度か?
• 英語: 8000~32000単語*
• 日本語 8000~32000語
→原稿用紙20~80枚程度
GPT-4は膨大な知識を有している｡
しかし､｢最近のこと｣は意外と覚えられない**
*GPT-4には8k, 32k tokenの二種類のモデルが存在する
(2023/4/18時点)
**計算コストの都合上､ファインチューニングに対応していないため
56

GPT-4の短期記憶容量はどの程度か?
• 32000単語を入出力できるのは金持ち限定
• たった一回のやりとりで250円以上の費用
• GPT-4(32k)モデルにアクセスできる人もまだ限定的
$/token
最大価格($)
最大価格(円)
原稿用紙(枚)
最大文字数
0.00006
1.92
255
80
32000
GPT-4 (32k)
0.00003
0.24
31
20
8000
GPT-4 (8k)
0.000002
0.008
1.06
10
4000
GPT-3.5
※計算が間違っているかもしれませんので注意｡4/18verは何かが間違っていました｡1 token ≒ 日本語の1語と仮定｡400字詰め原稿用紙の枚数を計算｡1
ドルは133円｡GPT-4は出力時に値段が二倍になるので注意｡値段はこちら(2023/4/19): https://openai.com/pricing 57

庶民が使える容量は､原稿用紙10枚程度
$/token
最大価格($)
最大価格(円)
原稿用紙(枚)
最大文字数
0.00006
1.92
255
80
32000
GPT-4 (32k)
0.00003
0.24
31
20
8000
GPT-4 (8k)
0.000002
0.008
1.06
10
4000
GPT-3.5
※計算が間違っているかもしれませんので注意｡1 token ≒ 日本語の1語と仮定｡400字詰め原稿用紙の枚数を計算｡1ドルは133円｡
GPT-4は出力時に値段が二倍になるので注意｡値段はこちら(2023/4/19): https://openai.com/pricing
• 1質問あたり1円くらいなら個人的にはOK
• 再帰的に何回も呼び出すと大変
• そもそも､GPT-4のAPI申請をしても､なかなか承認が出ない
58

GPT-4のレベルを擬人化してみると…
• 読解: 小学生･･･ GPT-5以降で改善可能
• 数学: 中学生 (?)
• 知識: 仙人
• 記憶: 鳥頭･･･ハードウェア制約のため改善困難?
• 速度: 超人
• 感情: サイボーグ
• 疲労: サイボーグ
• 身体: なし
• 意志: なし(超従順)
クセは強いが､雇っても良いと言えるレベル
特徴を理解した上で､使いこなすことが大切 59

今後はどうなるか?
GPT-4の本質と課題
60

Q. 結局､GPT-4のどこが
画期的なのか?
A. ｢時間をかければできる知的タスク｣は､
AIで代行する見通しがついた
61

時間をかければ出来るタスクの例
• 知識収集: Focus!
• 事務作業
• 読解
• 課題の抽出
• 考察
• 作文
• プログラミング
• (その他何でも)
62

知識収集が格段に楽になった
ビッグデータ
検索エンジン
これまで
欲しい情報は
検索エンジンやCtrl + F
で探すしかなかった
(が､見つからない)
63

知識収集が格段に楽になった
ビッグデータ
大規模言語モデル
これから
64
要するに
どういうことなの?
○○ですよ!

ビッグデータをフル活用
• これまで
• アクセス可能な情報量 ≒ 人間が読み解ける量
(or これまでの｢古いAI｣が解釈可能な単純なデータ)
• これから
• 原理的にはビッグデータにフルアクセス可能
65

活用できるデータ例
• 書庫(or HDD/SSD)に眠る書類を知識化
• 過去の論文･特許
• 分厚い本
• スライド
• エクセル
• 計測データ
• 実験ノート
• 議事録
• 報告書
• 提案書
• メモ
• 会話記録
• …
現場の全てを知る｢デジタル仙人｣ 66

GPT-5 (2024-?)
読解: 小学生 → 中高生? ･･･感情理解なども進化?
数学: 中学生 (?) → 大学生? ･･･論理的思考力もUP?
知識: 仙人
記憶: 鳥頭･･･ハードウェア制約のため改善困難?
速度: 超人
感情: サイボーグ
疲労: サイボーグ
身体: なし
意志: なし(超従順)
68

Q. GPTの｢記憶力｣の改善が難し
いのは何故か?
A. モデルがどんどん肥大化し､新しいことを覚えるためのコストも同時に上昇するため｡
69

GPT-3の学習コスト(試算)
1
10
100
1000
10000
100000
1000000
10000000
2020 2025 2030 2035 2040 2045 2050 2055 2060 2065 2070
学習コスト
(ドル)
年
ムーアの法則が成立し続けるとしても､1ドル(≒普通のGPU)で学習できるようになるのは2065年
70

(参考) 学習コストの補足
• 計算コストがムーアの法則に従うと仮定しました
• 正確には､半導体の性能に関する法則なので注意
• 大半のケースで､AIをフル学習させる必要はないです
• ファインチューニングで十分なので､計算コストはもっと下がります
• 恐らく､もっと軽量で効率的なアルゴリズムが今後出てきます
• Vicunaなど
71

哲学的なTopic
シンギュラリティ
AIは人類の敵か味方か
72

AIによる自己改善
自分よりも賢そうな
AIプログラムを生成
前のモデルよりも賢
くなりました｡
更に賢いモデル
を生成
74

自己改善は可能か?
• GPTは再帰的にプロンプトやプログラムを出力&実行できるの
で､原理的には可能
• 技術的な問題点
• 学習コストがべらぼうに高い
• 特に消費電力｡核融合が必要?
• ｢賢さ｣の定義が難しい
• 強化学習･ゴールシークプロンプトのように､人間が定義した｢賢さ｣の評価軸の中
で､｢優秀｣なプログラムは生成可能
75

人類に有害なAIは作られるか?
• 答えはYes
• 悪意のある使い方
• ヘイトスピーチを含むデータの学習
• 学習済みモデルのジェイルブレイク
• トランプ前大統領の逮捕写真の生成
• 悪意はないけど起こりうる危険
• AIに｢やってはいけないこと｣を教えきれず､暴走するケース
• 倫理規範の乏しい子供の｢暴走｣
• 間違えてAmazonのカートに商品を入れてしまう
• より多くの情報を得るためにダークウェブにアクセスする/ハッキングする
• より多くのチャットデータを得るためにユーザーとの会話を引き延ばす
• など
76

今後は教育への悪影響を及ぼす可能性のあるAIが増える!?
｢自分が論文を読んだと証明する｣ための努力をするAI
｢人間が作文したようなレポートを作る｣ように努力をするAI
(→ 敵対的生成ネットワークの領域が日常生活を浸食)
77

テキストのみの学習で
どこまで知性を獲得できるか?
• どこまで賢くなれるかは不明だが､意外と身体は不要?
• ヘレンケラーは視覚と聴覚がなかった(が､十分に賢い)
• 五感の何れかが欠けた方も多い(が､十分に賢い)
• マルチモーダル化も進行中
• GPT-4は画像認識も可能(ただし未公開)
• センサーやアームを付ければ､五感や筋肉の模倣も可能
78

化学･材料研究に与える
影響
79

ポイント
• まさに｢人工知能｣と呼んでも差し支えないレベルになってきた
• これまでのAIは､画像認識や翻訳などに特化
• ｢知能｣というよりは､｢特定の機能｣に近い
• GPTは読解力･思考力を有するので､抽象的なタスクを遂行可能
• ｢単なる業務効率化｣に留まらない利用法を考えることが必要
• もちろん､自動化は大切
• ｢膨大な知識｣･｢圧倒的な処理速度｣･｢自律性｣を生かしたシステム創出が鍵
81

人類よりも
遙かに多くの文献を
読める
• 1報の論文を読むのに要する時間
• GPT-4: 数秒以内
• 人間: 数分ー数時間
• 記憶容量
• GPT-4: 原理的には無尽蔵
• 人間: 論文1報の暗記すら困難
82

失敗データも
読み込める
• 実験の九割程度は｢失敗｣
• どこかにお蔵入り
• 論文にはならない
• 誰も覚えていない
• 同じ過ちを誰かが繰り返す
• 人間
• ｢ゴミデータ｣を覚えていられない
• GPT
• 問題なし
83

研究室の
｢デジタル仙人｣
が登場する
• ありとあらゆる結果を記憶
• 人間よりも知識量大
• 必要な知見を瞬時に回答
• 属人性の排除
• ローコスト
• 無劣化
• (キレない)
• 経験知に基づく的確な助言
• 実験結果の予測や条件の提案
• 研究課題の探索
84

ロボット実験
が加速する
• 人間
• 手作業で制御プログラムを作成
• ハイコスト&⾧時間
• 再現性に課題
• AI
• 制御プログラムを自動生成
• 低コスト&瞬時
• いつ･誰が･どこでやっても同じ
結果
85

研究成果を
AIが執筆する
• 人間
• 1000ページの報告書の執筆は辛い
• 失敗実験や細かな実験条件は割愛
• AI
• 1000ページの報告書も余裕で読解
• あらゆる過程を記録可能
• 細かなプロトコル
• 失敗を含む実験結果
• ディスカッション
• 計測データ
86

楽しいことに集中できるようになる
分析･考察･
論文執筆
検証･従来
手法との
比較
素敵な
アイデア
ここだけやりたい!
自動化
87

論文システムが効率化する?
Nature
JACS,
PRL, …
まじめな専門誌
そこそこの専門誌
諸々の専門誌 (Sci. Rep., etc)
微妙な成果 (未報告)
執筆･査読のモチベーション大
執筆･査読の時間が
(下にいくほど)辛い
未報告のため､
世界中で､同じ過ちが
繰り返される
自動化
88

オープンサイエンスとの相性が抜群
• Scientific Reports
• Natureグループが出しているオープンアクセス論文
• ｢科学的には微妙｣(だが実は重要かもしれない)論文も出版可能
https://www.nature.com/srep/about/editorial-process
技術的に正しければOK
科学的な意義は問わない
AIに計画を考えさせて､ロボットに実験をさせ､
AIに客観的に正しい考察をさせ､
一連の詳細を全て記録すれば､
人間よりも遙かに､技術的に正確な報告ができる
89

Science誌は｢伝統工芸品｣の路線を追求?
https://www.science.org/doi/10.1126/science.adg7879
• AIが生成した文章は｢AIからの盗用で､不正に該当｣
• 人手にこだわる伝統工芸品的な発想｡トップ誌の戦略としては有りかも? 90

GPTを使った
論文執筆の例
2023年4月のpreprint
https://arxiv.org/abs/2304.04498
https://twitter.com/ochyai/status/16481158065958
42049?s=20
• GPTとDeepL write(英文校正)ツールを使った執筆
• 二日で執筆されたそうです
• 畠山は､こちらの路線で研究を展開する予定
91

ビッグ
データ
課題
設定
実験
最終系: 全てをAI&ロボットに代行?
数百万ページ以上の研究記録
with 生の計測データ
24時間労働
全情報を網羅した上で
判断
要約文書
(論文など)
人間
(処理能力に限界)
質問
92

取り組むべき課題
理想を実現するための細々としたタスク
93

根底にある課題
• 限りあるGPTのリソースのフル活用
• トークン数の制限
• GPTの実質的な記憶容量は､原稿用
紙10枚程度
• 現在の推論能力で､何ができるか
• 可能･不可能な作業の見極め
94

例1: ローカルデータを学習したチャットボット
• 組織内文書を参照しながらGPTでQ&Aするシステム
• BingAIのローカル版
• 研究室のことなら､何でも答えてくれるAI
• ラボ内に存在する､ありとあらゆる知識を統合したい
• 過去の卒論･修論･博論 etc
• 実験ノート
• 電子化が必須
• 畠山も取り組んでます
• https://bio.nikkeibp.co.jp/atcl/release/22/08/24/14341/
• スライド類
• 計測データ､Excel
• ディスカッションの内容(録音)
95

課題は記憶容量(≒token制限)
GPTの記憶容量: 原稿用紙10枚程度ラボのデータ: 100万ファイル以上
96

検索システムを噛ませて解決
GPTの記憶容量: 原稿用紙10枚程度ラボのデータ: 100万ファイル以上
質問と類似度の高い
データを検索して
GPTに記憶させる
97

プロトタイプ
98
これ以上のことは
今後に研究します

テクニカルな課題
• 類似度計算のコスト
• 文章のEmbedding vectorを計算させて検索
• GPTのAPIでも可能だが､100万ファイルを計算すると破産する可能性大
• この部分はローカルでも動く安価なLLMで代行するのがよさそう
• 知識の統合
• GPTが処理できるのは､あくまで原稿用紙10枚程度の情報
• Naïveな実装では､検索にヒットしなかった(が､実は重要だった)文献の情報が
生かされないケースが多発?
• ここに､いかに多くの情報を詰め込むかが鍵
• 各データのサマリを纏めた概要書や､知識のグラフ構造化などをすると良い?
99

例2:
圧倒的な知識に
基づく推論
• 関連研究の全てを知っているチャッ
トボットに推論させたい
• 質問の例
• 従来研究の課題は?
• 過去にこの研究(実験)を試
した人いる?
• 次に行うべき実験は?
• ○○の実験がうまくいかな
かったけど､どうして?
• この実験､うまくいくかな?
• XXを合成できたとして､そ
こで得られる性能はどんな
感じ?
100

従来のインフォマティ
クス手法との統合
• XXを合成できたとして､そこで得られる
性能はどんな感じ?
• GPTだけでも動くが､流石に性能に限
界がありそう
101

ドメイン知識の埋め込みを代行させる
研究に超詳しいGPT
回帰･分類モデル
化学･材料データ
予測
予測モデルへのドメイン知識の反映
(これまでは人間が実施｡しかし知識やノウハウに制約･属人性)
102

例: 気体方程式の事前知識
103

例3: 化学･材料データの認識
GPTの記憶容量: 原稿用紙10枚程度分子データ: 2048ビットなど
104

例3: 化学･材料データの認識
• GPTは化合物名からembedding vectorを計算可能だが…
• 化学系データを多く学習しているとも思えないので､精度に不安
• シアノ基だから電子求引性､くらいの推論は可能
• 他の表記法はメモリを食う
• 多量の化合物データをメモリに乗せるのは困難
• Fingerprintは2048ビット程度
• 分子記述子も数百次元程度のベクトル
• 分子構造の表記法(SMILES)を理解しているとも思えない
• しかし何らかの形で認識は必要
• 化合物の検索
• 物性の推論
105

例4: 自律研究システム
• 研究活動そのものを自動化したい
• 文献収集
• 課題抽出
• 行うべき実験の設定
• 条件出し
• 結果の予測
• 考察
• 報告
106

ヒント1:
AutoGPT系
https://twitter.com/shota7180/status/16464356980719738
88?s=20
107

ヒント2:
自律
オブジェクト
の生成
https://twitter.com/ochyai/status/1637965411575791616?s=20 108

自動実験はなぜ難しいか?(特に有機合成)
• 複雑でやっかいな有機合成操作(その1)
• フラスコの準備
• 試薬瓶の開封
• 一部は禁水･空気厳禁
• 固体･粉体･液体･粘性固体etcの取り出し
• 試薬の添加
• オイルバスや冷却槽への移動
• キャニュレーションなどでの逐次添加
• エバポレーションによる溶媒除去
• 飛びきらなかったり､発砲しまくったり､突沸したり､トラブル多数
• 濾過
• なぜか詰まるケース多数
110

• 複雑でやっかいな有機合成操作(その2)
• 分液
• 水･油相がうまく分離しないケース多数
• カラム
• 展開溶媒やカラムの検討
• 上手くスポットが分かれない (というか分解してる?)
• 副生成物が多すぎて､目的物か分からない
• エバポが面倒
• 沈殿生成 (ポリマー系)
• うまく沈殿しないケース多数
• 再結晶
• 溶媒選択
• 乾燥
111

• 複雑でやっかいな計測操作
• サンプル調製･成形
• 装置によって成形法などが異なる
• 禁水サンプルだと面倒
• 装置へのセット
• 装置によって仕様が異なる
• …
112

それでも自動化が必要な理由
• 人間の能力に限界
• 人的コスト
• 24時間働けない
• 再現性
• 人によって･その日の気分によって､結果が変わる
• 動きが毎回微妙に異なるので､再現性が出なかった時に､問題が操作に由来するの
か､他の因子に由来するのか､分からない
• 記録の緻密性
• 例えば､試薬の添加時間を秒単位で記録できない(面倒なので｡)
• しかし一部の実験は影響を大きな受ける
• 自然現象に対する精密な記録を付ける上で､操作と記録の自動化は必須
113

自動化の余地と課題
• 世の中の工業製品(化合物を含む)の大半は､ほぼ全自動で制作
• 潜在的には自動化が可能
• 問題はコスト
• 自動実験装置の値段は数千万円~
• しかもカスタマイズが困難
• ロボットアームも国産品は基本的に数百万円~
• アームを制御するプログラマが必要
114

鍵技術1: GPT
• プログラミングの自動化
• 自然言語や音声による
ロボット操作
• 自律型GPTによるロ
ボット操作
115

再掲: GPT-4でロボットアームを操作できる
116

118

鍵技術2
廉価なロボ･IoT
• 数千~数万円程度のもの
• Amazonで誰でも購入可能
• 試薬がかかって壊れても､
すぐに諦められる値段
119

激安ロボットアーム
120

IoT対応マイコン
https://twitter.com/H0meMadeGarbage/status/
1139766652151697408?s=20
約3500円
モーターと連動させ､試薬の運搬､ピペット操作 etcを
代行可能? 部品は3Dプリンタで作成可能
121

未来像
小型ロボットに
よる化学実験
白雪姫に出てくる｢七人の小人｣
をロボット化し､酷使させれば良い!
122

実験≒プログラミングが主流に?
研究者またはAI 実験ロボット
123

まとめ
• “知能”を持つAIによる研究活動の再定義が必要
• ｢AIにやらせた方が良い｣タスクがますます増加
• ロボット・IoTデバイスとの連携による実験研究の全自動化
• 化学･材料研究における3K (キツイ･汚い･危険)からの脱却
• 今後は実験研究者・AI・ロボット専門家の連携が重要
• 協力者を募集中!
124

1.pdf

Recommended

Recommended

More Related Content

Similar to 1.pdf

Similar to 1.pdf (20)

1.pdf