もしその単語がなかったら

そこのあなた、もしその単語が
使えなくなったらどうしますか？
中川裕志
（東京大学）

昔、ソシュールという偉い先生が
• 「言語が現れる以前は（現実の世界で）何一
つ判別できるものはなかった」と言った。
• 本当かと思って、試しに「月」(monthの意味）
という言葉がない世界を仮定してみた。
• すると、まず、「月の平均気温」とか「今月の
売り上げ」などが使えない。入学日時も2014
年100日みたいなことになって困ったことにな
る

誤解を解いておきましょう
• では、人々は「月」ではなく、新しい単語「き
つ」でも作って代用するからいいでしょ？とい
う反論が考えられますが
• ソシュールは「月」という単語によって、月の
概念が形成された、というような主旨ですから、
「月」という概念が無かった場合、と言い直し
ましょう。

本題に戻りますと
• 「月」という言葉（＝概念）を消しただけで、おおよ
そ社会機能は麻痺しそうです。月給はなくなり、
みんな年俸か日給、時間給になるとか、冗談み
たいなことが起きます。
• つまり、文化は当然として、社会制度のほぼす
べての機能が単語から生成されてきています。
– だから、「月」のような重要な単語が消失すると社会
制度がダメージを受けたり、崩壊したりしそう。
• だが、「中川裕志」という人名がなくなっても社会に
はなんの影響もない。
つまり、単語には社会における必要度が付随し
ています

単語の社会における必要度の図
中心ほどコアで必要度高い
周辺部にいくほど個別領域の単語で必要度低い
年、月、日、
男、女、
食べる、寝る、
現金、借金、
ＶＣ次元
Ｗ杯
理研
ZARA
Google
ＣＲＭ
中川裕志
L0正則化
マック100円セール
ナタリア・ポクロンスカヤ

言語学や自然言語処理
• 前ページのスライド「単語の社会における必要度の図」でお伝えしたいのは
– みんなが使う「月」が消失すると甚大な影響を及ぼす
– 専門用語「VC次元」くらいがなくなっても世界は大きく変わらないだろう
– 一般人の名前がひとつ消えても社会は何も変わらない
• というように、単語がカバーする社会現象の範囲の大きくなると「必要度」が大きく
なり、
• カバー範囲が専門分野や特定業界のように小さくなってくると、VC次元、CRM,ZARA
みたいに「必要度」が減少し
• 一般人の身の回りのようにカバー範囲がもっと狭まると「中川裕志」のように「必要度」
はほとんど無くなるということです。
• 言語学や自然言語処理の研究者の方で、ある単語を消去したら、世界や社会の
構造がどのくらい変わってしまうかという観点から「単語の社会における必要度」
を、調べた人がいるんでしょうか？
• 対象分野をある程度、限定してみると、大量のコーパスから個別単語の「単語の社
会における必要度」を計算できそうです。

単語の必要度を計算するモデルとして
単語をノードとするグラフ＝単語グラフ
• 単語の社会における必要度を計算するには
単語と社会の種々の概念の関係を使うのが
良さそう（今までの議論から）
• ところが、社会における種々の概念は単語で
表現されるので、結局、
単語間の関係をモデル化すればよいのです。
一般的なモデルは単語をノードとするグラフ

基本語彙（単単語）をノードとし、複合語として隣接す
ることはリンクにした場合の単語グラフのイメージ
個人
収集
同意
利用
委員会
特定
データ
法
保護
情報
ビッグ
パーソナル

単語がノードならリンクは何？
• 案１：係り受け関係
– 文法的な意味や重みをリンクに付けられる
– しかし、処理が重たいし、関係に曖昧さあり
• 案２：共起
– 文章内共起、１文内での共起、ある幅の窓内での共起、単なる共起
ではなく隣接共起もあります
– 簡単！
– 重みはコーパス中の全文書での共起回数
• 案３：複合語における関係
– 複合語における共起
– 複合語における隣接共起（前方隣接、後方接続）
 案Ｘ：その他いろいろな関係が考えられます。新規で役立つ関係を
見つければ、それだけで大業績！
このスライドの「単語の必要度」もリンクの定義によって変わってきま
す。いろいろなリンクの定義で計算した「単語の必要度」を意味づけし
たり比較検討したりするのは自然言語処理の研究テーマになりそう
です。

単語グラフにおけるグラフの処理
積み上げ型
• 従来の方法はグラフ上で近い位置になる単語の
間の関係から、単語の重要さや類似性を求める
もの。以下にいくつかの例を示します。
複合語抽出その１
リンクは文における隣接関係「情報処理」というの
は「情報」と「処理」が隣接
このとき、2単語が同一文内で隣接して出現する頻度
が統計的に有意に高ければ、その2単語は複合語と
みなせます
統計的有意さは、χ二乗検定、Dice係数など
詳細は付録１を参照

積み上げ型
複合語抽出その２
リンクの定義は何でもよいです。
単語×単語の行列を作ります。行列の要素はリンク
の重み
リンクに方向性がない（単語×単語）行列の固有値
の大きさを単語の重要度にする方法：
ＧｏｏｇｌｅのPageRankアルゴリズムを単語の重要度計算に応
用みたいな。
リンクに方向性を持たせ、1方向のリンクからなる行
列の固有値を求めるような動作を両方向に繰り返し
て計算する方法
ＨＩＴＳアルゴリズムを単語の重要度計算に応用みたいな

積み上げ型
複合語抽出その３：言選Web (昔、私が提案しました）
リンクの定義は同一文内での隣接
前方隣接と後方隣接に分けます。
グラフの次数を使った単語重要度の計算
付録２参照
実働システム
はこちら
グラフの局所的性質
を使っているだけです
単語 3 2 統計
クラス 1 情報
文字 1 1 獲得
「単語情報」という表
現がコーパスに3回
出現＝リンク重み
「情報統計」という表
現がコーパスに２回
出現＝リンク重み
「文字情報」「クラス情報」
「情報統計」「情報獲得」とい
う表現がコーパスに１回ず
つ出現＝リンク重み

引き算的なやり方
本題に戻りましょう。単語が消失したらときの大変さ
を使って単語の必要度を計算したかったので、積み
上げ型ではなく、引き算的な方法にしたいところです。
では、引き算的ってどうやって実現するのでしょう
か。。。
ある単語が消失したら、単語グラフの構造が変
わります。
それによって、消失前はリンクをたどっていけば
到達できた単語に行き着けなくなると消失した単
語は必要だったんだよな、という考え方。

｛複合語，単単語｝をノードとし、文内共起や文書内共
起をリンクにした場合の単語グラフのイメージ
政府
データ収集
同意
利活用
設置
パーソナルデータ
ビッグデータ
法改正
委員会
個人情報保護
インターネット
行動履歴クリック

単語Ｚの消失による単語Ａ，Ｂ間の
損失=
𝐿
𝑁
この損失を全部の単語ペアで
合計したものが単語の必要度
単語 Z
単語 B
単語 A 単語 D
単語 C
.
.
.
.
.
.
単語Ａと単語Ｂ
をつなぐ経路数
＝Ｎ
単語Ａと単語Ｂをつなぐ
経路のうち、単語Zの消
失によって切れた数＝Ｌ
総和総和

• 単語Ｚを含むリンクが少なければ「必要度」は
低いわけです。
• 単語Ｚがたくさんのリンクの要素なら、いろい
ろな単語（＝概念）をつなぐ要素としてとても
重要です。
• グラフがある分野のコーパスなら、その分野
における単語Ｚの必要度が分かるということ
です。
• ふむふむ、直感にあっているね！

大規模グラフの処理としての問題
• 単語は一つの言語で105から106（語彙数）＝
ノード数
• リンクはコーパスサイズによるが、およそ単語
数の2乗= 1010から1012
• 限定された分野でも語彙は103から104
• 大規模グラフなので、ノード間のリンク列を全
部数え上げるのはかなり大変。効率のよいア
ルゴリズムが欲しいところです。

Betweenness Centarlity
• 損失L/Nは大規模グラフではよく知られたBetweenness
Centarlityという概念の要素です。
• グラフにおいてノードiからノードjへの経路数をgijとしそれ
らの経路のうちノードkを通る経路の数をgikjとします。ノー
ドkのBetweenness Centarlity: BC(j)は次の式で定義されま
す。
• 𝐵𝐶 𝑘 =
𝑔 𝑖𝑘𝑗𝑗𝑖
𝑔 𝑖𝑗𝑗𝑖
• Betweenness Centarlityはネットワーク分野で応用されおり、
疫学などで役立っています。高速に計算するアルゴリズム
の研究も出てきています。
ERATOの大規模グラフプロジェクト（リーダはNII河原林教授）で
も高速計算のアルゴリズムの研究成果が出ています。
そういった成果のアルゴリズムを使って、「単語の必要度」とい
う言語処理分野で研究したら楽しいかもしれません。誰かやっ
てみませんか？

付録１共起による複合語取り出し

Contingency Matix
二つの単語の連接しての共起の有意さによる
相互情報量
χ２乗検定
Log likelyhood ratio
W1 no W1
W2 a b
no W2 c d
dcbaN
caba
aN
wpwp
wwp
MI 

 ,
))((
log
)2()1(
)2,1(
log
))()()((
)( 2
2
dbcBcaba
bcad




Contingency Matix （相互情報量と例)
相互情報量
大学 ¬大学
改革 a=10 b=5
¬改革 c=5 d=980
38.83.333log
)510()510(
100010
log
))((
log






caba
aN
MI

Contingency Matix （相互情報量と例-1)
相互情報量
大学 ¬大学
改革 a=10 b=100
¬改革 c=90 d=800
18.309.9log
)10010()9010(
100010
log
))((
log






caba
aN
MI

相互情報量の問題点
相互情報量
これでは過大評価dice係数（重み付き）
大学 ¬大学
改革 a=1 b=0
¬改革 c=0 d=999
96.9
)1()1(
10001
log
))((
log 





caba
aN
MI
74.27.6log)
1515
20
10log(
0)
11
2
1log()
)()(
2
log(








Dicepreviouscompare
caba
a
aDice

Contingency Matix （χ2乗検定と例)
χ2乗検定
自由度１のχ2乗分布で棄却率は0.1％以
下有意に共起
大学 ¬大学
改革 a=10 b=5
¬改革 c=5 d=980
489
9859851515
1098001000 22
2







)(
))()()((
)(
dbdccaba
bcadN


Contingency Matix （χ2乗検定と例-1)
χ2乗検定
自由度１のχ2乗分布で棄却率は75％以下
有意に共起
大学 ¬大学
改革 a=10 b=100
¬改革 c=90 d=800
11.0
900890100110
)90008000(1000
))()()((
)( 22
2







dbdccaba
bcadN


Likelihood ratio
仮説H1: p(w2|w1)=p(w2|¬w1)
仮説H2: p(w2|w1)>p(w2| ¬w1)
H1,H2のlikelihoodをL(H1),L(H2)とすると
 が閾値Cより小さければ
w1 w2は有意な連語
L(H1),L(H2) の計算はちょっと面倒
)(
)(
loglog
2
1
HL
HL


計算例
N
ba
pwwpwwpH

 )|()|(: 12121
)2,,()1,,()2(
),,(),,()1(
)1(),,(
2)1|2(
,1)1|2(:2
)(
pdbbbpcaabHL
pdbbbpcaabHL
xx
k
n
xnkb
caN
b
db
b
pwwp
ca
a
pwwpH
knk
















　二項分布

計算例
0150
1000
510
12121 .)|()|(: 

 pwwpwwpH
有意に共起
　二項分布





























53)
)2(
)1(
log(
1
1060.1
1039.1
)2(
)1(
)005.0,985,5()67,0,15,10()2,,()1,,()2(
)015.0,985,5()015.0,15,10(),,(),,()1(
)1(),,(
005.0
5980
5
2)1|2(
,67.0
510
10
1)1|2(:2
18
34
)(
HL
HL
HL
HL
bbpdbbbpcaabHL
bbpdbbbpcaabHL
xx
k
n
xnkb
caN
b
db
b
pwwp
ca
a
pwwpH
knk

計算例-1
1.0
1000
9010
)1|2()1|2(:1 

 pwwpwwpH
有意に共起ではない
　二項分布

























68.0)
)2(
)1(
log(
1
1010.4
1058.6
)2(
)1(
)11.0,900,90()1.0,100,10()2,,()1,,()2(
)1.0,900,90()1.0,100,10(),,(),,()1(
)1(),,(
11.0
900
100
2)1|2(
,1.0
100
10
1)1|2(:2
142
142
)(
HL
HL
HL
HL
bbpdbbbpcaabHL
bbpdbbbpcaabHL
xx
k
n
xnkb
caN
b
db
b
pwwp
ca
a
pwwpH
knk

• Pre(N) はコーパスにおいて名詞N に前接し複合名
詞を作る名詞の種類数
• Post(N) はコーパスにおいて名詞N に後接し複合
名詞を作る名詞の種類数
 Pre-freq(N) はコーパスにおいて名詞N に前接し複
合名詞を作る名詞の頻度
 Post-freq(N) はコーパスにおいて名詞N に後接し
複合名詞を作る名詞の頻度
Pre と Post

Pre, Postの計算作例
例：コーパスから次の出現回数が分かったとする。
 単語トライグラム(3回）、トライグラム統計（2回）
クラストライグラム（1回）、トライグラム獲得（1回）
文字トライグラム（1回）、
-----------------------------------------------------------------------
Pre(トライグラム）＝３ Post(トライグラム）＝２
Pre-freq(トライグラム）＝5 Post-freq(トライグラム）＝3
トライグラム（４回）

単名詞のスコア付け
Pre(トライグラム)=3 Post(トライグラム)=2
Pre-ferq(トライグラム)=５ Post-freq(トライグラム)=３
前方接続の頻度 N 後方接続の頻度
3 単語統計 2
1 クラス情報
1 文字獲得 1

• 複合名詞: N1 N2 …Nk のスコアは次のように定義ただし、
preはpre-freq, postはpost-freqでもよい。
• 作例では、pre,postの場合
• score1(トライグラム）＝((3+1)(2+1))1/2=3.46
• pre-freq, post-freq だと
• score2(トライグラム）＝ ((5+1)(3+1))1/2=4．90
複合名詞に拡張しスコアを定義
k
i
k
i ik NPostPre(NNNorscore 2
1
11 )))1)(()1)((()..)(2(1  

• この方法では、まだ個々の複合名詞の独立した出現を考
慮していないので
• 作例では、トライグラムが4回独立して出現しているので
• score3=score1 ×4 =13.84
• score4= score2 ×4 =19.6
• 我々が日本語の国立情報学研究所提供の用語抽出テ
ストコレクションで実験したところ、score4が一番成績がよ
く、情報工学分野の用語１０００語を選んだところ６０％強
が人間の選んだ用語と一致した。
)..()))1)(()1)(((
)..(3
21
2
1
1
1
k
k
i
k
i i
k
NNNNPostPre(N
NNscore
独立出現頻度 

もしその単語がなかったら

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Viewers also liked

Viewers also liked (16)

More from Hiroshi Nakagawa

More from Hiroshi Nakagawa (20)

Recently uploaded

Recently uploaded (11)

もしその単語がなかったら