More Related Content
More from Hiroshi Nakagawa (20)
もしその単語がなかったら
- 6. 言語学や自然言語処理
• 前ページのスライド「単語の社会における必要度の図」でお伝えしたいのは
– みんなが使う「月」が消失すると甚大な影響を及ぼす
– 専門用語「VC次元」くらいがなくなっても世界は大きく変わらないだろう
– 一般人の名前がひとつ消えても社会は何も変わらない
• というように、単語がカバーする社会現象の範囲の大きくなると「必要度」が大きく
なり、
• カバー範囲が専門分野や特定業界のように小さくなってくると、VC次元、CRM,ZARA
みたいに「必要度」が減少し
• 一般人の身の回りのようにカバー範囲がもっと狭まると「中川裕志」のように「必要度」
はほとんど無くなるということです。
• 言語学や自然言語処理の研究者の方で、ある単語を消去したら、世界や社会の
構造がどのくらい変わってしまうかという観点から 「単語の社会における必要度」
を、調べた人がいるんでしょうか?
• 対象分野をある程度、限定してみると、大量のコーパスから個別単語の「単語の社
会における必要度」を計算できそうです。
- 9. 単語がノードならリンクは何?
• 案1:係り受け関係
– 文法的な意味や重みをリンクに付けられる
– しかし、処理が重たいし、関係に曖昧さあり
• 案2:共起
– 文章内共起、1文内での共起、ある幅の窓内での共起、単なる共起
ではなく隣接共起もあります
– 簡単!
– 重みはコーパス中の全文書での共起回数
• 案3:複合語における関係
– 複合語における共起
– 複合語における隣接共起(前方隣接、後方接続)
案X:その他いろいろな関係が考えられます。新規で役立つ関係を
見つければ、それだけで大業績!
このスライドの「単語の必要度」もリンクの定義によって変わってきま
す。いろいろなリンクの定義で計算した「単語の必要度」を意味づけし
たり比較検討したりするのは自然言語処理の研究テーマになりそう
です。
- 18. Betweenness Centarlity
• 損失L/Nは大規模グラフではよく知られたBetweenness
Centarlityという概念の要素です。
• グラフにおいてノードiからノードjへの経路数をgijとしそれ
らの経路のうちノードkを通る経路の数をgikjとします。ノー
ドkのBetweenness Centarlity: BC(j)は次の式で定義されま
す。
• 𝐵𝐶 𝑘 =
𝑔 𝑖𝑘𝑗𝑗𝑖
𝑔 𝑖𝑗𝑗𝑖
• Betweenness Centarlityはネットワーク分野で応用されおり、
疫学などで役立っています。高速に計算するアルゴリズム
の研究も出てきています。
ERATOの大規模グラフプロジェクト(リーダはNII河原林教授)で
も高速計算のアルゴリズムの研究成果が出ています。
そういった成果のアルゴリズムを使って、「単語の必要度」とい
う言語処理分野で研究したら楽しいかもしれません。誰かやっ
てみませんか?
- 27. 計算例
N
ba
pwwpwwpH
)|()|(: 12121
)2,,()1,,()2(
),,(),,()1(
)1(),,(
2)1|2(
,1)1|2(:2
)(
pdbbbpcaabHL
pdbbbpcaabHL
xx
k
n
xnkb
caN
b
db
b
pwwp
ca
a
pwwpH
knk
二項分布
- 28. 計算例
0150
1000
510
12121 .)|()|(:
pwwpwwpH
有意に共起
二項分布
53)
)2(
)1(
log(
1
1060.1
1039.1
)2(
)1(
)005.0,985,5()67,0,15,10()2,,()1,,()2(
)015.0,985,5()015.0,15,10(),,(),,()1(
)1(),,(
005.0
5980
5
2)1|2(
,67.0
510
10
1)1|2(:2
18
34
)(
HL
HL
HL
HL
bbpdbbbpcaabHL
bbpdbbbpcaabHL
xx
k
n
xnkb
caN
b
db
b
pwwp
ca
a
pwwpH
knk
- 29. 計算例-1
1.0
1000
9010
)1|2()1|2(:1
pwwpwwpH
有意に共起ではない
二項分布
68.0)
)2(
)1(
log(
1
1010.4
1058.6
)2(
)1(
)11.0,900,90()1.0,100,10()2,,()1,,()2(
)1.0,900,90()1.0,100,10(),,(),,()1(
)1(),,(
11.0
900
100
2)1|2(
,1.0
100
10
1)1|2(:2
142
142
)(
HL
HL
HL
HL
bbpdbbbpcaabHL
bbpdbbbpcaabHL
xx
k
n
xnkb
caN
b
db
b
pwwp
ca
a
pwwpH
knk
- 31. • Pre(N) はコーパスにおいて名詞N に前接し複合名
詞を作る名詞の種類数
• Post(N) はコーパスにおいて名詞N に後接し複合
名詞を作る名詞の種類数
Pre-freq(N) はコーパスにおいて名詞N に前接し複
合名詞を作る名詞の頻度
Post-freq(N) はコーパスにおいて名詞N に後接し
複合名詞を作る名詞の頻度
Pre と Post
- 32. Pre, Postの計算 作例
例:コーパスから次の出現回数が分かったとする。
単語 トライグラム(3回)、 トライグラム 統計(2回)
クラス トライグラム(1回)、トライグラム 獲得(1回)
文字 トライグラム(1回)、
-----------------------------------------------------------------------
Pre(トライグラム)=3 Post(トライグラム)=2
Pre-freq(トライグラム)=5 Post-freq(トライグラム)=3
トライグラム(4回)
- 34. • 複合名詞: N1 N2 …Nk の スコアは次のように定義 ただし、
preはpre-freq, postはpost-freqでもよい。
• 作例では、pre,postの場合
• score1(トライグラム)=((3+1)(2+1))1/2=3.46
• pre-freq, post-freq だと
• score2(トライグラム)= ((5+1)(3+1))1/2=4.90
複合名詞に拡張しスコア を定義
k
i
k
i ik NPostPre(NNNorscore 2
1
11 )))1)(()1)((()..)(2(1