More Related Content
Similar to 可視化法学 smips登壇 (20)
More from (shibao)芝尾 (kouichiro)幸一郎
More from (shibao)芝尾 (kouichiro)幸一郎 (11)
可視化法学 smips登壇
- 71. 法令の類似度を測るには
➤ 単語の抜き出し(形態素解析)
➤ MeCab
% mecab
すもももももももものうち
すもも 名詞,一般,*,*,*,*,すもも,スモモ,スモモ
も 助詞,係助詞,*,*,*,*,も,モ,モ
もも 名詞,一般,*,*,*,*,もも,モモ,モモ
も 助詞,係助詞,*,*,*,*,も,モ,モ
もも 名詞,一般,*,*,*,*,もも,モモ,モモ
の 助詞,連体化,*,*,*,*,の,ノ,ノ
うち 名詞,非自立,副詞可能,*,*,*,うち,ウチ,ウチ
EOS
➤ Doc2Vec
➤ Gensim https://radimrehurek.com/gensim/models/doc2vec.html
- 73. 作り方
➤ 法令を集める
➤ 法令データをmecabを使って、名詞だけ抽出
➤ name=未成年者飲酒禁止法(大正十一年三月三十日法律第二十号) word=['未成年', '者', '飲酒', '禁止', '法', '大正
', '年', '三月', '日', '法律', '号', '最終', '改正', '平成', '年', '二月', '日', '法律', '号', ‘条']
➤ gensim.doc2vecを利用して、単語間の繋がりを学習。
model = models.Doc2Vec(size=400, alpha=0.0015, sample=1e-4, min_count=10, workers=4)
model.build_vocab(sentences)
for x in range(30):
model.train(sentences)