14. 14
コーパスの作成方法(2/2)
③ エクセルに取り込み、「@」で始まる行(別の読み方がある場合に
出現)、および「EOS」の行を削除する
④ CSVファイルとして保存
⑤ Pythonプログラム上で、1列目を取り出す
⑥ 「sorted」および「dict」を使用して、単語-インデックス両引き辞書
を生成する
chars = sorted(list(set(text)))
print('total chars:', len(chars))
char_indices = dict((c, i) for i, c in enumerate(chars))
indices_char = dict((i, c) for i, c in enumerate(chars))
lstm_text_generation.pyでの実装例
上記の手順により、コーパス長約420千語、単語数役22千語のコー
パスを生成した