Submit Search
Upload
[第6回]データ分析ランチセッション - Camphrでモダンな自然言語処理
•
2 likes
•
7,022 views
Teruyuki Sakaue
Follow
会社の昼休みに緩めの情報共有会を開催した際の資料です。
Read less
Read more
Science
Report
Share
Report
Share
1 of 18
Download now
Download to read offline
Recommended
Passwords are passé. WebAuthn is simpler, stronger and ready to go
Passwords are passé. WebAuthn is simpler, stronger and ready to go
Michael Furman
Data Pipelining Across AWS and GCP
Data Pipelining Across AWS and GCP
Jiangjun Huang
Ejercicio 1
Ejercicio 1
MariaJesusNovo
Monitoring via Datadog
Monitoring via Datadog
Knoldus Inc.
Tanny Ng, Nadeem Syed [WP Engine] | How WP Engine Transformed Monitoring Into...
Tanny Ng, Nadeem Syed [WP Engine] | How WP Engine Transformed Monitoring Into...
InfluxData
社内Git勉強会向け資料
社内Git勉強会向け資料
Hiroki Saiki
Cloud arch patterns
Cloud arch patterns
Corey Huinker
Does your API need to be PCI Compliant?
Does your API need to be PCI Compliant?
Apigee | Google Cloud
Recommended
Passwords are passé. WebAuthn is simpler, stronger and ready to go
Passwords are passé. WebAuthn is simpler, stronger and ready to go
Michael Furman
Data Pipelining Across AWS and GCP
Data Pipelining Across AWS and GCP
Jiangjun Huang
Ejercicio 1
Ejercicio 1
MariaJesusNovo
Monitoring via Datadog
Monitoring via Datadog
Knoldus Inc.
Tanny Ng, Nadeem Syed [WP Engine] | How WP Engine Transformed Monitoring Into...
Tanny Ng, Nadeem Syed [WP Engine] | How WP Engine Transformed Monitoring Into...
InfluxData
社内Git勉強会向け資料
社内Git勉強会向け資料
Hiroki Saiki
Cloud arch patterns
Cloud arch patterns
Corey Huinker
Does your API need to be PCI Compliant?
Does your API need to be PCI Compliant?
Apigee | Google Cloud
Proactive Approach to OT incident response - HOUSECCON 2023
Proactive Approach to OT incident response - HOUSECCON 2023
Chris Sistrunk
Greenplum User Case
Greenplum User Case
VMware Tanzu Korea
ClearTax presentation
ClearTax presentation
Neha Kaushik
Do You Really Need to Evolve From Monitoring to Observability?
Do You Really Need to Evolve From Monitoring to Observability?
Splunk
Datadog APM Product Launch
Datadog APM Product Launch
Brett Sheppard
Instalacion y configuracion de terminal server (1)
Instalacion y configuracion de terminal server (1)
Wil Cadillopoma
TECHTALK 20200923 Qlik Sense+Qlik NPrinting でセルフサービスBIから定型帳票の配信までをカバー
TECHTALK 20200923 Qlik Sense+Qlik NPrinting でセルフサービスBIから定型帳票の配信までをカバー
QlikPresalesJapan
[第1回]データ分析ランチセッション ~ Qiita Advent Calendar2019から得た情報10選
[第1回]データ分析ランチセッション ~ Qiita Advent Calendar2019から得た情報10選
Teruyuki Sakaue
[第11回]データ分析ランチセッション - モダンな機械学習データパイプラインKedroを触ってみる
[第11回]データ分析ランチセッション - モダンな機械学習データパイプラインKedroを触ってみる
Teruyuki Sakaue
Globalinx Newsletter Winter 2012
Globalinx Newsletter Winter 2012
GLOBALINX CORP
HRビジネスにおけるデータサイエンスの適用 @ BIT VALLEY -INSIDE- Vol.1
HRビジネスにおけるデータサイエンスの適用 @ BIT VALLEY -INSIDE- Vol.1
Teruyuki Sakaue
パーフェクト販促講座(売上アップ大学)
パーフェクト販促講座(売上アップ大学)
販促コンサルタントの渋谷雄大
140921_JSET30_口頭発表
140921_JSET30_口頭発表
Yoshikazu Asada
Rep0216slide
Rep0216slide
mokkle
メルカリのアナリストのスキルセットについて
メルカリのアナリストのスキルセットについて
shintaro matsuda
ACL2018の歩き方
ACL2018の歩き方
Takahiro Kubo
元外資コンサルによる戦略的プレゼン資料作成講座〜二日間集中講義
元外資コンサルによる戦略的プレゼン資料作成講座〜二日間集中講義
資料作成トレーニング Rubato(ルバート)
第 11 回 最先端 NLP 勉強会
第 11 回 最先端 NLP 勉強会
Yuko Fujiyama
実務と論文で学ぶジョブレコメンデーション最前線2022
実務と論文で学ぶジョブレコメンデーション最前線2022
Teruyuki Sakaue
警察庁オープンデータで交通事故の世界にDeepDive!
警察庁オープンデータで交通事故の世界にDeepDive!
Teruyuki Sakaue
[丸ノ内アナリティクスバンビーノ#23]データドリブン施策によるサービス品質向上の取り組み
[丸ノ内アナリティクスバンビーノ#23]データドリブン施策によるサービス品質向上の取り組み
Teruyuki Sakaue
[Music×Analytics]プロの音に近づくための研究と練習
[Music×Analytics]プロの音に近づくための研究と練習
Teruyuki Sakaue
More Related Content
What's hot
Proactive Approach to OT incident response - HOUSECCON 2023
Proactive Approach to OT incident response - HOUSECCON 2023
Chris Sistrunk
Greenplum User Case
Greenplum User Case
VMware Tanzu Korea
ClearTax presentation
ClearTax presentation
Neha Kaushik
Do You Really Need to Evolve From Monitoring to Observability?
Do You Really Need to Evolve From Monitoring to Observability?
Splunk
Datadog APM Product Launch
Datadog APM Product Launch
Brett Sheppard
Instalacion y configuracion de terminal server (1)
Instalacion y configuracion de terminal server (1)
Wil Cadillopoma
TECHTALK 20200923 Qlik Sense+Qlik NPrinting でセルフサービスBIから定型帳票の配信までをカバー
TECHTALK 20200923 Qlik Sense+Qlik NPrinting でセルフサービスBIから定型帳票の配信までをカバー
QlikPresalesJapan
What's hot
(7)
Proactive Approach to OT incident response - HOUSECCON 2023
Proactive Approach to OT incident response - HOUSECCON 2023
Greenplum User Case
Greenplum User Case
ClearTax presentation
ClearTax presentation
Do You Really Need to Evolve From Monitoring to Observability?
Do You Really Need to Evolve From Monitoring to Observability?
Datadog APM Product Launch
Datadog APM Product Launch
Instalacion y configuracion de terminal server (1)
Instalacion y configuracion de terminal server (1)
TECHTALK 20200923 Qlik Sense+Qlik NPrinting でセルフサービスBIから定型帳票の配信までをカバー
TECHTALK 20200923 Qlik Sense+Qlik NPrinting でセルフサービスBIから定型帳票の配信までをカバー
Similar to [第6回]データ分析ランチセッション - Camphrでモダンな自然言語処理
[第1回]データ分析ランチセッション ~ Qiita Advent Calendar2019から得た情報10選
[第1回]データ分析ランチセッション ~ Qiita Advent Calendar2019から得た情報10選
Teruyuki Sakaue
[第11回]データ分析ランチセッション - モダンな機械学習データパイプラインKedroを触ってみる
[第11回]データ分析ランチセッション - モダンな機械学習データパイプラインKedroを触ってみる
Teruyuki Sakaue
Globalinx Newsletter Winter 2012
Globalinx Newsletter Winter 2012
GLOBALINX CORP
HRビジネスにおけるデータサイエンスの適用 @ BIT VALLEY -INSIDE- Vol.1
HRビジネスにおけるデータサイエンスの適用 @ BIT VALLEY -INSIDE- Vol.1
Teruyuki Sakaue
パーフェクト販促講座(売上アップ大学)
パーフェクト販促講座(売上アップ大学)
販促コンサルタントの渋谷雄大
140921_JSET30_口頭発表
140921_JSET30_口頭発表
Yoshikazu Asada
Rep0216slide
Rep0216slide
mokkle
メルカリのアナリストのスキルセットについて
メルカリのアナリストのスキルセットについて
shintaro matsuda
ACL2018の歩き方
ACL2018の歩き方
Takahiro Kubo
元外資コンサルによる戦略的プレゼン資料作成講座〜二日間集中講義
元外資コンサルによる戦略的プレゼン資料作成講座〜二日間集中講義
資料作成トレーニング Rubato(ルバート)
第 11 回 最先端 NLP 勉強会
第 11 回 最先端 NLP 勉強会
Yuko Fujiyama
Similar to [第6回]データ分析ランチセッション - Camphrでモダンな自然言語処理
(11)
[第1回]データ分析ランチセッション ~ Qiita Advent Calendar2019から得た情報10選
[第1回]データ分析ランチセッション ~ Qiita Advent Calendar2019から得た情報10選
[第11回]データ分析ランチセッション - モダンな機械学習データパイプラインKedroを触ってみる
[第11回]データ分析ランチセッション - モダンな機械学習データパイプラインKedroを触ってみる
Globalinx Newsletter Winter 2012
Globalinx Newsletter Winter 2012
HRビジネスにおけるデータサイエンスの適用 @ BIT VALLEY -INSIDE- Vol.1
HRビジネスにおけるデータサイエンスの適用 @ BIT VALLEY -INSIDE- Vol.1
パーフェクト販促講座(売上アップ大学)
パーフェクト販促講座(売上アップ大学)
140921_JSET30_口頭発表
140921_JSET30_口頭発表
Rep0216slide
Rep0216slide
メルカリのアナリストのスキルセットについて
メルカリのアナリストのスキルセットについて
ACL2018の歩き方
ACL2018の歩き方
元外資コンサルによる戦略的プレゼン資料作成講座〜二日間集中講義
元外資コンサルによる戦略的プレゼン資料作成講座〜二日間集中講義
第 11 回 最先端 NLP 勉強会
第 11 回 最先端 NLP 勉強会
More from Teruyuki Sakaue
実務と論文で学ぶジョブレコメンデーション最前線2022
実務と論文で学ぶジョブレコメンデーション最前線2022
Teruyuki Sakaue
警察庁オープンデータで交通事故の世界にDeepDive!
警察庁オープンデータで交通事故の世界にDeepDive!
Teruyuki Sakaue
[丸ノ内アナリティクスバンビーノ#23]データドリブン施策によるサービス品質向上の取り組み
[丸ノ内アナリティクスバンビーノ#23]データドリブン施策によるサービス品質向上の取り組み
Teruyuki Sakaue
[Music×Analytics]プロの音に近づくための研究と練習
[Music×Analytics]プロの音に近づくための研究と練習
Teruyuki Sakaue
[DSO] Machine Learning Seminar Vol.8 Chapter 9
[DSO] Machine Learning Seminar Vol.8 Chapter 9
Teruyuki Sakaue
データ分析ランチセッション#24 OSSのAutoML~TPOTについて
データ分析ランチセッション#24 OSSのAutoML~TPOTについて
Teruyuki Sakaue
[DSO] Machine Learning Seminar Vol.2 Chapter 3
[DSO] Machine Learning Seminar Vol.2 Chapter 3
Teruyuki Sakaue
[DSO] Machine Learning Seminar Vol.1 Chapter 1 and 2
[DSO] Machine Learning Seminar Vol.1 Chapter 1 and 2
Teruyuki Sakaue
地理データを集め、可視化し分析することが簡単にできるプログラミング言語について @ BIT VALLEY -INSIDE- Vol.16
地理データを集め、可視化し分析することが簡単にできるプログラミング言語について @ BIT VALLEY -INSIDE- Vol.16
Teruyuki Sakaue
流行りの分散表現を用いた文書分類について Netadashi Meetup 7
流行りの分散表現を用いた文書分類について Netadashi Meetup 7
Teruyuki Sakaue
Marketing×Python/Rで頑張れる事例16本ノック
Marketing×Python/Rで頑張れる事例16本ノック
Teruyuki Sakaue
機械学習による積極的失業〜オウンドメディアの訪問予測
機械学習による積極的失業〜オウンドメディアの訪問予測
Teruyuki Sakaue
More from Teruyuki Sakaue
(12)
実務と論文で学ぶジョブレコメンデーション最前線2022
実務と論文で学ぶジョブレコメンデーション最前線2022
警察庁オープンデータで交通事故の世界にDeepDive!
警察庁オープンデータで交通事故の世界にDeepDive!
[丸ノ内アナリティクスバンビーノ#23]データドリブン施策によるサービス品質向上の取り組み
[丸ノ内アナリティクスバンビーノ#23]データドリブン施策によるサービス品質向上の取り組み
[Music×Analytics]プロの音に近づくための研究と練習
[Music×Analytics]プロの音に近づくための研究と練習
[DSO] Machine Learning Seminar Vol.8 Chapter 9
[DSO] Machine Learning Seminar Vol.8 Chapter 9
データ分析ランチセッション#24 OSSのAutoML~TPOTについて
データ分析ランチセッション#24 OSSのAutoML~TPOTについて
[DSO] Machine Learning Seminar Vol.2 Chapter 3
[DSO] Machine Learning Seminar Vol.2 Chapter 3
[DSO] Machine Learning Seminar Vol.1 Chapter 1 and 2
[DSO] Machine Learning Seminar Vol.1 Chapter 1 and 2
地理データを集め、可視化し分析することが簡単にできるプログラミング言語について @ BIT VALLEY -INSIDE- Vol.16
地理データを集め、可視化し分析することが簡単にできるプログラミング言語について @ BIT VALLEY -INSIDE- Vol.16
流行りの分散表現を用いた文書分類について Netadashi Meetup 7
流行りの分散表現を用いた文書分類について Netadashi Meetup 7
Marketing×Python/Rで頑張れる事例16本ノック
Marketing×Python/Rで頑張れる事例16本ノック
機械学習による積極的失業〜オウンドメディアの訪問予測
機械学習による積極的失業〜オウンドメディアの訪問予測
[第6回]データ分析ランチセッション - Camphrでモダンな自然言語処理
1.
Leverages Marketing Department データ分析ランチセッション#6 Camphrでモダンな自然言語処理 2020/02/19
渋谷スクランブルスクエア25F レバレジーズ株式会社 データ戦略室室長 阪上晃幸 1
2.
Leverages Marketing Department ●
データ戦略室で隔週で行っている、書籍をベースにした勉強会の補講の位置付け。情報 の鮮度を意識した勉強会。 ● 扱うトピックは発表者が任意で決める。 ● 発表者以外は弁当を持参する。発表者は発表後に食事する。 ● 発表時間は10~15分。質疑応答が10~15分。 ランチセッションとは 2
3.
Leverages Marketing Department 自己紹介 3 ●
阪上晃幸(@Mr_Sakaue) ● データアナリスト 兼 室長 ● 経歴 2012/2:レバレジーズでインターン 2012/3:一橋大学大学院経済学研究科 修士課程修了 2012/4〜:レバレジーズ入社 ● 趣味 料理、ブログ記事の作成 『かものはしの分析ブログ』で検索! 表参道のbillsからスクスク が見える
4.
Leverages Marketing Department 今回はCamphrを紹介しますよ! 4
5.
Leverages Marketing Department ●
PKSHA Technology Inc.が開発したNLPライブラリ パークシャ ● CamphrはspaCyのプラグイン ○ spaCyとは ■ 自然言語処理を行うためのオープンソースソフトウェア・ライブラリで Pythonなどで書かれている。 ■ 速い、易い、うまいの三拍子 ● 速い:Cythonで書かれており、処理が速い。state-of-the-art(SOTA)な処理速度。 ● 易い:シンプルなAPIで実装しやすい。 ● (連携が)うまい:TensorFlow, PyTorch, scikit-learn, Gensimなどのエコシステムを利用できる。 ■ 49以上の言語に対応 ● Transformers(転移学習)やUdify(75もの言語に対応した自然言語処理のモデル)な どの最先端の手法や、KNP(日本語構文・格・照応解析システム)などを扱うことができ る。 Camphrとは 5
6.
Leverages Marketing Department ●
係り受け解析(新旧) ● ファインチューニング(今回はデモなし) ● 埋め込みベクトル ● テキスト分類 Camphrでできること 6
7.
Leverages Marketing Department 1.
ColabをGPUモードで開く 2. !pip install camphr を実行 3. !pip install https://github.com/PKSHATechnology-Research/camphr_models/releases/dow nload/0.5/ja_mecab_udify-0.5.tar.gz を実行しモデルをダウンロード 4. Colabだとモデルは以下のパスとなる。尚、最後のディレクトリはファイル名。 /usr/local/lib/python3.6/dist-packages/ja_mecab_udify/ja_mecab_udify-0.5.0 5. !pip install mecab-python3 --only-binary :all: を実行しMeCabを使えるようにする。 Camphrを触ってみる 7
8.
Leverages Marketing Department 係り受け(日本語) 8
9.
Leverages Marketing Department 係り受け(英語) 9 一つのモデルで日 本語も英語も対応 している。
10.
Leverages Marketing Department 係り受け(フランス語) 10 一つのモデルで日 本語も英語もフラ ンス語も対応して いる。
11.
Leverages Marketing Department ●
学習済みのモデルを使って、入力したテキストの埋め込みベクトルを取得 Transformer(転移学習) 11 768次元の埋め込みベクトル
12.
Leverages Marketing Department ●
埋め込みベクトル(768次元)同士でCOS類似度の計算 ○ 文書単位での類似度とトークン単位での類似度を計算 Transformer(転移学習) 12
13.
Leverages Marketing Department ●
json形式でテキストとラベルをもたせたデータに対して文書分類が可能 ○ jsonでトレインデータとラベルデータを用意する。(今回は20件ほど) ● コマンドライン(CLI)で実行可能 ● Colabで実行可能。 文書分類 このような形式のデータをインプット テキスト ラベル ラベルデータ 13
14.
Leverages Marketing Department ●
Colab上で、CLIでの文書分類の学習の実行 文書分類 14
15.
Leverages Marketing Department ●
訓練が終わったモデルを読み込んでラベルの予測を行う。 文書分類 ポジティブに分類されて欲しいが、訓練デー タが20件ほどしかないので厳しいのかもしれ ない。 15
16.
Leverages Marketing Department ●
様々な学習済みモデルを簡単に扱えるのは良い。 ● SpaCy自体にも興味を持てた。 ● 複数言語を一つのモデルで扱えるUDifyはすごいと思った。 ● 文書分類に関してもっと大きなデータセットを用意したり、日本語での文書分類を試して みたい。 所感 16
17.
Leverages Marketing Department [1]
Camphr - spaCy plugin for Transformers, Udify, Elmo, etc. : GitHub [2] Camphr: spaCy plugin for Transformers, Udify, KNP : Qiita [3] spaCy [4] 日本語構文・格・照応解析システム KNP [5] yasuokaの日記: 多言語係り受け解析ツールとしてのCamphr-Udify [6] Displacy from spacy in google colab [7] UDify [8] Tutorial: Text Classification in Python Using spaCy [9] Fine tuning Transformers [10] Training spaCy’s Statistical Models 参考情報 17
18.
Leverages Marketing Department ご静聴ありがとうございました! 18
Download now