Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

ニュース記事と特許を利用した科学技術の重要性の評価 広島市立大学

All Analytics Championship Powered by SAS ~データサイエンス・アドベンチャー杯(2014年3月8日(土)開催)入賞作品

  • Login to see the comments

ニュース記事と特許を利用した科学技術の重要性の評価 広島市立大学

  1. 1. ニュース記事と特許を利用した 科学技術の重要性評価 広島市立大学 難波英嗣 福田悟志 飯沼俊平 竹澤寿幸
  2. 2. 背景 従来の科学技術の重要性の評価 • 論文(誌)の被引用数 たくさん引用される論文(誌)は重要性が高い • 特許、論文間の引用数 論文を引用している特許が多い分野は産学の 結び付きが強い → 産業界に影響度の高い 学術分野を見つける 2
  3. 3. 背景 従来の科学技術の重要性の評価 • 論文(誌)の被引用数 たくさん引用される論文(誌)は重要性が高い • 特許、論文間の引用数 論文を引用している特許が多い分野は産学の 結び付きが強い → 産業界に影響度の高い 学術分野を見つける 3 研究者から見た 同業者の成果の評価 産業界から見た 学術界の成果の評価
  4. 4. 問題提起(1/2) もっと色んな観点や手法に基づく評価があっても良い のでは? どんな分野に研究費が分配されているのか? 多くの研究費が分配されている分野は、研究費分配 機関が重要と考える分野 どんな分野の技術がニュースで取り上げられているのか ? ニュースでよく取り上げられる分野は、世間の人々が 関心を持つであろうとマスコミが考える分野 4
  5. 5. 問題提起(2/2) もっと色んな観点や手法に基づく評価があっても良い のでは? 特許分類体系で見た場合、どの分野で良く論文が発 表されているのか? 特許と論文間の引用関係以外に、特許と論文の結 び付きを測る 5
  6. 6. 目的 ニュース記事や特許を学術論文と紐付けること で、科学技術の重要性を社会的、経済的側面か ら分析・評価するシステムを構築 6 特許 研究費 ニュース 記事 論文
  7. 7. 手順 1. ニュース記事、研究費報告書、特許、論文を紐付 ける 2. 紐付けた結果を用いて科学技術の重要性を評価 7
  8. 8. 方針 ジャンルの違う文献(ニュース記事、研究費報告書、特許 、論文)をどうやって紐付けるのか? 従来の手法 •特許と論文の引用関係 •ジャンル横断検索 特許訴訟に関するニュース記事から該当特許を検出 (NTCIR-3特許検索タスク) •ジャンル横断文書分類 [Nanba 2010] 論文に国際特許分類コードを自動付与 (NTCIR-7, 8特許マイニングタスク) 8 この技術 を利用 [難波 2009]
  9. 9. 国際特許分類 (IPC)とは? 9 G 06 F 17 /30 セクション クラス サブクラス メイングループ サブグループ G セクション 物理学 G06 クラス 計算、計数 G06F サブクラス 電気的デジタルデータ処理 G06F 17/00 メイングループ デジタル計算またはデータ処理の装置、方法 G06F 17/30 サブグループ 情報検索、そのためのデータ構造 国際特許分類第8版ではサブクラスのレベルで643個のカテゴリ 今回はこのレベルで 分類する。
  10. 10. タイトル:MRA画像からの脳血管芯線抽出の精度評 価/MRA画像からの脳血管芯線抽出の精度評価 著者:松本伸子,藤井哲也,江浩,周郷延雄,御任 明利,柴田家門 出典:電子情報通信学会技術研究報告. MI, 医用 画像/信学技法 国際特許分類:A61B (診断、手術、個人識別) 10 論文に国際特許分類を付与した例 自動分類技術 分類精度:約82% [難波 2009]
  11. 11. ニュース記事に国際特許分類を付与した例 見出し:警備会社のセコムが侵入者に霧を吹きつける 新しい防犯システム開発 本文:宝石店などを狙った多額盗難事件が相次ぐ中 で、警備会社の「セコム」(本社・東京)が、侵入者に 霧を吹きつけるという新しい防犯システムを開発した 。侵入者をセンサーが感知すると、高さ八十センチほ どの機械から霧が吹き出して部屋中を白く包み、視界 を失った犯人は金庫破りどころではなくなる仕組み。 国際特許分類:G08B (信号または呼出し装置、警報装置) 11 自動分類技術 学術論文分類技術をニ ュース記事に利用
  12. 12. ニュース記事に国際特許分類を付与した例 見出し:Yahoo Acquires SkyPhrase (訳 Yahoo!がSkyPhraseを買収) 本文:Yahoo has acquired SkyPhrase, a startup that builds natural language processing technology, the company revealed today in a blog post. … to help continue its goal of “making computers deeply understand people’s natural language and intentions.” 国際特許分類:G06F (電気的デジタルデ-タ処理) 12 自動分類技術 英語用の学術論文分類 技術を利用することで 英文ニュース記事も分 類可能!
  13. 13. 分類に用いたデータ JST論文との紐付けの観点として利用 •読売新聞記事データ(邦文)(1993〜2012年) •TechCrunch(IT系ニュースサイト) •科学研究費補助金データベース 13 対象データ 付与コード 付与件数 科学技術文献データ (書誌情報) 国際特許分類 約700,000 科研費コード 6,533,269 読売新聞 (開発・実用化記事) 国際特許分類 8,674 TechCrunch (IT系英文ニュース) 国際特許分類 120,596
  14. 14. 課題番号:09308009 科研費カテゴリ:知能情報学 課題名:自己増殖型言語知識ベース構築技術に関 する研究 研究者:田中穂積 乾健太郎 徳永健伸 白井清昭 概要:…次に,得られた形態素情報・構文情報か ら,形態素・構文解析に必要な知識や解析精度を 向上させるための知識として,接続表と数理モデ ルを学習する.… 14 科学研究費補助金データベースとは
  15. 15. 科研費データベースカテゴリ 科研費の採択済課題の申請書に付与された科研費 コードを訓練用データとして、入力された論文に科研 費コードを自動付与するシステムを開発[Fukuda 2013] 15 分野 分科 細目表 総合領域 情報学 知能情報学,ソフトウェア など 生活科学 生活科学一般,食生活学 社会科学 法学 刑事法学,民事法学 など 経済学 経営学,経済統計学 など 医歯薬学 基礎医学 化学系薬学,物理系薬学 など 内科系臨床医学 消化器内科学,循環器内科学 など
  16. 16. 手順 1. ニュース記事、研究費報告書、特許、論文を紐付 ける 2. 紐付けた結果を用いて科学技術の重要性を評価 16
  17. 17. 分析事例 分析で明らかにしたいこと (分析1)国際特許分類で見た場合、どの分野で論 文が数多く発表されているのか? (分析2)分野別に見た、「特許の出願傾向」、 「 論文」、「ニュース記事の違い」 (分析3)海外の特許との比較(日本が得意な分野 の、海外での特許の出願傾向) 17
  18. 18. 分析に用いたデータ JST論文の傾向分析に利用 •科研費データベース JST論文との比較対象として利用 •日本国特許公開公報(1993〜2012年) •国際特許(WO)(1998〜2012年) 18
  19. 19. (分析1)国際特許分類で見た場合、どの分野で論文が 数多く発表されているのか? 国際特許分類分野別の科学技術文献データの割合 19 IPC 説明 割合 H01L 半導体装置 0.0715 H04N 画像通信(テレビ) 0.0366 G06F 電気的デジタルデータ処理 0.0346 A61K 医薬用,歯科用又は化粧用製剤 0.0258 H01M 電池 0.0251 G02B 光学装置 0.0201 B41J タイプライタ,プリンティング 機構 0.0189
  20. 20. (分析2)分野別に見た、「特許の出願傾向」、 「論文」 「ニュース記事」の違い 国際特許分類分野別の特許、ニュース(高頻度順) 20 日本国特許 ニュース記事(読売) IPC 説明 IPC 説明 H01L 半導体 G06F デジタルデータ G06F デジタルデータ G06Q データ処理 H04N 画像通信(テレビ) A23L 食品、食料品 G03G 電子写真 A61K 医薬品 G11B 情報記憶 H04N 画像通信(テレビ) G02B 光学装置 C12N 微生物、酵素 B41J タイプライタ G01N 材料の調査・分析 論文と特許は、比較的分布が似ている。 ニュース記事は、日用品の実用化、開発に関するトピックが多い。
  21. 21. (分析2)分野別に見た、「特許の出願傾向」、 「論文」 「ニュース記事」の違い 国際特許分類分野別の特許 (高頻度順) 21 日本国特許(1993-2012) 日本国特許(2012) IPC 説明 IPC 説明 H01L 半導体 H01L 半導体 G06F デジタルデータ H04N 画像通信(テレビ) H04N 画像通信(テレビ) G06F デジタルデータ G03G 電子写真 A61K 医学 G11B 情報記憶 H01M 電池 G02B 光学装置 G02B 光学装置 B41J タイプライタ B41J タイプライタ 同じ特許でも、期間を区切ることで出願傾向が変わる
  22. 22. (分析2)分野別に見た、「特許の出願傾向」、 「論文」 「ニュース記事」の違い 科研費カテゴリ別の科学技術文献データ (高頻度順) 22 科学技術文献(全) 科学技術文献(2012) カテゴリ 割合 カテゴリ 割合 電子・電気材料工学 0.0210 電子・電気材料工学 0.0219 化学系薬学 0.0199 計算機システム 0.0195 計算機システム 0.0183 素粒子・原子核・宇宙線 0.0179 合成化学 0.0182 熱工学 0.0171 熱工学 0.0166 電子デバイス・電子機器 0.0152 構造・機能材料 0.0161 化学系薬学 0.0147 材料加工・処理 0.0161 物性II 0.0146 特許と同様、論文でも、期間を区切ることで傾向が変わる
  23. 23. (分析3)海外の特許との比較(日本が得意な分野の、海外での 特許の出願傾向) H01L(半導体)分野の国際特許の出願傾向(15年) 23
  24. 24. (分析3)海外の特許との比較(日本が得意な分野の、海外での 特許の出願傾向) H01L(半導体)分野の国際特許の出願傾向(2012) 24
  25. 25. 結論 文書分類技術を用いてニュース記事と特許を学術論文と 紐付けることにより、科学技術の重要性を社会的、経済 的側面から分析、評価するシステムを構築 文書データごとにコードの分布傾向が違う SAS Analytics Proを用いた半導体分野の傾向分析 25 文書データ 付与コード 付与件数 科学技術文献データ (書誌情報) 国際特許分類 約700,000 科研費コード 6,533,269 読売新聞 (開発・実用化記事) 国際特許分類 8,674 TechCrunch (IT系英文ニュース) 国際特許分類 120,596
  26. 26. 参考文献 • [Fukuda 2013] Fukuda, S., Nanba, H., Takezawa, T., and Aizawa, A. (2013) “Classification of Research Papers Focusing on Elemental Technologies and Their Effects”. In Proceedings of the 6th Language & Technology Conference (LTC'13) . • [Nanba 2010] Nanba, H., Fujii, A., Iwayama, M., and Hashimoto, T. (2010) “Overview of the Patent Mining Task at the NTCIR-8 Workshop”. In Proceedings of the 8th NTCIR Workshop Meeting on Evaluation of Information Access Technologies: Information Retrieval, Question Answering and Cross-lingual Information Access, 293-302. • [難波 2009]難波 英嗣,竹澤 寿幸. (2009) “2種類の翻訳システムを用いた 学術論文の特許分類体系への自動分類”『情報処理学会論文誌データベース』 ,Vol.2,No.3,76-86. 26
  27. 27. アドベンチャー杯にかける意気込み 我々がこれまでに技術文書を対象に開発して きた各種分析ツールを、複数ジャンルの文書に 適用し、従来とは異なる観点からの重要性を分 析した。 論文の表題の日英対から統計的機械翻訳技術 を用い翻訳器を作成、さらに、同義語辞書(英 語版)を作成したが、今回、発表時間の制約か らそれらの内容を割愛したのが非常に残念であ る。 27 (本項目については、本選でのプレゼンテーション発表での説明を省略可とします。)
  28. 28. 分析のプロセス 開発システムの構築手順 1. ニュース記事、研究費報告書、特許、論文を紐付 ける 2. 紐付けた結果を用いて科学技術の重要性を評価 28 (複数ページにわたっても構いません。本項目については、本選でのプレゼンテーション発表での説明を省略可とします。)
  29. 29. 分析のプロセス (分析1)国際特許分類で見た場合、どの分野で論 文が数多く発表されているのか? (分析2)分野別に見た、「特許の出願傾向」、 「 論文」、「ニュース記事の違い」 (分析3)海外の特許との比較(日本が得意な分野 の、海外での特許の出願傾向) SAS Analytics Proを用いた出願傾向の分析 29

×