SlideShare a Scribd company logo
1 of 12
Download to read offline
Webスクレイピング勉強会 
2014/10/26 
私が開発してるhappyou.infoに 
ついて
自己紹介 
岡本将吾@shogookamoto 
フリーランス 
今回はRSSフィードに偏り
様々なスクレイピングツール 
マニュアル指定型(XPath, マウス指定) オートマチック(差分、繰り返し、日付、リンクFeedBeatera 
Feed43 
myrss.jp 
RSSクリエイター 
gooRSS生成 
XpathFeed 
Feedity.com 
Page2FeedAPI 
Page2RSS 
Google Reader track change 
はてなアンテナ 
なんでもRSS 
Needlebase 
Open-dapper 
Kimonolabs 
Import.io 
ScraperWiki 
OutWit Hub 
Grepsr 
Mozenda 
●a.k.a web scraping, web wrapper.
スクレイピングは大変 
マニュアル指定サイトごとに手作業 
が発生。規模拡大できない。 
オートマティック結果の精度が低い 
。結局人間が読まなければならない。 
RSSリーダーを使って好みのサイトを読むレベルではオートマでもいい。
高精度 
低精度 
スクレイピングは大変 
Page2FeedAPI 
なんでもRSS 
Page2RSS 
Google Reader track change 
FeedBeater 
Feed43 
myrss.jp 
XpathFeed 
Needlebase 
Open-dapper 
Kimonolabs 
Import.io 
ScraperWiki 
OutWit Hub 
マニュアル指定自動抽出
現状の人類の限界 
ウェブからマシンリーダブルな 
情報を抽出するのに、人手が必要 
●はなしをおおきく
高精度 
低精度 
スクレイピングは大変 
80legs 
Kimonolabs 
Import.io 
ScraperWiki 
OutWit Hub Final Scraper 
Page2FeedAPI 
はてなアンテナ 
Page2RSS 
Google Reader track change 
FeedBeater 
Feed43 
myrss.jp 
XpathFeed 
scrapingHub 
マニュアル指定自動抽出
Final Scraperのウェブ版
実際の自動スクレイピング(1) 
●http://www.happyou.info/fs/ja/sample.php
実際の自動スクレイピング(2) 
●http://www.happyou.info/fs/ja/sample.php
Happyou.infoとは何か 
政府機関と全上場企業 
をスクレイピング 
http://www.happyou.info/ja/site/fps 
タグをつけて分類WebAPI 
https://zaisoft.sakura.ne.jp/happyou/webappv1/index.php 
●政府機関はリストがなくコンプリートできない。地方自治体は出来る。
もしご興味があれば使ってください 
最後までお聞きいただき 
ありがとうございました 
happyou.info 
●まだ完全にできてない

More Related Content

What's hot

ヒカラボ-HOME'Sのサイト開発
ヒカラボ-HOME'Sのサイト開発ヒカラボ-HOME'Sのサイト開発
ヒカラボ-HOME'Sのサイト開発LIFULL Co., Ltd.
 
オウンドメディア勉強会_村中
オウンドメディア勉強会_村中オウンドメディア勉強会_村中
オウンドメディア勉強会_村中muranakatakashi
 
re:Inventに行くと得られるもの
re:Inventに行くと得られるものre:Inventに行くと得られるもの
re:Inventに行くと得られるもの晋也 古渡
 
ヒューマンリーダブルな CSS 記述法(異次元編):2016年5月13日 CodeGrid 四周年記念パーティー
ヒューマンリーダブルな CSS 記述法(異次元編):2016年5月13日 CodeGrid 四周年記念パーティーヒューマンリーダブルな CSS 記述法(異次元編):2016年5月13日 CodeGrid 四周年記念パーティー
ヒューマンリーダブルな CSS 記述法(異次元編):2016年5月13日 CodeGrid 四周年記念パーティーYoshiki Hayama
 
「さくらのクラウド」を使って10分でできるDocker (オープンソースカンファレンス2016 Gunma)
「さくらのクラウド」を使って10分でできるDocker (オープンソースカンファレンス2016 Gunma)「さくらのクラウド」を使って10分でできるDocker (オープンソースカンファレンス2016 Gunma)
「さくらのクラウド」を使って10分でできるDocker (オープンソースカンファレンス2016 Gunma)さくらインターネット株式会社
 
Seasar Conference 2015 LT Mayaa~以下略
Seasar Conference 2015 LT Mayaa~以下略Seasar Conference 2015 LT Mayaa~以下略
Seasar Conference 2015 LT Mayaa~以下略Susumu Ishigami
 
ハニーポットのログ、毎日アクセスログを見よう
ハニーポットのログ、毎日アクセスログを見ようハニーポットのログ、毎日アクセスログを見よう
ハニーポットのログ、毎日アクセスログを見ようhogehuga
 
カスタム3兄弟で作る独自イベントカレンダー
カスタム3兄弟で作る独自イベントカレンダーカスタム3兄弟で作る独自イベントカレンダー
カスタム3兄弟で作る独自イベントカレンダーYuusuke Yoshida
 

What's hot (11)

ヒカラボ-HOME'Sのサイト開発
ヒカラボ-HOME'Sのサイト開発ヒカラボ-HOME'Sのサイト開発
ヒカラボ-HOME'Sのサイト開発
 
Xmlrpcと品詞分解
Xmlrpcと品詞分解Xmlrpcと品詞分解
Xmlrpcと品詞分解
 
オウンドメディア勉強会_村中
オウンドメディア勉強会_村中オウンドメディア勉強会_村中
オウンドメディア勉強会_村中
 
re:Inventに行くと得られるもの
re:Inventに行くと得られるものre:Inventに行くと得られるもの
re:Inventに行くと得られるもの
 
Sass Hello World
Sass Hello WorldSass Hello World
Sass Hello World
 
ヒューマンリーダブルな CSS 記述法(異次元編):2016年5月13日 CodeGrid 四周年記念パーティー
ヒューマンリーダブルな CSS 記述法(異次元編):2016年5月13日 CodeGrid 四周年記念パーティーヒューマンリーダブルな CSS 記述法(異次元編):2016年5月13日 CodeGrid 四周年記念パーティー
ヒューマンリーダブルな CSS 記述法(異次元編):2016年5月13日 CodeGrid 四周年記念パーティー
 
「さくらのクラウド」を使って10分でできるDocker (オープンソースカンファレンス2016 Gunma)
「さくらのクラウド」を使って10分でできるDocker (オープンソースカンファレンス2016 Gunma)「さくらのクラウド」を使って10分でできるDocker (オープンソースカンファレンス2016 Gunma)
「さくらのクラウド」を使って10分でできるDocker (オープンソースカンファレンス2016 Gunma)
 
Seasar Conference 2015 LT Mayaa~以下略
Seasar Conference 2015 LT Mayaa~以下略Seasar Conference 2015 LT Mayaa~以下略
Seasar Conference 2015 LT Mayaa~以下略
 
ハニーポットのログ、毎日アクセスログを見よう
ハニーポットのログ、毎日アクセスログを見ようハニーポットのログ、毎日アクセスログを見よう
ハニーポットのログ、毎日アクセスログを見よう
 
カスタム3兄弟で作る独自イベントカレンダー
カスタム3兄弟で作る独自イベントカレンダーカスタム3兄弟で作る独自イベントカレンダー
カスタム3兄弟で作る独自イベントカレンダー
 
LESS使ってますか?
LESS使ってますか?LESS使ってますか?
LESS使ってますか?
 

Viewers also liked

ソーシャル・スクレイピング(2014年10月Webスクレイピング勉強会資料)
ソーシャル・スクレイピング(2014年10月Webスクレイピング勉強会資料)ソーシャル・スクレイピング(2014年10月Webスクレイピング勉強会資料)
ソーシャル・スクレイピング(2014年10月Webスクレイピング勉強会資料)yuzoakakura
 
20141022 リサーチ向け・ブラウザだけでスクレイピング(浅野)
20141022 リサーチ向け・ブラウザだけでスクレイピング(浅野) 20141022 リサーチ向け・ブラウザだけでスクレイピング(浅野)
20141022 リサーチ向け・ブラウザだけでスクレイピング(浅野) Hirosuke Asano
 
Scraping withawsAWSを利用してスクレイピングの悩みを解決するチップス
Scraping withawsAWSを利用してスクレイピングの悩みを解決するチップスScraping withawsAWSを利用してスクレイピングの悩みを解決するチップス
Scraping withawsAWSを利用してスクレイピングの悩みを解決するチップスTakuro Sasaki
 
クローリングしにくいものに挑戦 公開用
クローリングしにくいものに挑戦 公開用クローリングしにくいものに挑戦 公開用
クローリングしにくいものに挑戦 公開用Lumin Hacker
 
実践Excelスクレイピング
実践Excelスクレイピング実践Excelスクレイピング
実践Excelスクレイピング宏明 塩原
 
Amazon Athena で実現する データ分析の広がり
Amazon Athena で実現する データ分析の広がりAmazon Athena で実現する データ分析の広がり
Amazon Athena で実現する データ分析の広がりAmazon Web Services Japan
 

Viewers also liked (6)

ソーシャル・スクレイピング(2014年10月Webスクレイピング勉強会資料)
ソーシャル・スクレイピング(2014年10月Webスクレイピング勉強会資料)ソーシャル・スクレイピング(2014年10月Webスクレイピング勉強会資料)
ソーシャル・スクレイピング(2014年10月Webスクレイピング勉強会資料)
 
20141022 リサーチ向け・ブラウザだけでスクレイピング(浅野)
20141022 リサーチ向け・ブラウザだけでスクレイピング(浅野) 20141022 リサーチ向け・ブラウザだけでスクレイピング(浅野)
20141022 リサーチ向け・ブラウザだけでスクレイピング(浅野)
 
Scraping withawsAWSを利用してスクレイピングの悩みを解決するチップス
Scraping withawsAWSを利用してスクレイピングの悩みを解決するチップスScraping withawsAWSを利用してスクレイピングの悩みを解決するチップス
Scraping withawsAWSを利用してスクレイピングの悩みを解決するチップス
 
クローリングしにくいものに挑戦 公開用
クローリングしにくいものに挑戦 公開用クローリングしにくいものに挑戦 公開用
クローリングしにくいものに挑戦 公開用
 
実践Excelスクレイピング
実践Excelスクレイピング実践Excelスクレイピング
実践Excelスクレイピング
 
Amazon Athena で実現する データ分析の広がり
Amazon Athena で実現する データ分析の広がりAmazon Athena で実現する データ分析の広がり
Amazon Athena で実現する データ分析の広がり
 

Recently uploaded

20240326_IoTLT_vol109_kitazaki_v1___.pdf
20240326_IoTLT_vol109_kitazaki_v1___.pdf20240326_IoTLT_vol109_kitazaki_v1___.pdf
20240326_IoTLT_vol109_kitazaki_v1___.pdfAyachika Kitazaki
 
2024 01 Virtual_Counselor
2024 01 Virtual_Counselor 2024 01 Virtual_Counselor
2024 01 Virtual_Counselor arts yokohama
 
持続可能なDrupal Meetupのコツ - Drupal Meetup Tokyoの知見
持続可能なDrupal Meetupのコツ - Drupal Meetup Tokyoの知見持続可能なDrupal Meetupのコツ - Drupal Meetup Tokyoの知見
持続可能なDrupal Meetupのコツ - Drupal Meetup Tokyoの知見Shumpei Kishi
 
2024 02 Nihon-Tanken ~Towards a More Inclusive Japan~
2024 02 Nihon-Tanken ~Towards a More Inclusive Japan~2024 02 Nihon-Tanken ~Towards a More Inclusive Japan~
2024 02 Nihon-Tanken ~Towards a More Inclusive Japan~arts yokohama
 
TaketoFujikawa_台本中の動作表現に基づくアニメーション原画システムの提案_SIGEC71.pdf
TaketoFujikawa_台本中の動作表現に基づくアニメーション原画システムの提案_SIGEC71.pdfTaketoFujikawa_台本中の動作表現に基づくアニメーション原画システムの提案_SIGEC71.pdf
TaketoFujikawa_台本中の動作表現に基づくアニメーション原画システムの提案_SIGEC71.pdfMatsushita Laboratory
 
「今からでも間に合う」GPTsによる 活用LT会 - 人とAIが協調するHumani-in-the-Loopへ
「今からでも間に合う」GPTsによる 活用LT会 - 人とAIが協調するHumani-in-the-Loopへ「今からでも間に合う」GPTsによる 活用LT会 - 人とAIが協調するHumani-in-the-Loopへ
「今からでも間に合う」GPTsによる 活用LT会 - 人とAIが協調するHumani-in-the-LoopへTetsuya Nihonmatsu
 
IFIP IP3での資格制度を対象とする国際認定(IPSJ86全国大会シンポジウム)
IFIP IP3での資格制度を対象とする国際認定(IPSJ86全国大会シンポジウム)IFIP IP3での資格制度を対象とする国際認定(IPSJ86全国大会シンポジウム)
IFIP IP3での資格制度を対象とする国際認定(IPSJ86全国大会シンポジウム)ssuser539845
 
情報処理学会86回全国大会_Generic OAMをDeep Learning技術によって実現するための課題と解決方法
情報処理学会86回全国大会_Generic OAMをDeep Learning技術によって実現するための課題と解決方法情報処理学会86回全国大会_Generic OAMをDeep Learning技術によって実現するための課題と解決方法
情報処理学会86回全国大会_Generic OAMをDeep Learning技術によって実現するための課題と解決方法ssuser370dd7
 

Recently uploaded (11)

2024 04 minnanoito
2024 04 minnanoito2024 04 minnanoito
2024 04 minnanoito
 
20240326_IoTLT_vol109_kitazaki_v1___.pdf
20240326_IoTLT_vol109_kitazaki_v1___.pdf20240326_IoTLT_vol109_kitazaki_v1___.pdf
20240326_IoTLT_vol109_kitazaki_v1___.pdf
 
2024 01 Virtual_Counselor
2024 01 Virtual_Counselor 2024 01 Virtual_Counselor
2024 01 Virtual_Counselor
 
持続可能なDrupal Meetupのコツ - Drupal Meetup Tokyoの知見
持続可能なDrupal Meetupのコツ - Drupal Meetup Tokyoの知見持続可能なDrupal Meetupのコツ - Drupal Meetup Tokyoの知見
持続可能なDrupal Meetupのコツ - Drupal Meetup Tokyoの知見
 
2024 02 Nihon-Tanken ~Towards a More Inclusive Japan~
2024 02 Nihon-Tanken ~Towards a More Inclusive Japan~2024 02 Nihon-Tanken ~Towards a More Inclusive Japan~
2024 02 Nihon-Tanken ~Towards a More Inclusive Japan~
 
What is the world where you can make your own semiconductors?
What is the world where you can make your own semiconductors?What is the world where you can make your own semiconductors?
What is the world where you can make your own semiconductors?
 
TaketoFujikawa_台本中の動作表現に基づくアニメーション原画システムの提案_SIGEC71.pdf
TaketoFujikawa_台本中の動作表現に基づくアニメーション原画システムの提案_SIGEC71.pdfTaketoFujikawa_台本中の動作表現に基づくアニメーション原画システムの提案_SIGEC71.pdf
TaketoFujikawa_台本中の動作表現に基づくアニメーション原画システムの提案_SIGEC71.pdf
 
「今からでも間に合う」GPTsによる 活用LT会 - 人とAIが協調するHumani-in-the-Loopへ
「今からでも間に合う」GPTsによる 活用LT会 - 人とAIが協調するHumani-in-the-Loopへ「今からでも間に合う」GPTsによる 活用LT会 - 人とAIが協調するHumani-in-the-Loopへ
「今からでも間に合う」GPTsによる 活用LT会 - 人とAIが協調するHumani-in-the-Loopへ
 
2024 03 CTEA
2024 03 CTEA2024 03 CTEA
2024 03 CTEA
 
IFIP IP3での資格制度を対象とする国際認定(IPSJ86全国大会シンポジウム)
IFIP IP3での資格制度を対象とする国際認定(IPSJ86全国大会シンポジウム)IFIP IP3での資格制度を対象とする国際認定(IPSJ86全国大会シンポジウム)
IFIP IP3での資格制度を対象とする国際認定(IPSJ86全国大会シンポジウム)
 
情報処理学会86回全国大会_Generic OAMをDeep Learning技術によって実現するための課題と解決方法
情報処理学会86回全国大会_Generic OAMをDeep Learning技術によって実現するための課題と解決方法情報処理学会86回全国大会_Generic OAMをDeep Learning技術によって実現するための課題と解決方法
情報処理学会86回全国大会_Generic OAMをDeep Learning技術によって実現するための課題と解決方法
 

第3回Webスクレイピング勉強会@東京 happyou.info