Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.



Published on

Crawling and scraping tool to retrieve information from website.

Published in: Technology
  • Login to see the comments


  1. 1. Webスクレイピング勉強会 2014/10/26 私が開発してるhappyou.infoに ついて
  2. 2. 自己紹介 岡本将吾@shogookamoto フリーランス 今回はRSSフィードに偏り
  3. 3. 様々なスクレイピングツール マニュアル指定型(XPath, マウス指定) オートマチック(差分、繰り返し、日付、リンクFeedBeatera Feed43  RSSクリエイター gooRSS生成 XpathFeed  Page2FeedAPI Page2RSS Google Reader track change はてなアンテナ なんでもRSS Needlebase Open-dapper Kimonolabs  ScraperWiki OutWit Hub Grepsr Mozenda ●a.k.a web scraping, web wrapper.
  4. 4. スクレイピングは大変 マニュアル指定サイトごとに手作業 が発生。規模拡大できない。 オートマティック結果の精度が低い 。結局人間が読まなければならない。 RSSリーダーを使って好みのサイトを読むレベルではオートマでもいい。
  5. 5. 高精度 低精度 スクレイピングは大変 Page2FeedAPI なんでもRSS Page2RSS Google Reader track change FeedBeater Feed43  XpathFeed Needlebase Open-dapper Kimonolabs  ScraperWiki OutWit Hub マニュアル指定自動抽出
  6. 6. 現状の人類の限界 ウェブからマシンリーダブルな 情報を抽出するのに、人手が必要 ●はなしをおおきく
  7. 7. 高精度 低精度 スクレイピングは大変 80legs Kimonolabs  ScraperWiki OutWit Hub Final Scraper Page2FeedAPI はてなアンテナ Page2RSS Google Reader track change FeedBeater Feed43  XpathFeed scrapingHub マニュアル指定自動抽出
  8. 8. Final Scraperのウェブ版
  9. 9. 実際の自動スクレイピング(1) ●
  10. 10. 実際の自動スクレイピング(2) ●
  11. 11. Happyou.infoとは何か 政府機関と全上場企業 をスクレイピング タグをつけて分類WebAPI ●政府機関はリストがなくコンプリートできない。地方自治体は出来る。
  12. 12. もしご興味があれば使ってください 最後までお聞きいただき ありがとうございました ●まだ完全にできてない