Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

第3回Webスクレイピング勉強会@東京 happyou.info

7,890 views

Published on

Crawling and scraping tool to retrieve information from website.

Published in: Technology
  • Login to see the comments

第3回Webスクレイピング勉強会@東京 happyou.info

  1. 1. Webスクレイピング勉強会 2014/10/26 私が開発してるhappyou.infoに ついて
  2. 2. 自己紹介 岡本将吾@shogookamoto フリーランス 今回はRSSフィードに偏り
  3. 3. 様々なスクレイピングツール マニュアル指定型(XPath, マウス指定) オートマチック(差分、繰り返し、日付、リンクFeedBeatera Feed43 myrss.jp RSSクリエイター gooRSS生成 XpathFeed Feedity.com Page2FeedAPI Page2RSS Google Reader track change はてなアンテナ なんでもRSS Needlebase Open-dapper Kimonolabs Import.io ScraperWiki OutWit Hub Grepsr Mozenda ●a.k.a web scraping, web wrapper.
  4. 4. スクレイピングは大変 マニュアル指定サイトごとに手作業 が発生。規模拡大できない。 オートマティック結果の精度が低い 。結局人間が読まなければならない。 RSSリーダーを使って好みのサイトを読むレベルではオートマでもいい。
  5. 5. 高精度 低精度 スクレイピングは大変 Page2FeedAPI なんでもRSS Page2RSS Google Reader track change FeedBeater Feed43 myrss.jp XpathFeed Needlebase Open-dapper Kimonolabs Import.io ScraperWiki OutWit Hub マニュアル指定自動抽出
  6. 6. 現状の人類の限界 ウェブからマシンリーダブルな 情報を抽出するのに、人手が必要 ●はなしをおおきく
  7. 7. 高精度 低精度 スクレイピングは大変 80legs Kimonolabs Import.io ScraperWiki OutWit Hub Final Scraper Page2FeedAPI はてなアンテナ Page2RSS Google Reader track change FeedBeater Feed43 myrss.jp XpathFeed scrapingHub マニュアル指定自動抽出
  8. 8. Final Scraperのウェブ版
  9. 9. 実際の自動スクレイピング(1) ●http://www.happyou.info/fs/ja/sample.php
  10. 10. 実際の自動スクレイピング(2) ●http://www.happyou.info/fs/ja/sample.php
  11. 11. Happyou.infoとは何か 政府機関と全上場企業 をスクレイピング http://www.happyou.info/ja/site/fps タグをつけて分類WebAPI https://zaisoft.sakura.ne.jp/happyou/webappv1/index.php ●政府機関はリストがなくコンプリートできない。地方自治体は出来る。
  12. 12. もしご興味があれば使ってください 最後までお聞きいただき ありがとうございました happyou.info ●まだ完全にできてない

×