More Related Content
Similar to Anemoneによるクローラー入門 (20)
Anemoneによるクローラー入門
- 2. About me
中野 佑(ナカノ タスク)
こう見えて22歳(新卒1年目)
株式会社フィードフォース
エンジニア
※決して怪しい者では
ございません
2
- 15. Anemone
• 基本的な使い方
1. #crawlに、クロールしたい始点URLをセット
2. 更にオプションも渡す
3. ブロック引数を指定して、ページごとに処理を
したり、巡回先を絞り込んだりする
15
- 17. 他にも
• :proxy_host, :proxy_port
• プロキシサーバの設定
• :user_agent
• ユーザエージェントを指定
• :delay
• アクセス間隔を指定(秒)
17
- 40. parseの挙動
• URLを受け取って解析をしたあと、
Nokogiri::HTML::Documentクラスの
オブジェクトを返します
• 以下の継承関係にあります
• Nokogiri::HTML::Document
• Nokogiri::XML::Document
• Nokogiri::XML::Node
40
- 43. Node vs NodeSet
• 共通のメソッドが多く、挙動が似ている
• 違いを理解していないと、メソッドがないな
どのエラーが出ることも
• 検索系のメソッドはNodeと同じ名前で内部的
にNodeを呼び出していることも多い
• NodeSetはNodeを格納したリスト型配列
43
- 58. robots.txt
• 記述方式
• User-agent: 拒否したいUA
• Allow: クロールの可能なページのパス
• Disallow: クロールされたくないページのパス
• Crawl-delay: クロール間隔(単位はあやふや)
• rubyには、robotexがある
• https://github.com/chriskite/robotex
58
- 59. robots.txt一覧
• Amazon
• http://www.amazon.com/robots.txt
• はてなブログ
• http://hatenablog.com/robots.txt
• Wikipedia
• http://ja.wikipedia.org/robots.txt
59