More Related Content
Similar to AWS Lambdaで作るクローラー/スクレイピング (20)
More from Takuro Sasaki (20)
AWS Lambdaで作るクローラー/スクレイピング
- 2. ✦ プロフィール
‣ NRIネットコム株式会社
‣ Twitter: @dkfj
‣ Facebook: takuro.sasaki
‣ blog: http://blog.takuros.net/
‣ 好きなAWSサービス: S3,SQS
自己紹介: 佐々木拓郎
- 16. スクレイピングの実装
4. S3 Event Call
5. S3 getObject
6. Scrape
parseHtml
S3 Eventで
Lambdaファンクション
の呼び出し
引数から、
該当のファイルを取得
cheerioという
スクレイピング用の
ライブラリを利用
- 21. 実験①
Httpリクエストを行う処理を複数作成し、
手動で複数回実行
HttpTest
HttpTest2
1. キック
54.172.104.205 - - [21/Dec/2014:13:24:12 +0000] "GET /hoge.html HTTP/1.1" 200 5 "-" "-"
54.172.104.205 - - [21/Dec/2014:13:24:20 +0000] "GET /hoge.html HTTP/1.1" 200 5 "-" "-"
54.172.104.205 - - [21/Dec/2014:13:24:23 +0000] "GET /hoge.html HTTP/1.1" 200 5 "-" "-"
54.172.104.205 - - [21/Dec/2014:13:24:28 +0000] "GET /hoge.html HTTP/1.1" 200 5 "-" "-"
54.172.104.205 - - [21/Dec/2014:13:25:24 +0000] "GET /hoge.html HTTP/1.1" 200 5 "-" "-"
基本的には、同一のサーバで実行される模様
2. キック
- 22. 実験②
並行処理で、実験①のLambdaファンクションを呼び出し
10並列 10ループ 100リクエスト
ParallelCall
1. キック
HttpTest
HttpTest
54.173.132.200 - - [21/Dec/2014:15:57:32 +0000] "GET /hoge.html HTTP/1.1" 200 5 "-" "-"
54.173.132.200 - - [21/Dec/2014:15:57:32 +0000] "GET /hoge.html HTTP/1.1" 200 5 "-" "-"
54.173.132.200 - - [21/Dec/2014:15:57:32 +0000] "GET /hoge.html HTTP/1.1" 200 5 "-" "-"
54.173.132.200 - - [21/Dec/2014:15:57:32 +0000] "GET /hoge.html HTTP/1.1" 200 5 "-" "-"
54.173.132.200 - - [21/Dec/2014:15:57:32 +0000] "GET /hoge.html HTTP/1.1" 200 5 "-" "-"
やはり同一IP( 同一サーバ)
- 24. 結果
結果として、高性能なDDosツールが出来ました
※悪用激禁!!
IPアドレスの分散( 複数のサーバで実行)
54.172.104.205 - - [21/Dec/2014:16:08:31 +0000] "GET /hoge.html HTTP/1.1" 200 5 "-" "-"
54.173.73.201 - - [21/Dec/2014:16:08:31 +0000] "GET /hoge.html HTTP/1.1" 200 5 "-" "-"
54.173.132.200 - - [21/Dec/2014:16:08:31 +0000] "GET /hoge.html HTTP/1.1" 200 5 "-" "-"
54.173.132.200 - - [21/Dec/2014:16:08:31 +0000] "GET /hoge.html HTTP/1.1" 200 5 "-" "-"
54.173.73.201 - - [21/Dec/2014:16:08:31 +0000] "GET /hoge.html HTTP/1.1" 200 5 "-" "-"
54.173.132.200 - - [21/Dec/2014:16:08:31 +0000] "GET /hoge.html HTTP/1.1" 200 5 "-" "-"
分散