Submit Search
Upload
Node.js를 활용한 웹 크롤링(Crawling)
•
Download as PPTX, PDF
•
0 likes
•
1,756 views
Jeong-gyu Kim
Follow
T 아카데미 개발 발표. 어떻게 Node.js를 활용하여 크롤링을 하는가?
Read less
Read more
Data & Analytics
Report
Share
Report
Share
1 of 17
Download now
Recommended
[Week2] 데이터 스크래핑
[Week2] 데이터 스크래핑
neuroassociates
Selenium을 이용한 동적 사이트 크롤러 만들기
Selenium을 이용한 동적 사이트 크롤러 만들기
Gyuhyeon Jeon
웹 크롤링 (Web scraping) 의 이해
웹 크롤링 (Web scraping) 의 이해
2minchul
프로젝트 기획서 발표 - 웹크롤링 (한양대 오픈소스동아리)
프로젝트 기획서 발표 - 웹크롤링 (한양대 오픈소스동아리)
Osori Hanyang
141118 최창원 웹크롤러제작
141118 최창원 웹크롤러제작
Changwon Choe
Web Crawler 고군분투기
Web Crawler 고군분투기
richellin
[Http완벽가이드] 9장 웹로봇
[Http완벽가이드] 9장 웹로봇
Minchul Jung
[PyConKR 2014] 30분만에 따라하는 동시성 스크래퍼
[PyConKR 2014] 30분만에 따라하는 동시성 스크래퍼
Cheol Kang
Recommended
[Week2] 데이터 스크래핑
[Week2] 데이터 스크래핑
neuroassociates
Selenium을 이용한 동적 사이트 크롤러 만들기
Selenium을 이용한 동적 사이트 크롤러 만들기
Gyuhyeon Jeon
웹 크롤링 (Web scraping) 의 이해
웹 크롤링 (Web scraping) 의 이해
2minchul
프로젝트 기획서 발표 - 웹크롤링 (한양대 오픈소스동아리)
프로젝트 기획서 발표 - 웹크롤링 (한양대 오픈소스동아리)
Osori Hanyang
141118 최창원 웹크롤러제작
141118 최창원 웹크롤러제작
Changwon Choe
Web Crawler 고군분투기
Web Crawler 고군분투기
richellin
[Http완벽가이드] 9장 웹로봇
[Http완벽가이드] 9장 웹로봇
Minchul Jung
[PyConKR 2014] 30분만에 따라하는 동시성 스크래퍼
[PyConKR 2014] 30분만에 따라하는 동시성 스크래퍼
Cheol Kang
robot.txt와 meta tag를 이용한 크롤링 설정
robot.txt와 meta tag를 이용한 크롤링 설정
Yoonsung Jung
mongodb와 mysql의 CRUD 연산의 성능 비교
mongodb와 mysql의 CRUD 연산의 성능 비교
Woo Yeong Choi
Mongo db 2.x to 3.x
Mongo db 2.x to 3.x
InBum Kim
The beginner’s guide to 웹 크롤링 (스크래핑)
The beginner’s guide to 웹 크롤링 (스크래핑)
Eunjeong (Lucy) Park
Mongo DB 성능최적화 전략
Mongo DB 성능최적화 전략
Jin wook
검색엔진이 데이터를 다루는 법 김종민
검색엔진이 데이터를 다루는 법 김종민
종민 김
[110730/아꿈사발표자료] mongo db 완벽 가이드 : 7장 '고급기능'
[110730/아꿈사발표자료] mongo db 완벽 가이드 : 7장 '고급기능'
sung ki choi
Mongo DB로 진행하는 CRUD
Mongo DB로 진행하는 CRUD
Jin wook
Mongo DB 완벽가이드 - 4장 쿼리하기
Mongo DB 완벽가이드 - 4장 쿼리하기
JangHyuk You
Mongodb 특징 분석
Mongodb 특징 분석
Daeyong Shin
Ruby html parsing
Ruby html parsing
YongSeong Kim
XECon+PHPFest2014 발표자료 - ElasticSearch를 이용한 통합검색 구축방법 - 김훈민
XECon+PHPFest2014 발표자료 - ElasticSearch를 이용한 통합검색 구축방법 - 김훈민
XpressEngine
9장. 문서 데이터베이스
9장. 문서 데이터베이스
kidoki
파알못의 파이썬 크롤러 이해하기
파알못의 파이썬 크롤러 이해하기
Hyeyeon Yang
Mongodb2.2와 2.4의 신 기능 소개
Mongodb2.2와 2.4의 신 기능 소개
흥배 최
Ch1 일래스틱서치 클러스터 시작
Ch1 일래스틱서치 클러스터 시작
Minchul Jung
Mongodb 관리
Mongodb 관리
흥배 최
하둡 (Hadoop) 및 관련기술 훑어보기
하둡 (Hadoop) 및 관련기술 훑어보기
beom kyun choi
CUBRIDInside_5th_CUBRID_Migration Process_DHLee
CUBRIDInside_5th_CUBRID_Migration Process_DHLee
Laura Oh
Elastic Search (엘라스틱서치) 입문
Elastic Search (엘라스틱서치) 입문
SeungHyun Eom
Id generator
Id generator
Jeong-gyu Kim
근육 기억으로 주도하는 테스트 주도 개발 입문하기
근육 기억으로 주도하는 테스트 주도 개발 입문하기
Jeong-gyu Kim
More Related Content
What's hot
robot.txt와 meta tag를 이용한 크롤링 설정
robot.txt와 meta tag를 이용한 크롤링 설정
Yoonsung Jung
mongodb와 mysql의 CRUD 연산의 성능 비교
mongodb와 mysql의 CRUD 연산의 성능 비교
Woo Yeong Choi
Mongo db 2.x to 3.x
Mongo db 2.x to 3.x
InBum Kim
The beginner’s guide to 웹 크롤링 (스크래핑)
The beginner’s guide to 웹 크롤링 (스크래핑)
Eunjeong (Lucy) Park
Mongo DB 성능최적화 전략
Mongo DB 성능최적화 전략
Jin wook
검색엔진이 데이터를 다루는 법 김종민
검색엔진이 데이터를 다루는 법 김종민
종민 김
[110730/아꿈사발표자료] mongo db 완벽 가이드 : 7장 '고급기능'
[110730/아꿈사발표자료] mongo db 완벽 가이드 : 7장 '고급기능'
sung ki choi
Mongo DB로 진행하는 CRUD
Mongo DB로 진행하는 CRUD
Jin wook
Mongo DB 완벽가이드 - 4장 쿼리하기
Mongo DB 완벽가이드 - 4장 쿼리하기
JangHyuk You
Mongodb 특징 분석
Mongodb 특징 분석
Daeyong Shin
Ruby html parsing
Ruby html parsing
YongSeong Kim
XECon+PHPFest2014 발표자료 - ElasticSearch를 이용한 통합검색 구축방법 - 김훈민
XECon+PHPFest2014 발표자료 - ElasticSearch를 이용한 통합검색 구축방법 - 김훈민
XpressEngine
9장. 문서 데이터베이스
9장. 문서 데이터베이스
kidoki
파알못의 파이썬 크롤러 이해하기
파알못의 파이썬 크롤러 이해하기
Hyeyeon Yang
Mongodb2.2와 2.4의 신 기능 소개
Mongodb2.2와 2.4의 신 기능 소개
흥배 최
Ch1 일래스틱서치 클러스터 시작
Ch1 일래스틱서치 클러스터 시작
Minchul Jung
Mongodb 관리
Mongodb 관리
흥배 최
하둡 (Hadoop) 및 관련기술 훑어보기
하둡 (Hadoop) 및 관련기술 훑어보기
beom kyun choi
CUBRIDInside_5th_CUBRID_Migration Process_DHLee
CUBRIDInside_5th_CUBRID_Migration Process_DHLee
Laura Oh
Elastic Search (엘라스틱서치) 입문
Elastic Search (엘라스틱서치) 입문
SeungHyun Eom
What's hot
(20)
robot.txt와 meta tag를 이용한 크롤링 설정
robot.txt와 meta tag를 이용한 크롤링 설정
mongodb와 mysql의 CRUD 연산의 성능 비교
mongodb와 mysql의 CRUD 연산의 성능 비교
Mongo db 2.x to 3.x
Mongo db 2.x to 3.x
The beginner’s guide to 웹 크롤링 (스크래핑)
The beginner’s guide to 웹 크롤링 (스크래핑)
Mongo DB 성능최적화 전략
Mongo DB 성능최적화 전략
검색엔진이 데이터를 다루는 법 김종민
검색엔진이 데이터를 다루는 법 김종민
[110730/아꿈사발표자료] mongo db 완벽 가이드 : 7장 '고급기능'
[110730/아꿈사발표자료] mongo db 완벽 가이드 : 7장 '고급기능'
Mongo DB로 진행하는 CRUD
Mongo DB로 진행하는 CRUD
Mongo DB 완벽가이드 - 4장 쿼리하기
Mongo DB 완벽가이드 - 4장 쿼리하기
Mongodb 특징 분석
Mongodb 특징 분석
Ruby html parsing
Ruby html parsing
XECon+PHPFest2014 발표자료 - ElasticSearch를 이용한 통합검색 구축방법 - 김훈민
XECon+PHPFest2014 발표자료 - ElasticSearch를 이용한 통합검색 구축방법 - 김훈민
9장. 문서 데이터베이스
9장. 문서 데이터베이스
파알못의 파이썬 크롤러 이해하기
파알못의 파이썬 크롤러 이해하기
Mongodb2.2와 2.4의 신 기능 소개
Mongodb2.2와 2.4의 신 기능 소개
Ch1 일래스틱서치 클러스터 시작
Ch1 일래스틱서치 클러스터 시작
Mongodb 관리
Mongodb 관리
하둡 (Hadoop) 및 관련기술 훑어보기
하둡 (Hadoop) 및 관련기술 훑어보기
CUBRIDInside_5th_CUBRID_Migration Process_DHLee
CUBRIDInside_5th_CUBRID_Migration Process_DHLee
Elastic Search (엘라스틱서치) 입문
Elastic Search (엘라스틱서치) 입문
More from Jeong-gyu Kim
Id generator
Id generator
Jeong-gyu Kim
근육 기억으로 주도하는 테스트 주도 개발 입문하기
근육 기억으로 주도하는 테스트 주도 개발 입문하기
Jeong-gyu Kim
Api first design 개발의 선순환
Api first design 개발의 선순환
Jeong-gyu Kim
Design by contract(계약에의한설계)
Design by contract(계약에의한설계)
Jeong-gyu Kim
JPA Study - 1주차(SLIPP)
JPA Study - 1주차(SLIPP)
Jeong-gyu Kim
얼굴인식 - 기초
얼굴인식 - 기초
Jeong-gyu Kim
02.cnn - CNN 파헤치기 3탄
02.cnn - CNN 파헤치기 3탄
Jeong-gyu Kim
01.cnn - 본격CNN논문 파헤치기
01.cnn - 본격CNN논문 파헤치기
Jeong-gyu Kim
00.cnn basic
00.cnn basic
Jeong-gyu Kim
코드 재사용에 대해서 생각해보기
코드 재사용에 대해서 생각해보기
Jeong-gyu Kim
Deep dive functional thinking
Deep dive functional thinking
Jeong-gyu Kim
Spark로 알아보는 빅데이터 처리
Spark로 알아보는 빅데이터 처리
Jeong-gyu Kim
'객체지향의 사실과 오해' 북 리뷰 세미나
'객체지향의 사실과 오해' 북 리뷰 세미나
Jeong-gyu Kim
Functional thinking - 책 리뷰 1탄
Functional thinking - 책 리뷰 1탄
Jeong-gyu Kim
Intern pt sw_r&d_len_second_mission
Intern pt sw_r&d_len_second_mission
Jeong-gyu Kim
Log Parser Story In Python3
Log Parser Story In Python3
Jeong-gyu Kim
Stampfood 2.0
Stampfood 2.0
Jeong-gyu Kim
You dont know_js
You dont know_js
Jeong-gyu Kim
More from Jeong-gyu Kim
(18)
Id generator
Id generator
근육 기억으로 주도하는 테스트 주도 개발 입문하기
근육 기억으로 주도하는 테스트 주도 개발 입문하기
Api first design 개발의 선순환
Api first design 개발의 선순환
Design by contract(계약에의한설계)
Design by contract(계약에의한설계)
JPA Study - 1주차(SLIPP)
JPA Study - 1주차(SLIPP)
얼굴인식 - 기초
얼굴인식 - 기초
02.cnn - CNN 파헤치기 3탄
02.cnn - CNN 파헤치기 3탄
01.cnn - 본격CNN논문 파헤치기
01.cnn - 본격CNN논문 파헤치기
00.cnn basic
00.cnn basic
코드 재사용에 대해서 생각해보기
코드 재사용에 대해서 생각해보기
Deep dive functional thinking
Deep dive functional thinking
Spark로 알아보는 빅데이터 처리
Spark로 알아보는 빅데이터 처리
'객체지향의 사실과 오해' 북 리뷰 세미나
'객체지향의 사실과 오해' 북 리뷰 세미나
Functional thinking - 책 리뷰 1탄
Functional thinking - 책 리뷰 1탄
Intern pt sw_r&d_len_second_mission
Intern pt sw_r&d_len_second_mission
Log Parser Story In Python3
Log Parser Story In Python3
Stampfood 2.0
Stampfood 2.0
You dont know_js
You dont know_js
Node.js를 활용한 웹 크롤링(Crawling)
1.
2.
1. 대출상담가와 대출고객이라는
두 개의 Router를 나눠어 개발 진행 2. Model 폴더 안에 작성한 데이터 구조와 동일한 클래스 작성 Promise-mysql?Node-schedule? Winston? Cheerio? Cheeerio-tableparser? Request-promise?
3.
무엇을? 어떻게? 왜?
4.
5.
6.
하드 코딩 크롤링을 해야만
하는 걸까요?
7.
분석해봅시다! POSTMAN MAN, CHROME
개발자 도구
8.
9.
10.
11.
그러나...!! 전체 데이터 크롤링하는데
걸린 시간 8시간
12.
효과적인 크롤러를 만들어
보자! Node.js 는 싱글 스레드 기반이니까… 여러 프로세스를 생성해서 Clustering하면 어떻까? RDS 접근을 최소화 할 수 있는 방법을 모색해보자 이왕이면 AWS Lambda를 활용해 서버리스하게 만들어 보면 어떻까?
13.
1. Node.js의 클러스터링
활용 2. 하나의 Promise를 병렬로 실행
14.
2시간!!!
15.
1. 이벤트 처리
방식의 컴퓨팅 서비스 AWS Lambda 구축 2. 조금 더 좋은 하드웨어 구축
Editor's Notes
자 그럼 어떻게 동작하는지 분석해봅시다.
Request-promise 와 cheerio-tableparse / cheerio를 활용했음
8시간 걸리는 크롤링을 어떻게 하면 효과적으로 처리 할 수 있을까?
8시간 걸리는 크롤링을 어떻게 하면 효과적으로 처리 할 수 있을까?
8시간 걸리는 크롤링을 어떻게 하면 효과적으로 처리 할 수 있을까?
Download now