Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

[244] 분산 환경에서 스트림과 배치 처리 통합 모델

6,801 views

Published on

DEVIEW2015 DAY2. 분산 환경에서 스트림과 배치 처리 통합 모델

Published in: Technology

[244] 분산 환경에서 스트림과 배치 처리 통합 모델

  1. 1. 분산 환경에서 스트림과 배치 처리 통합 모델 정재부 이도경 네이버 검색정제개발랩
  2. 2. contents 1. 배치 처리 vs. 스트림 처리 2. Domaine Architecture 3. Domaine Development Kit Example 4. 초기 구축 배치 처리 방법 5. Stack Overview 6. 분산 환경 구성 7. 정리 8. QnA 2
  3. 3. 1. 배치 처리 vs. 스트림 처리 3
  4. 4. 배치 처리(Batch Processing) 배치 처리 vs. 스트림 처리 4
  5. 5. 배치 처리(Batch Processing) 배치 처리 vs. 스트림 처리 Hadoop Mapreduce, Spark… 5
  6. 6. 스트림 처리(Stream Processing) 배치 처리 vs. 스트림 처리 6
  7. 7. 스트림 처리(Stream Processing) 배치 처리 vs. 스트림 처리 Storm, Flink, Samza… 7
  8. 8. 배치 처리 vs. 스트림 처리 High Throughput vs. Low Latency 8
  9. 9. 배치 처리 vs. 스트림 처리 Throughput Latency 트레이드오프 9
  10. 10. 검색 문서 정제란? 정규화된 데이터를 검색에 적합한 형태로 가공하는 작업 질문 답변1 답변2 질문DB 답변DB 사용자DB 번호:233482408 카테고리:게임 질문자:a**** 질문자등급:평민 질문:목욕 여신 코니 쓸만한가요? 내용:라인레인저스 하고 있는데요... 답변자1:b**** 답변자1등급:영웅 답변1:신규 캐릭치곤 별로예요. 답변자2:c**** 답변자2등급:수호신 답변2:최곱니다. … Search Document 검색 문서 정제 10
  11. 11. 1. 많은 검색 대상 문서 처리가 가능해야함(High Throughput) 2. 최신 문서를 빠르게 검색에 노출(Low Latency) 3. 서비스별 비지니스 로직 적용 요구 사항 검색 문서 정제란? 11
  12. 12. Lambda Architecture 스트림과 배치 처리 통합 모델 사례 http://lambda-architecture.net/ 12
  13. 13. 예) Stage1은 1주일마다, Stage2는 1일마다, Stage3는 1시간마다, Stage4는 1분마다 Timewise Staged 배치 시스템 기존 검색 문서 정제 방식 Stage1 Weekly Stage2 Daily Stage3 Hourly Stage4 Minutely 13
  14. 14. Timewise Staged 배치 시스템 기존 검색 문서 정제 방식 Stage1 Weekly Stage2 Daily Stage3 Hourly Stage4 Minutely Stage3 Stage2 Stage1 14
  15. 15. 1. 배치 처리만으로 Low Latency 만족 가능 ➡Latency 요구 사항을 만족하지못하면 Stage를 추가하면 된다. 2. 정제 로직 변경이 단순 ➡모든 데이터는 결국 다시 처리 Timewise Staged 배치 시스템의 장점 15
  16. 16. 1. Stage간에 부정확성이 발생 ➡상위 Stage가 재수행되면 해결 2. 주기적인 전체 데이터 재처리 수행 변경되지 않은 99억999만건 변경되거나

×