서버리스 데이터 플로우 개발기 - 김재현 (Superb AI) :: AWS Community Day 2020

SEOUL
서버리스 데이터 플로우 개발기
김재현 / Software Engineer, Superb AI

목차
1. Introduction
2. 람다만으로 만든 이미지 처리
3. 데이터 플로우
4. Step Functions
5. Lambda의 한계, 그리고 Fargate
6. Superb AI 적용 예제

김재현
jhkim@superb-ai.com
- Superb AI Software Engineer
- 꿈의 원격 근무자
- 뉴욕 대학교 컴퓨터과학과 졸업 학
기
- 신뢰받는 개발자가 목표
Introduction
Speaker

AWS Lambda AWS Fargate AWS Step
Functions
AWS S3 AWS
DynamoDB
AWS SQS
Introduction
AWS Services

AWS S3
AWS
DynamoDB
AWS SQS
완전관리형 메시지 대기열 서비스
(서비스 간 메시지 전달)
객체 스토리지 서비스
NoSQL 데이터베이스 서비스
Introduction
AWS Services

머신러닝 데이터 플랫폼
1. Data Management
2. Visualization + Analytics
3. Integrate with your ML DevOps cycle
대량, 대용량의 데이터 처리가 필요
“서버리스로 해보면 어떨까?”
Introduction
Motivation

람다만으로 만든 이미지 처리

Serverless Architecture
- 서버 관리 불필요
- 높은 가용성
- 유연한 확장성
- 종량제 요금

- 서버 관리 불필요
- 높은 가용성
- 유연한 확장성
- 종량제 요금
야! 너두 할수있어
→

Service Introduction
AWS
LambdaCompute
서버리스 컴퓨팅 서비스
- Function as a Service
(FaaS)
- Event-driven
- 완전관리형
- 뛰어난 병렬성
개발자는 코드에만 집중

Thumbnail Generator

Image Processing
Image Processing

Image Processing

이걸 전부 다 람다안
에서 처리 할 수 있을
까?

이걸 전부 다 람다안
에서 처리 할 수 있을
까?
= 가능은 하나,
좋은 솔루션일까?
관리는 어떻게 하
지?

VS

데이터 플로우
What is a dataflow?
Dataflow
“The idea of disconnecting computational actors into stages”
https://en.wikipedia.org/wiki/Dataflow

데이터 플로우
Why do we need one?
• Concurrency
• Scalability
• Reusability

데이터 플로우
How do we implement it?
AWS 데이터 플로우 서비스?

AWS Step Functions
클라우드 오케스트레이션 서비스
- 다양한 서비스를 하나의 워크플로우로
엮어줌
- 유연한 병렬/분기 흐름 제어
- 시각적 워크플로우
Application Integration
Step Functions

Step Functions

Step Functions
State Machine
• Possible States
• Lambda, Fargate Task같은 작업
• Choice, Parallel, Map같은 Flow Logic
• Succeed, Fail같은 최종 결과
• 각 “상태”는 스텝 펑션의 플로우 로직에 따라
순차적, 혹은 병렬적으로 실행됨
• Amazon States Language (JSON)
• 쉽고 빠르게 개발

Step Functions
Amazon States Language
https://states-language.net/spec.html#example

Step Functions
https://states-language.net/spec.html#example
Entry Point
States

Step Functions
Resizer
• Type
• Task = 실행 가능한 작업
• Resource
• Resizer Lambda ARN
• End
• True = 다음 상태 없음
• (OR) Next
• 다음 상태 지정

Step Functions
Input Output using JSON Path
• InputPath
• 전체 Input의 어느부분을 입력값으로 받을
까?
• $ = Root path
• ResultPath
• 결과를 어떻게 저장할까?
• $.result.resized
• OutputPath
• 다음 상태에게 결과에 어느 부분을 전달할
까?

Step Functions

Step Functions
InputPath
• $.resize_info

Step Functions
ResultPath
• $.results.resize

Step Functions
OutputPath
• $

Step Functions
https://states-language.net/spec.html#filters

Workflow Control
• Choice
• 실행 결과값에 기반한 분기 로직
• Parallel (정적 병렬 처리)
• 고정된 수의 여러 Task를 동시에 실행
• Map (동적 병렬 처리)
• Iterator를 이용해 리스트형 입력값을 Task에 Mapping
Step Functions

Step Functions
if extension in [‘JPEG’,’PNG’]:
thumbnail(image)
else:
raise Exception

Workflow Control
• Choice
• Iterator를 이용해 리스트형 입력값을 Task에
Mapping
Step Functions
뭐가 다른걸까?

Step Functions
Workflow Control
• Choice
Mapping
← 다양한 입력을 동일하게 처
리
← 하나의 입력을 다양하게 처
리

Step Functions
Pricing
Pricing
• Up to 4,000 free state transitions
• $0.025 / 1,000 state transitions
afterwards

Step Functions
Pricing
Pricing
How many state transitions per
execution? = ST
How many executions / month? = Exec
(ST x Exec)/1000 x $0.025 = Monthly Fee

Step Functions
Pricing
Pricing
ST = 10 State transitions per execution
Exec = 100,000 Requests per month
(10 x 100,000)/1000 x $0.025 =
~$25/month

Workflow Control
• Choice
← 하나의 이벤트로 여러가
지 처리를 병렬로 실행
한다면?
Step Functions

Step Functions
이미지 처리

Step Functions
비디오 처리
Video Processing
Decoding
Encoding

Lambda의 한계, 그리고 Fargate

AWS Lambda Hard Limits
- Function memory allocation
- Max 3,008MB
- Function timeout
- 900 seconds (15 minutes)

AWS Lambda Hard Limits
- Max 3,008MB
- Function timeout
← 메모리 용량보다 큰 대용량 데이터
는?
← 15분 보다 오래걸리는 작업은
?

AWS Fargate
서버리스 컨테이너 서비스
- 완전관리형
- EC2 인스턴스 설정 X
- Service / Task based
operation
컨테이너계의 람다
Compute

개발자는 Task Definition만 작성
• 사용할 컨테이너 이미지
• 필요한 컴퓨팅 자원
• Task에 필요한 환경변수 등

Is Fargate better than Lambda?
AWS Lambda vs AWS Fargate
AWS Lambda
- Max 3,008MB
- Function timeout
- Local File System
- 512MB
AWS Fargate
- Container memory allocation
- Max 30GB
- Container Timeout
- Until a task finishes
- Local File System
- 10GB
<

Is Fargate better than Lambda?
그러나...
AWS Lambda
- Max concurrency
- 1,000 (soft limit)
- Faster initiation time
- Deploy code to an idle
worker
가볍고 빠른 처리에 적합
AWS Fargate
- Max concurrency
- 50 (soft limit)
- Slow initiation time
- Task request/scheduling
- Image pull + Container startup
시간과 자원이 많이 필요한 작업에 적
합
>

비디오 처리: 디코딩
Lambda
Fargate

비디오 처리: 인코딩
Lambda
Fargate

비디오 처리: 디코딩

Superb AI Suite Data Platform SaaS
- 어노테이션 결과물 내려받기
- 이미지 썸네일 생성
- 비디오 디코딩
- 라벨 포맷 컨버터
- And many more

Superb AI 적용 예제
Superb AI Suite: Export

LabelData

"objects": [
{
"id": 1,
"class": "Car",
"shape": {
"polygon": [
. . .
]
{
"label_id": "car",
"label_path":
"labels/car.json",
"data_key":"car.jpg",
}
Label Info Meta Info Mask

Export in Steps
1. 내려받을 결과물 받아오기
2. Info, meta 추출 및 mask 생성
3. 모든 결과물 압축
4. 작업 완료 메시지 및 작업물 경로 반환

적게는 수십개에서 많게는 수십만, 수백만개의 라벨 처리
= 분산 처리가 필요

Workflow Control
• Choice
• List Length / Max Concurrency
← Parallel을 이용하면 어떨
까?

100 Requests
람다 하나 당 20개 = 합리

1,000,000 Requests
람다 하나 당 200,000개 =
???

Workflow Control
• Choice
• 실행 결과 값에 기반한 분기 로직
Mapping
• List Length / Max Concurrency← 그렇다면 Map은?

1,000,000 / 1,000 =
100
1. 각 람다 함수는 1,000개씩
처리
2. 끝나면 다음 1,000개
동시에 5,000개씩 처리
[1000, 1000 …
1000]100
Elements

https://gist.github.com/roycoding/b11b650d3ed8d4e8
6c39

병렬처리 불가능
실행시간이 김
= 람다엔 적합하지 않음

AWS Fargate
- Container memory allocation
- Max 30GB
- Container timeout
- Until a task finishes
- Local File System
- 10GB
← 실행시간이 오래걸리는
압축 작업에 적합

2. Info, meta 추출 및 mask 생
성

4. 작업 완료 메시지 및 작업물 경로
반환

마치며
So what?
서버리스 데이터 플로우
1. 낮은 진입 장벽
2. Concurrency, Scalability, Reusability

SEOUL
감사합니다
김재현 / Software Engineer, Superb AI

서버리스 데이터 플로우 개발기 - 김재현 (Superb AI) :: AWS Community Day 2020

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to 서버리스 데이터 플로우 개발기 - 김재현 (Superb AI) :: AWS Community Day 2020

Similar to 서버리스 데이터 플로우 개발기 - 김재현 (Superb AI) :: AWS Community Day 2020 (20)

More from AWSKRUG - AWS한국사용자모임

More from AWSKRUG - AWS한국사용자모임 (20)

서버리스 데이터 플로우 개발기 - 김재현 (Superb AI) :: AWS Community Day 2020

Editor's Notes