The bleeding edge of machine learning stream in 2017 - APAC ML/DS Community ...
딥러닝을 11번가 영상 검색에 활용한 경험 공유
1. 딥러닝 활용 11번가 영
상 검색 상용화에 적용
한 경험 공유
SK Planet, Machine Intelligence Lab,
전혁준
2. 이름: 전혁준
탄생일: 19XX년으로 추정
2012~2016(현재) SK플래닛 매니저
아직 회고할 시기는 아님...
2011~2012 한국항공우주연구원 , 박사후
아리랑 3호 영상검보정팀
특수한 영상을 많이 만져보고 나랏일에 도움이
된다는 자부심을 가진 시절...
2005~2011 충남대학교 컴퓨터공학과 석사/박사 학위
(지도교수님: 황치정)
많은 것을 해본 시절...
2004 (주)엠게임
보드 게임 서버 및 클라이언트 개발 담당
사고도 많이 쳤던 시절...
개인적으로 벤처하고 싶어서 뛰처 나왔음…
젊어서 아쉽지만 짧게 다녔음…
그러나 현실은 달랐음 T_T
2004 우송대학교 컴퓨터과학과 학사
전공: 컴퓨터 비전, 패턴 인식, 영상 검색
사용 가능 언어: C++/Python/Golang/Lua
취미: 매년 달라 짐
결혼: 사랑하는 와이프가 있음.
7. 기존 텍스트 기반
1. 강점
a. 대중성
b. 품번 검색
c. 키워드 검색
d. 검색 대상이 넓음
2. 단점
a. 판매자 키워드 조작
b. 시각적인 특징 검색이
부족함.
영상 기반 검색
1. 강점
a. 판매자의 조작 행위가
어려움 → 영상 자체에
서 텍스트 추출
b. 시각적인 특징 부분을
채워줌.
2. 단점
a. 참조 사진이 있어야 함.
b. 품번 검색을 못함.
8. 효과적으로 비슷한 것을 잘
찾자!
많은 판매 영상
텍스트에서 표현(x)
→ 시각 정보를 활용하여
13. 2014.1 2015.122015.1
4월
Deep Learning 기술 활용 브랜드11
- Detector 개선이 필요
- 상품만 보는 detector
- 학습 라벨링 데이터 필요(현재 기계학습의 한계!)
- 많은 종류의 상품 검출 필요
- 수공업으로 설계하기에는 힘듬.
- Feature 개선 필요
- 더 추상적인 시각정보를 담고있는 feature
- 학습 라벨링 데이터 필요(현재 기계학습의 한계!)
16. 데이터 구축 정책
Training Set
Validation
Set
Test Set
(황금 비율)Training Set & Validation Set vs. Test Set:
1. 7 : 3
2. 8(6:2) : 2 (Andrew Ng)
Training set:
모델의 인자를 최적화(학습) 하는 용도
개수↑, 정확한 구축↓, 비용↓
Validataion set:
서로 다른 구조로 인자가 여러 개의 최적화된 모델들 중에서 최고로 좋은 것을 찾는 용도,
이 모델의 훈련을 go/stop 판단하는 용도
개수↓, 정확한 구축↑, 비용↑
Test set:
잘 훈련한 모델의 성능을 평가하는 용도, 선택된 모델로 튜닝이 안된 셋.
개수↓, 정확한 구축↑, 비용↑
39. Deep Learning으로 개선 측면
Detector 측면
- 카테고리 개선:
- 7 카테고리(21.6%) → 90 카테고리(90%)
- ROI 영역 정확성 개선
- 상반신 검출기(포즈에 집중) → 제품에 집중
Feature 측면
- 패턴 성능 개선
- Robustness 조절이 필요.
손으로 구현한 feature 개발이 많이 해소되었다.
40. 적용이 어려웠던 것이 Deep Learning으로 되더라…
집중도: How → What
관점의 전환
Feature Design 알고리즘 개발:
사람 → 기계
학습 데이터 생성에 집중
(show me the money!)