Word2Vec 개요 및 활용

Word2Vec
- SMD 분석서비스에 기반하여
이찬희
2016. 12. 16

1위: 엄마. 아빠
2위: 국가지도자. 전략가
3위: 기업 CEO
4위: 교사
5위: 상담원
☞ 사람 고유의 표현수단이
중요하게 사용되는 직업

사람 고유의 표현수단
표정
행동
언어

사람의 표현수단을 데이터화 시키려는
노력에는 어떤 것이 있을까?

컴퓨터가 어떻게 언어를 인식할 수 있을까?
표정, 음성 -> 감정이 담긴 표정들과 비교
동작 -> 하드웨어의 인식
언어 -> *벡터공간과 개별 벡터*

*Word Embedding*
단어를 표현하는데 드는 벡터공간보다
보다 저차원의 벡터공간으로
표현하는 방법을 총칭

Word Embedding의 구현방법
Co-occurrence matrix
Probabilistic model
Neural networks
Word Embedding의 구현방법
Co-occurrence matrix
Probabilistic model
Neural networks ☞ Word2Vec

Word Embedding 구현 알고리즘에
사용되는 기본 가정
Distributional Hypothesis
유사한 분포를 가지는 단어는
유사한 의미를 가진다

Word2Vec
• Google의 Tomas Mikolov가 이끄는 연구팀이 개발
• Neural Network 기반 Machine Learning 분석모델
• 단어의 등장 분포를 통해 단어의 의미를 벡터로 변환
• 모델을 생성하는 두 가지 알고리즘을 사용할 수 있음
• CBOW, Skip-gram

Word2Vec이 제시한 두 가지 알고리즘
: CBOW(Continuous Bag-of-Words) vs. Skip-gram
< Skip-gram >< CBOW >
多 1 1 多

Word2Vec이 제시한 두 가지 알고리즘 - 예제
< CBOW >
• 주변 단어를 통해 중간에 어떤 단어가 나올지 확
률적 유추를 하는 알고리즘
< Skip-gram >
• 한 단어의 주변에 어떤 단어들이 나올지 확률적
유추를 하는 알고리즘

Word2Vec이 제시한 두 가지 알고리즘 - 성능평가
다른 Neural Network 기반
Word Embedding 알고리즘
다른 알고리즘에 비해 Word2Vec 알고리즘들의
성능이 좋았고 Word2Vec의 두 알고리즘 내에서
는 Skip-gram 알고리즘이 문법적, 의미적 면에서
성능이 더 좋았음

Source Data
: Buzzword Data in SMD(Social Media Data) Analysis Service
수집기
형태소분석
감성분석
Buzzword
Sentimental
Score
Buzzword
Summary
Sentimental
Summary
언론사
SNS
뉴스
증권 커뮤니티

Source Data
: Buzzword in SMD(Social Media Data) Analysis Service
수집기
형태소분석
감성분석
Buzzword
Sentimental
Score
Buzzword
Summary
Sentimental
Summary
언론사
SNS
뉴스
증권 커뮤니티
삼성전자, 2015년
4분기 실적발표
…
4분기는 CE부문을 중심으
로 매출은 다소 증가했지만,
…,
부품사업을 중심으로 영업
이익이 감소했다.
삼성전자, 2015년, 4분기, 실
적발표
4분기, 는, CE부문, 을, 중심,
으로, 매출, 은, 다소,
증가하다 + <과거형>, 만,
부품사업, 을, 중심, 으로,
영업이익, 이, 감소하다 + <과
거형>
적발표
부품사업, 을, 중심, 으로, 영
업이익, 이, 감소하다 + <과거
형>
적발표
거형>
적발표
으로, 매출, 은, 다소, 증가하다
+ <과거형>, 만,
거형>
Buzzword WordCount
2015년 1
4분기 2
실적발표 1
…
매출
부품사업 1
영업이익 1
Pattern
Sent
Score
CE부문 + 매출 + 증가하다 +1
부품사업 + 영업이익 + 감소하다 -1
적발표
부품사업, 을, 중심, 으로, 영
업이익, 이, 감소하다 + <과거
형>
적발표
거형>
※ 이 데이터를 사용

Word2Vec 활용
• 활용한 기술
• 단어의 의미를 벡터로 변환: Word2Vec
• 벡터의 클러스터링: K-means 알고리즘
• 사용한 Python 패키지
• 'gensim': 문서 내의 시맨틱을 추출하기 위한 다양한 기능을 제공하는 Python 라이브러리
• 'sklearn': K-means 알고리즘을 사용하기 위한 패키지
• 'tkinter': Python GUI 지원 패키지

Word2Vec 활용과정
1. Buzzword의 등장 순서 원복
2. Word2Vec 모델 구축
3. 클러스터링 알고리즘 적용
4. UI 붙이기

결과 1. 관련어 검색
• 주어진 단어에 대한 관련단어 검색기능
• 여러 단어를 제공할 수록 사용자가 원하는
결과를 제공할 확률이 높아짐
• 단순히 같은 의미를 가지는 단어만 제공하는
것보다 반의어를 함께 제공할 때 성능이 더
좋음

결과 1. 관련어 검색 - 단어 필터링
기존 상위
버즈워드
주제에 따른
필터링 목록 생성
필터링 이후의
버즈워드
시점 관련 단어집합 문서 특성상 고정적으로 들어가는 단어집합 일반적으로 들어가는 명사집합

결과 2. 단어 클러스터링
• 벡터화된 단어를 클러스터링
• 클러스터링 알고리즘에 따라 결과가
달라짐
• 많은 단어들을 소수의 클러스터화를
통해 개별 의미가 아닌 Context를 찾
아낼 수 있음
: 즉, 사용자의 이해에 도움

결과 2. 단어 클러스터링 - 버즈워드 클러스터링
12/14 13:00 전체시장 버즈워드 TOP 50
너무 많은 단어들이 등장하기 때문에,
단어집합이 뜻하는 의미를 사용자가 직관적으로 이해하기 쉽지 않음

결과 2. 단어 클러스터링 - 버즈워드 클러스터링
많은 단어를 의미별로 묶어 소수의 클러스터로 보여줌으로써,
사용자의 이해에 보다 도움을 줄 수 있음

Word2Vec 개요 및 활용

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to Word2Vec 개요 및 활용

Similar to Word2Vec 개요 및 활용 (20)

More from 찬희 이

More from 찬희 이 (10)

Word2Vec 개요 및 활용

Editor's Notes