SlideShare a Scribd company logo
1 of 23
Word2Vec
- SMD 분석서비스에 기반하여
이찬희
2016. 12. 16
1위: 엄마. 아빠
2위: 국가지도자. 전략가
3위: 기업 CEO
4위: 교사
5위: 상담원
☞ 사람 고유의 표현수단이
중요하게 사용되는 직업
사람 고유의 표현수단
표정
행동
언어
사람의 표현수단을 데이터화 시키려는
노력에는 어떤 것이 있을까?
컴퓨터가 어떻게 언어를 인식할 수 있을까?
표정, 음성 -> 감정이 담긴 표정들과 비교
동작 -> 하드웨어의 인식
언어 -> *벡터공간과 개별 벡터*
*Word Embedding*
단어를 표현하는데 드는 벡터공간보다
보다 저차원의 벡터공간으로
표현하는 방법을 총칭
Word Embedding의 구현방법
Co-occurrence matrix
Probabilistic model
Neural networks
Word Embedding의 구현방법
Co-occurrence matrix
Probabilistic model
Neural networks ☞ Word2Vec
Word Embedding 구현 알고리즘에
사용되는 기본 가정
Distributional Hypothesis
유사한 분포를 가지는 단어는
유사한 의미를 가진다
Word2Vec
• Google의 Tomas Mikolov가 이끄는 연구팀이 개발
• Neural Network 기반 Machine Learning 분석모델
• 단어의 등장 분포를 통해 단어의 의미를 벡터로 변환
• 모델을 생성하는 두 가지 알고리즘을 사용할 수 있음
• CBOW, Skip-gram
Word2Vec이 제시한 두 가지 알고리즘
: CBOW(Continuous Bag-of-Words) vs. Skip-gram
< Skip-gram >< CBOW >
多 1 1 多
Word2Vec이 제시한 두 가지 알고리즘 - 예제
: CBOW(Continuous Bag-of-Words) vs. Skip-gram
< CBOW >
• 주변 단어를 통해 중간에 어떤 단어가 나올지 확
률적 유추를 하는 알고리즘
< Skip-gram >
• 한 단어의 주변에 어떤 단어들이 나올지 확률적
유추를 하는 알고리즘
Word2Vec이 제시한 두 가지 알고리즘 - 성능평가
: CBOW(Continuous Bag-of-Words) vs. Skip-gram
다른 Neural Network 기반
Word Embedding 알고리즘
다른 알고리즘에 비해 Word2Vec 알고리즘들의
성능이 좋았고 Word2Vec의 두 알고리즘 내에서
는 Skip-gram 알고리즘이 문법적, 의미적 면에서
성능이 더 좋았음
Source Data
: Buzzword Data in SMD(Social Media Data) Analysis Service
수집기
형태소분석
감성분석
Buzzword
Sentimental
Score
Buzzword
Summary
Sentimental
Summary
언론사
SNS
뉴스
증권 커뮤니티
Source Data
: Buzzword in SMD(Social Media Data) Analysis Service
수집기
형태소분석
감성분석
Buzzword
Sentimental
Score
Buzzword
Summary
Sentimental
Summary
언론사
SNS
뉴스
증권 커뮤니티
삼성전자, 2015년
4분기 실적발표
…
4분기는 CE부문을 중심으
로 매출은 다소 증가했지만,
…,
부품사업을 중심으로 영업
이익이 감소했다.
삼성전자, 2015년, 4분기, 실
적발표
4분기, 는, CE부문, 을, 중심,
으로, 매출, 은, 다소,
증가하다 + <과거형>, 만,
부품사업, 을, 중심, 으로,
영업이익, 이, 감소하다 + <과
거형>
삼성전자, 2015년, 4분기, 실
적발표
4분기, 는, CE부문, 을, 중심,
으로, 매출, 은, 다소,
증가하다 + <과거형>, 만,
부품사업, 을, 중심, 으로, 영
업이익, 이, 감소하다 + <과거
형>
삼성전자, 2015년, 4분기, 실
적발표
4분기, 는, CE부문, 을, 중심,
으로, 매출, 은, 다소,
증가하다 + <과거형>, 만,
부품사업, 을, 중심, 으로,
영업이익, 이, 감소하다 + <과
거형>
삼성전자, 2015년, 4분기, 실
적발표
4분기, 는, CE부문, 을, 중심,
으로, 매출, 은, 다소, 증가하다
+ <과거형>, 만,
부품사업, 을, 중심, 으로,
영업이익, 이, 감소하다 + <과
거형>
Buzzword WordCount
2015년 1
4분기 2
실적발표 1
…
매출
부품사업 1
영업이익 1
Pattern
Sent
Score
CE부문 + 매출 + 증가하다 +1
부품사업 + 영업이익 + 감소하다 -1
삼성전자, 2015년, 4분기, 실
적발표
4분기, 는, CE부문, 을, 중심,
으로, 매출, 은, 다소,
증가하다 + <과거형>, 만,
부품사업, 을, 중심, 으로, 영
업이익, 이, 감소하다 + <과거
형>
삼성전자, 2015년, 4분기, 실
적발표
4분기, 는, CE부문, 을, 중심,
으로, 매출, 은, 다소,
증가하다 + <과거형>, 만,
부품사업, 을, 중심, 으로,
영업이익, 이, 감소하다 + <과
거형>
※ 이 데이터를 사용
Word2Vec 활용
• 활용한 기술
• 단어의 의미를 벡터로 변환: Word2Vec
• 벡터의 클러스터링: K-means 알고리즘
• 사용한 Python 패키지
• 'gensim': 문서 내의 시맨틱을 추출하기 위한 다양한 기능을 제공하는 Python 라이브러리
• 'sklearn': K-means 알고리즘을 사용하기 위한 패키지
• 'tkinter': Python GUI 지원 패키지
Word2Vec 활용과정
1. Buzzword의 등장 순서 원복
2. Word2Vec 모델 구축
3. 클러스터링 알고리즘 적용
4. UI 붙이기
결과 1. 관련어 검색
• 주어진 단어에 대한 관련단어 검색기능
• 여러 단어를 제공할 수록 사용자가 원하는
결과를 제공할 확률이 높아짐
• 단순히 같은 의미를 가지는 단어만 제공하는
것보다 반의어를 함께 제공할 때 성능이 더
좋음
결과 1. 관련어 검색 - 단어 필터링
기존 상위
버즈워드
주제에 따른
필터링 목록 생성
필터링 이후의
버즈워드
시점 관련 단어집합 문서 특성상 고정적으로 들어가는 단어집합 일반적으로 들어가는 명사집합
결과 2. 단어 클러스터링
• 벡터화된 단어를 클러스터링
• 클러스터링 알고리즘에 따라 결과가
달라짐
• 많은 단어들을 소수의 클러스터화를
통해 개별 의미가 아닌 Context를 찾
아낼 수 있음
: 즉, 사용자의 이해에 도움
결과 2. 단어 클러스터링 - 버즈워드 클러스터링
12/14 13:00 전체시장 버즈워드 TOP 50
너무 많은 단어들이 등장하기 때문에,
단어집합이 뜻하는 의미를 사용자가 직관적으로 이해하기 쉽지 않음
결과 2. 단어 클러스터링 - 버즈워드 클러스터링
많은 단어를 의미별로 묶어 소수의 클러스터로 보여줌으로써,
사용자의 이해에 보다 도움을 줄 수 있음
Word2Vec 개요 및 활용

More Related Content

What's hot

What's hot (20)

CNN for sentence classification
CNN for sentence classificationCNN for sentence classification
CNN for sentence classification
 
2204 Kakao talk on Hate speech dataset
2204 Kakao talk on Hate speech dataset2204 Kakao talk on Hate speech dataset
2204 Kakao talk on Hate speech dataset
 
제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [Stalker 팀] : 감정분석을 통한 MBTI 기반 개인별 투자 성향 분석
제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [Stalker 팀] : 감정분석을 통한 MBTI 기반 개인별 투자 성향 분석제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [Stalker 팀] : 감정분석을 통한 MBTI 기반 개인별 투자 성향 분석
제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [Stalker 팀] : 감정분석을 통한 MBTI 기반 개인별 투자 성향 분석
 
Word2Vec
Word2VecWord2Vec
Word2Vec
 
제 14회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [TweetViz팀] : 카프카와 스파크를 통한 tweetdeck 개발
제 14회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [TweetViz팀] : 카프카와 스파크를 통한 tweetdeck 개발제 14회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [TweetViz팀] : 카프카와 스파크를 통한 tweetdeck 개발
제 14회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [TweetViz팀] : 카프카와 스파크를 통한 tweetdeck 개발
 
딥러닝 자연어처리 - RNN에서 BERT까지
딥러닝 자연어처리 - RNN에서 BERT까지딥러닝 자연어처리 - RNN에서 BERT까지
딥러닝 자연어처리 - RNN에서 BERT까지
 
제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [WHY 팀] : 나만의 웹툰일기 Toonight
제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [WHY 팀] : 나만의 웹툰일기 Toonight제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [WHY 팀] : 나만의 웹툰일기 Toonight
제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [WHY 팀] : 나만의 웹툰일기 Toonight
 
제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [Hands-on 팀] : 수어 번역을 통한 위험 상황 속 의사소통 시스템 구축
제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [Hands-on 팀] : 수어 번역을 통한 위험 상황 속 의사소통 시스템 구축제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [Hands-on 팀] : 수어 번역을 통한 위험 상황 속 의사소통 시스템 구축
제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [Hands-on 팀] : 수어 번역을 통한 위험 상황 속 의사소통 시스템 구축
 
제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [기린그림 팀] : 사용자의 손글씨가 담긴 그림 일기 생성 서비스
제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [기린그림 팀] : 사용자의 손글씨가 담긴 그림 일기 생성 서비스제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [기린그림 팀] : 사용자의 손글씨가 담긴 그림 일기 생성 서비스
제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [기린그림 팀] : 사용자의 손글씨가 담긴 그림 일기 생성 서비스
 
한국어 문서 추출요약 AI 경진대회- 좌충우돌 후기
한국어 문서 추출요약 AI 경진대회- 좌충우돌 후기한국어 문서 추출요약 AI 경진대회- 좌충우돌 후기
한국어 문서 추출요약 AI 경진대회- 좌충우돌 후기
 
제 17회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [Catch, Traffic!] : 지하철 혼잡도 및 키워드 분석 데이터 파이프라인 구축
제 17회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [Catch, Traffic!] : 지하철 혼잡도 및 키워드 분석 데이터 파이프라인 구축제 17회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [Catch, Traffic!] : 지하철 혼잡도 및 키워드 분석 데이터 파이프라인 구축
제 17회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [Catch, Traffic!] : 지하철 혼잡도 및 키워드 분석 데이터 파이프라인 구축
 
제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [개미야 뭐하니?팀] : 투자자의 반응을 이용한 실시간 등락 예측(feat. 카프카)
제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [개미야 뭐하니?팀] : 투자자의 반응을 이용한 실시간 등락 예측(feat. 카프카)제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [개미야 뭐하니?팀] : 투자자의 반응을 이용한 실시간 등락 예측(feat. 카프카)
제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [개미야 뭐하니?팀] : 투자자의 반응을 이용한 실시간 등락 예측(feat. 카프카)
 
[부스트캠프 Tech Talk] 진명훈_datasets로 협업하기
[부스트캠프 Tech Talk] 진명훈_datasets로 협업하기[부스트캠프 Tech Talk] 진명훈_datasets로 협업하기
[부스트캠프 Tech Talk] 진명훈_datasets로 협업하기
 
MongoDB .local Toronto 2019: Tips and Tricks for Effective Indexing
MongoDB .local Toronto 2019: Tips and Tricks for Effective IndexingMongoDB .local Toronto 2019: Tips and Tricks for Effective Indexing
MongoDB .local Toronto 2019: Tips and Tricks for Effective Indexing
 
제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [쇼미더뮤직 팀] : 텍스트 감정추출을 통한 노래 추천
제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [쇼미더뮤직 팀] : 텍스트 감정추출을 통한 노래 추천제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [쇼미더뮤직 팀] : 텍스트 감정추출을 통한 노래 추천
제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [쇼미더뮤직 팀] : 텍스트 감정추출을 통한 노래 추천
 
Bleu vs rouge
Bleu vs rougeBleu vs rouge
Bleu vs rouge
 
제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [MarketIN팀] : 디지털 마케팅 헬스체킹 서비스
제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [MarketIN팀] : 디지털 마케팅 헬스체킹 서비스제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [MarketIN팀] : 디지털 마케팅 헬스체킹 서비스
제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [MarketIN팀] : 디지털 마케팅 헬스체킹 서비스
 
엘라스틱서치, 로그스태시, 키바나
엘라스틱서치, 로그스태시, 키바나엘라스틱서치, 로그스태시, 키바나
엘라스틱서치, 로그스태시, 키바나
 
TF에서 팀 빌딩까지 9개월의 기록 : 성장하는 조직을 만드는 여정
TF에서 팀 빌딩까지 9개월의 기록 : 성장하는 조직을 만드는 여정TF에서 팀 빌딩까지 9개월의 기록 : 성장하는 조직을 만드는 여정
TF에서 팀 빌딩까지 9개월의 기록 : 성장하는 조직을 만드는 여정
 
카카오톡으로 여친 만들기 2013.06.29
카카오톡으로 여친 만들기 2013.06.29카카오톡으로 여친 만들기 2013.06.29
카카오톡으로 여친 만들기 2013.06.29
 

Similar to Word2Vec 개요 및 활용

2023_테오콘_패턴매칭을 통해 선언적으로 타입스크립트 다루기_허브
2023_테오콘_패턴매칭을 통해 선언적으로 타입스크립트 다루기_허브2023_테오콘_패턴매칭을 통해 선언적으로 타입스크립트 다루기_허브
2023_테오콘_패턴매칭을 통해 선언적으로 타입스크립트 다루기_허브
민 허
 

Similar to Word2Vec 개요 및 활용 (20)

GloVe:Global vectors for word representation
GloVe:Global vectors for word representationGloVe:Global vectors for word representation
GloVe:Global vectors for word representation
 
2023_테오콘_패턴매칭을 통해 선언적으로 타입스크립트 다루기_허브
2023_테오콘_패턴매칭을 통해 선언적으로 타입스크립트 다루기_허브2023_테오콘_패턴매칭을 통해 선언적으로 타입스크립트 다루기_허브
2023_테오콘_패턴매칭을 통해 선언적으로 타입스크립트 다루기_허브
 
파이썬을 활용한 자연어 분석
파이썬을 활용한 자연어 분석파이썬을 활용한 자연어 분석
파이썬을 활용한 자연어 분석
 
Clou(python searh system)
Clou(python searh system)Clou(python searh system)
Clou(python searh system)
 
100% Serverless big data scale production Deep Learning System
100% Serverless big data scale production Deep Learning System100% Serverless big data scale production Deep Learning System
100% Serverless big data scale production Deep Learning System
 
개발자, 성장하는 '척' 말고, 진짜 성장하기
개발자, 성장하는 '척' 말고, 진짜 성장하기개발자, 성장하는 '척' 말고, 진짜 성장하기
개발자, 성장하는 '척' 말고, 진짜 성장하기
 
예비 개발자를 위한 소프트웨어 세상 이야기
예비 개발자를 위한 소프트웨어 세상 이야기예비 개발자를 위한 소프트웨어 세상 이야기
예비 개발자를 위한 소프트웨어 세상 이야기
 
재업로드주소: https://www.slideshare.net/hnki0104/gsshop-103837144
재업로드주소: https://www.slideshare.net/hnki0104/gsshop-103837144재업로드주소: https://www.slideshare.net/hnki0104/gsshop-103837144
재업로드주소: https://www.slideshare.net/hnki0104/gsshop-103837144
 
[IT교육/IT학원]Develope를 위한 IT실무교육
[IT교육/IT학원]Develope를 위한 IT실무교육[IT교육/IT학원]Develope를 위한 IT실무교육
[IT교육/IT학원]Develope를 위한 IT실무교육
 
MongoDB in Banksalad [Rainist]
MongoDB in Banksalad [Rainist]MongoDB in Banksalad [Rainist]
MongoDB in Banksalad [Rainist]
 
마인즈랩 회사소개서 V1.5
마인즈랩 회사소개서 V1.5마인즈랩 회사소개서 V1.5
마인즈랩 회사소개서 V1.5
 
SAYAHAE - 상품평 분석 및 추천 서비스 (자연어 처리)
SAYAHAE - 상품평 분석 및 추천 서비스 (자연어 처리)SAYAHAE - 상품평 분석 및 추천 서비스 (자연어 처리)
SAYAHAE - 상품평 분석 및 추천 서비스 (자연어 처리)
 
BS501 발표자료
BS501 발표자료BS501 발표자료
BS501 발표자료
 
마인즈랩 통합 VOC 관리 솔루션 소개_20151030
마인즈랩 통합 VOC 관리 솔루션 소개_20151030마인즈랩 통합 VOC 관리 솔루션 소개_20151030
마인즈랩 통합 VOC 관리 솔루션 소개_20151030
 
The platform 2011
The platform 2011The platform 2011
The platform 2011
 
Ep msession3
Ep msession3Ep msession3
Ep msession3
 
『풀스택 개발자를 위한 MEAN 스택 입문』 - 미리보기
『풀스택 개발자를 위한 MEAN 스택 입문』 - 미리보기『풀스택 개발자를 위한 MEAN 스택 입문』 - 미리보기
『풀스택 개발자를 위한 MEAN 스택 입문』 - 미리보기
 
응용서비스에 따른 인공지능기술 연구이슈
응용서비스에 따른 인공지능기술 연구이슈응용서비스에 따른 인공지능기술 연구이슈
응용서비스에 따른 인공지능기술 연구이슈
 
프로젝트관리­ 3회
프로젝트관리­ 3회프로젝트관리­ 3회
프로젝트관리­ 3회
 
EMOCON 2015 - 품질과 테스트는 다르다
EMOCON 2015 - 품질과 테스트는 다르다EMOCON 2015 - 품질과 테스트는 다르다
EMOCON 2015 - 품질과 테스트는 다르다
 

More from 찬희 이

More from 찬희 이 (10)

의존 구조 분석기, Dependency parser
의존 구조 분석기, Dependency parser의존 구조 분석기, Dependency parser
의존 구조 분석기, Dependency parser
 
mecab-ko-dic 사용자 사전
mecab-ko-dic 사용자 사전mecab-ko-dic 사용자 사전
mecab-ko-dic 사용자 사전
 
PySpark 배우기 Ch 06. ML 패키지 소개하기
PySpark 배우기 Ch 06. ML 패키지 소개하기PySpark 배우기 Ch 06. ML 패키지 소개하기
PySpark 배우기 Ch 06. ML 패키지 소개하기
 
파이썬을 활용한 금융 분석 Ch 14. The FXCM Trading Platform
파이썬을 활용한 금융 분석 Ch 14. The FXCM Trading Platform파이썬을 활용한 금융 분석 Ch 14. The FXCM Trading Platform
파이썬을 활용한 금융 분석 Ch 14. The FXCM Trading Platform
 
파이썬을 활용한 금융 분석 Ch 9. Input Output Operation
파이썬을 활용한 금융 분석 Ch 9. Input Output Operation파이썬을 활용한 금융 분석 Ch 9. Input Output Operation
파이썬을 활용한 금융 분석 Ch 9. Input Output Operation
 
은닉 마르코프 모델, Hidden Markov Model(HMM)
은닉 마르코프 모델, Hidden Markov Model(HMM)은닉 마르코프 모델, Hidden Markov Model(HMM)
은닉 마르코프 모델, Hidden Markov Model(HMM)
 
단어 의미 중의성 해소, Word Sense Disambiguation(WSD)
단어 의미 중의성 해소, Word Sense Disambiguation(WSD)단어 의미 중의성 해소, Word Sense Disambiguation(WSD)
단어 의미 중의성 해소, Word Sense Disambiguation(WSD)
 
Dependency Parser, 의존 구조 분석기
Dependency Parser, 의존 구조 분석기Dependency Parser, 의존 구조 분석기
Dependency Parser, 의존 구조 분석기
 
Phrase Tagger, 구문 태거
Phrase Tagger, 구문 태거Phrase Tagger, 구문 태거
Phrase Tagger, 구문 태거
 
프로젝트용 PC 환경구성 이찬희
프로젝트용 PC 환경구성   이찬희프로젝트용 PC 환경구성   이찬희
프로젝트용 PC 환경구성 이찬희
 

Word2Vec 개요 및 활용

  • 1. Word2Vec - SMD 분석서비스에 기반하여 이찬희 2016. 12. 16
  • 2. 1위: 엄마. 아빠 2위: 국가지도자. 전략가 3위: 기업 CEO 4위: 교사 5위: 상담원 ☞ 사람 고유의 표현수단이 중요하게 사용되는 직업
  • 4. 사람의 표현수단을 데이터화 시키려는 노력에는 어떤 것이 있을까?
  • 5. 컴퓨터가 어떻게 언어를 인식할 수 있을까? 표정, 음성 -> 감정이 담긴 표정들과 비교 동작 -> 하드웨어의 인식 언어 -> *벡터공간과 개별 벡터*
  • 6. *Word Embedding* 단어를 표현하는데 드는 벡터공간보다 보다 저차원의 벡터공간으로 표현하는 방법을 총칭
  • 7. Word Embedding의 구현방법 Co-occurrence matrix Probabilistic model Neural networks Word Embedding의 구현방법 Co-occurrence matrix Probabilistic model Neural networks ☞ Word2Vec
  • 8. Word Embedding 구현 알고리즘에 사용되는 기본 가정 Distributional Hypothesis 유사한 분포를 가지는 단어는 유사한 의미를 가진다
  • 9. Word2Vec • Google의 Tomas Mikolov가 이끄는 연구팀이 개발 • Neural Network 기반 Machine Learning 분석모델 • 단어의 등장 분포를 통해 단어의 의미를 벡터로 변환 • 모델을 생성하는 두 가지 알고리즘을 사용할 수 있음 • CBOW, Skip-gram
  • 10. Word2Vec이 제시한 두 가지 알고리즘 : CBOW(Continuous Bag-of-Words) vs. Skip-gram < Skip-gram >< CBOW > 多 1 1 多
  • 11. Word2Vec이 제시한 두 가지 알고리즘 - 예제 : CBOW(Continuous Bag-of-Words) vs. Skip-gram < CBOW > • 주변 단어를 통해 중간에 어떤 단어가 나올지 확 률적 유추를 하는 알고리즘 < Skip-gram > • 한 단어의 주변에 어떤 단어들이 나올지 확률적 유추를 하는 알고리즘
  • 12. Word2Vec이 제시한 두 가지 알고리즘 - 성능평가 : CBOW(Continuous Bag-of-Words) vs. Skip-gram 다른 Neural Network 기반 Word Embedding 알고리즘 다른 알고리즘에 비해 Word2Vec 알고리즘들의 성능이 좋았고 Word2Vec의 두 알고리즘 내에서 는 Skip-gram 알고리즘이 문법적, 의미적 면에서 성능이 더 좋았음
  • 13. Source Data : Buzzword Data in SMD(Social Media Data) Analysis Service 수집기 형태소분석 감성분석 Buzzword Sentimental Score Buzzword Summary Sentimental Summary 언론사 SNS 뉴스 증권 커뮤니티
  • 14.
  • 15. Source Data : Buzzword in SMD(Social Media Data) Analysis Service 수집기 형태소분석 감성분석 Buzzword Sentimental Score Buzzword Summary Sentimental Summary 언론사 SNS 뉴스 증권 커뮤니티 삼성전자, 2015년 4분기 실적발표 … 4분기는 CE부문을 중심으 로 매출은 다소 증가했지만, …, 부품사업을 중심으로 영업 이익이 감소했다. 삼성전자, 2015년, 4분기, 실 적발표 4분기, 는, CE부문, 을, 중심, 으로, 매출, 은, 다소, 증가하다 + <과거형>, 만, 부품사업, 을, 중심, 으로, 영업이익, 이, 감소하다 + <과 거형> 삼성전자, 2015년, 4분기, 실 적발표 4분기, 는, CE부문, 을, 중심, 으로, 매출, 은, 다소, 증가하다 + <과거형>, 만, 부품사업, 을, 중심, 으로, 영 업이익, 이, 감소하다 + <과거 형> 삼성전자, 2015년, 4분기, 실 적발표 4분기, 는, CE부문, 을, 중심, 으로, 매출, 은, 다소, 증가하다 + <과거형>, 만, 부품사업, 을, 중심, 으로, 영업이익, 이, 감소하다 + <과 거형> 삼성전자, 2015년, 4분기, 실 적발표 4분기, 는, CE부문, 을, 중심, 으로, 매출, 은, 다소, 증가하다 + <과거형>, 만, 부품사업, 을, 중심, 으로, 영업이익, 이, 감소하다 + <과 거형> Buzzword WordCount 2015년 1 4분기 2 실적발표 1 … 매출 부품사업 1 영업이익 1 Pattern Sent Score CE부문 + 매출 + 증가하다 +1 부품사업 + 영업이익 + 감소하다 -1 삼성전자, 2015년, 4분기, 실 적발표 4분기, 는, CE부문, 을, 중심, 으로, 매출, 은, 다소, 증가하다 + <과거형>, 만, 부품사업, 을, 중심, 으로, 영 업이익, 이, 감소하다 + <과거 형> 삼성전자, 2015년, 4분기, 실 적발표 4분기, 는, CE부문, 을, 중심, 으로, 매출, 은, 다소, 증가하다 + <과거형>, 만, 부품사업, 을, 중심, 으로, 영업이익, 이, 감소하다 + <과 거형> ※ 이 데이터를 사용
  • 16. Word2Vec 활용 • 활용한 기술 • 단어의 의미를 벡터로 변환: Word2Vec • 벡터의 클러스터링: K-means 알고리즘 • 사용한 Python 패키지 • 'gensim': 문서 내의 시맨틱을 추출하기 위한 다양한 기능을 제공하는 Python 라이브러리 • 'sklearn': K-means 알고리즘을 사용하기 위한 패키지 • 'tkinter': Python GUI 지원 패키지
  • 17. Word2Vec 활용과정 1. Buzzword의 등장 순서 원복 2. Word2Vec 모델 구축 3. 클러스터링 알고리즘 적용 4. UI 붙이기
  • 18. 결과 1. 관련어 검색 • 주어진 단어에 대한 관련단어 검색기능 • 여러 단어를 제공할 수록 사용자가 원하는 결과를 제공할 확률이 높아짐 • 단순히 같은 의미를 가지는 단어만 제공하는 것보다 반의어를 함께 제공할 때 성능이 더 좋음
  • 19. 결과 1. 관련어 검색 - 단어 필터링 기존 상위 버즈워드 주제에 따른 필터링 목록 생성 필터링 이후의 버즈워드 시점 관련 단어집합 문서 특성상 고정적으로 들어가는 단어집합 일반적으로 들어가는 명사집합
  • 20. 결과 2. 단어 클러스터링 • 벡터화된 단어를 클러스터링 • 클러스터링 알고리즘에 따라 결과가 달라짐 • 많은 단어들을 소수의 클러스터화를 통해 개별 의미가 아닌 Context를 찾 아낼 수 있음 : 즉, 사용자의 이해에 도움
  • 21. 결과 2. 단어 클러스터링 - 버즈워드 클러스터링 12/14 13:00 전체시장 버즈워드 TOP 50 너무 많은 단어들이 등장하기 때문에, 단어집합이 뜻하는 의미를 사용자가 직관적으로 이해하기 쉽지 않음
  • 22. 결과 2. 단어 클러스터링 - 버즈워드 클러스터링 많은 단어를 의미별로 묶어 소수의 클러스터로 보여줌으로써, 사용자의 이해에 보다 도움을 줄 수 있음

Editor's Notes

  1. http://blog.naver.com/wnchany/220672207131
  2. 사실 사람을 비롯한 살아있는 것들이 할 수 있는 것들을 데이터, 컴퓨터가 인식할 수 있게 바꾸는 노력들이 활발히 이루어지고 있다 각 섹션에 기술의 이름을 적을 것