Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Word2Vec 개요 및 활용

Word Embedding 알고리즘 중 하나인 Word2Vec의 간단한 개요와 (Word2Vec 결과 자체에 한정된 단순) 활용 사례를 소개

  • Be the first to comment

Word2Vec 개요 및 활용

  1. 1. Word2Vec - SMD 분석서비스에 기반하여 이찬희 2016. 12. 16
  2. 2. 1위: 엄마. 아빠 2위: 국가지도자. 전략가 3위: 기업 CEO 4위: 교사 5위: 상담원 ☞ 사람 고유의 표현수단이 중요하게 사용되는 직업
  3. 3. 사람 고유의 표현수단 표정 행동 언어
  4. 4. 사람의 표현수단을 데이터화 시키려는 노력에는 어떤 것이 있을까?
  5. 5. 컴퓨터가 어떻게 언어를 인식할 수 있을까? 표정, 음성 -> 감정이 담긴 표정들과 비교 동작 -> 하드웨어의 인식 언어 -> *벡터공간과 개별 벡터*
  6. 6. *Word Embedding* 단어를 표현하는데 드는 벡터공간보다 보다 저차원의 벡터공간으로 표현하는 방법을 총칭
  7. 7. Word Embedding의 구현방법 Co-occurrence matrix Probabilistic model Neural networks Word Embedding의 구현방법 Co-occurrence matrix Probabilistic model Neural networks ☞ Word2Vec
  8. 8. Word Embedding 구현 알고리즘에 사용되는 기본 가정 Distributional Hypothesis 유사한 분포를 가지는 단어는 유사한 의미를 가진다
  9. 9. Word2Vec • Google의 Tomas Mikolov가 이끄는 연구팀이 개발 • Neural Network 기반 Machine Learning 분석모델 • 단어의 등장 분포를 통해 단어의 의미를 벡터로 변환 • 모델을 생성하는 두 가지 알고리즘을 사용할 수 있음 • CBOW, Skip-gram
  10. 10. Word2Vec이 제시한 두 가지 알고리즘 : CBOW(Continuous Bag-of-Words) vs. Skip-gram < Skip-gram >< CBOW > 多 1 1 多
  11. 11. Word2Vec이 제시한 두 가지 알고리즘 - 예제 : CBOW(Continuous Bag-of-Words) vs. Skip-gram < CBOW > • 주변 단어를 통해 중간에 어떤 단어가 나올지 확 률적 유추를 하는 알고리즘 < Skip-gram > • 한 단어의 주변에 어떤 단어들이 나올지 확률적 유추를 하는 알고리즘
  12. 12. Word2Vec이 제시한 두 가지 알고리즘 - 성능평가 : CBOW(Continuous Bag-of-Words) vs. Skip-gram 다른 Neural Network 기반 Word Embedding 알고리즘 다른 알고리즘에 비해 Word2Vec 알고리즘들의 성능이 좋았고 Word2Vec의 두 알고리즘 내에서 는 Skip-gram 알고리즘이 문법적, 의미적 면에서 성능이 더 좋았음
  13. 13. Source Data : Buzzword Data in SMD(Social Media Data) Analysis Service 수집기 형태소분석 감성분석 Buzzword Sentimental Score Buzzword Summary Sentimental Summary 언론사 SNS 뉴스 증권 커뮤니티
  14. 14. Source Data : Buzzword in SMD(Social Media Data) Analysis Service 수집기 형태소분석 감성분석 Buzzword Sentimental Score Buzzword Summary Sentimental Summary 언론사 SNS 뉴스 증권 커뮤니티 삼성전자, 2015년 4분기 실적발표 … 4분기는 CE부문을 중심으 로 매출은 다소 증가했지만, …, 부품사업을 중심으로 영업 이익이 감소했다. 삼성전자, 2015년, 4분기, 실 적발표 4분기, 는, CE부문, 을, 중심, 으로, 매출, 은, 다소, 증가하다 + <과거형>, 만, 부품사업, 을, 중심, 으로, 영업이익, 이, 감소하다 + <과 거형> 삼성전자, 2015년, 4분기, 실 적발표 4분기, 는, CE부문, 을, 중심, 으로, 매출, 은, 다소, 증가하다 + <과거형>, 만, 부품사업, 을, 중심, 으로, 영 업이익, 이, 감소하다 + <과거 형> 삼성전자, 2015년, 4분기, 실 적발표 4분기, 는, CE부문, 을, 중심, 으로, 매출, 은, 다소, 증가하다 + <과거형>, 만, 부품사업, 을, 중심, 으로, 영업이익, 이, 감소하다 + <과 거형> 삼성전자, 2015년, 4분기, 실 적발표 4분기, 는, CE부문, 을, 중심, 으로, 매출, 은, 다소, 증가하다 + <과거형>, 만, 부품사업, 을, 중심, 으로, 영업이익, 이, 감소하다 + <과 거형> Buzzword WordCount 2015년 1 4분기 2 실적발표 1 … 매출 부품사업 1 영업이익 1 Pattern Sent Score CE부문 + 매출 + 증가하다 +1 부품사업 + 영업이익 + 감소하다 -1 삼성전자, 2015년, 4분기, 실 적발표 4분기, 는, CE부문, 을, 중심, 으로, 매출, 은, 다소, 증가하다 + <과거형>, 만, 부품사업, 을, 중심, 으로, 영 업이익, 이, 감소하다 + <과거 형> 삼성전자, 2015년, 4분기, 실 적발표 4분기, 는, CE부문, 을, 중심, 으로, 매출, 은, 다소, 증가하다 + <과거형>, 만, 부품사업, 을, 중심, 으로, 영업이익, 이, 감소하다 + <과 거형> ※ 이 데이터를 사용
  15. 15. Word2Vec 활용 • 활용한 기술 • 단어의 의미를 벡터로 변환: Word2Vec • 벡터의 클러스터링: K-means 알고리즘 • 사용한 Python 패키지 • 'gensim': 문서 내의 시맨틱을 추출하기 위한 다양한 기능을 제공하는 Python 라이브러리 • 'sklearn': K-means 알고리즘을 사용하기 위한 패키지 • 'tkinter': Python GUI 지원 패키지
  16. 16. Word2Vec 활용과정 1. Buzzword의 등장 순서 원복 2. Word2Vec 모델 구축 3. 클러스터링 알고리즘 적용 4. UI 붙이기
  17. 17. 결과 1. 관련어 검색 • 주어진 단어에 대한 관련단어 검색기능 • 여러 단어를 제공할 수록 사용자가 원하는 결과를 제공할 확률이 높아짐 • 단순히 같은 의미를 가지는 단어만 제공하는 것보다 반의어를 함께 제공할 때 성능이 더 좋음
  18. 18. 결과 1. 관련어 검색 - 단어 필터링 기존 상위 버즈워드 주제에 따른 필터링 목록 생성 필터링 이후의 버즈워드 시점 관련 단어집합 문서 특성상 고정적으로 들어가는 단어집합 일반적으로 들어가는 명사집합
  19. 19. 결과 2. 단어 클러스터링 • 벡터화된 단어를 클러스터링 • 클러스터링 알고리즘에 따라 결과가 달라짐 • 많은 단어들을 소수의 클러스터화를 통해 개별 의미가 아닌 Context를 찾 아낼 수 있음 : 즉, 사용자의 이해에 도움
  20. 20. 결과 2. 단어 클러스터링 - 버즈워드 클러스터링 12/14 13:00 전체시장 버즈워드 TOP 50 너무 많은 단어들이 등장하기 때문에, 단어집합이 뜻하는 의미를 사용자가 직관적으로 이해하기 쉽지 않음
  21. 21. 결과 2. 단어 클러스터링 - 버즈워드 클러스터링 많은 단어를 의미별로 묶어 소수의 클러스터로 보여줌으로써, 사용자의 이해에 보다 도움을 줄 수 있음

×