2. 공감세미나발표자
김흥래 (Naver Business Platform)
자바카페 커뮤니티의 운영진이다.
심심할 틈 없이 신기술이 쏟아지는 IT와 사랑에 빠진 개발자로,
개발자간의 소통과 교류를 즐긴다.
현재 네이버 비즈니스 플랫폼에서 다양한 서비스를 개발하고 있다.
hrkim3468@gmail.com
3. 공감세미나형태소
예) 가방
‘가‘와 ‘방’으로 나누면 본래의 의미를 잃어버리므로 하나의 형태소이다.
의미를 가지는 가장 작은 단위를 “형태소”라 한다.
예) 책가방, 돈가방
각각 [‘책’, ‘가방’], [‘돈’, ‘가방’]으로 나눠도 각각 본래의 의미를 가진다.
이는 각각 2개의 형태소로 나눌 수 있다.
9. 공감세미나한국어의 형태론적 특성
예) like (명사/동사/형용사/전차사/접속사)
I don't like to study English.
영어는 단어의 중의성이 큰 반면
어절 분리의 문제가 없다.
10. 공감세미나한국어의 형태론적 특성
예) ‘감기는’
감기(명사) + 는(조사)
감기(동사) + 는(어말어미)
감(동사) + 기 (명사형어미) + 는(조사)
한국어는 품사의 중의성은 적은 반면
어절 유형에 따른 형태소 분리가 문제이다.
많은 사람들이 겨울에 감기에 걸려요.
테이프가 앞으로 감기 재생 모드입니다.
피곤한 두 눈을 감기 전에, 그는 방을 둘러보았다.
어떤 유형을 우선순위로 사용하느냐에 따라
한국어 형태소 분석기의 성능이 좌우된다.
11. 공감세미나한국어 말뭉치
21세기 세종 계획은 1997년에 그 계획이 수립되어
1998년부터 2007년까지 10년 동안 시행
대부분의 한글 형태소 분석기들이 사용하고 있는 사전이
여기서 파생됨
https://ithub.korean.go.kr/user/corpus/corpusSearchManager.do
30. 공감세미나한글 형태소 분석기 (Nori)
Lucene에서 제공하는 공식 한국어 형태소 분석기
https://github.com/apache/lucene-solr/tree/master/lucene/analysis/nori
https://www.elastic.co/kr/blog/nori-the-official-elasticsearch-plugin-for-korean-language-analysis
31. 공감세미나한글 형태소 분석기 (Nori)
설치 및 제거
1) 설치
bin/elasticsearch-plugin install analysis-nori
2) 제거
bin/elasticsearch-plugin remove analysis-nori