SlideShare a Scribd company logo
1 of 49
Download to read offline
Daum검색, 50분동안살펴보기숭실대학교컴퓨터학부세미나 
민병국검색SU 검색서비스개발팀<maxmin@daumcorp.com>
숭실대컴퓨터학부세미나 – Daum검색 튜토리얼 < 2 > 
내용 
 
Daum 소개 
 
Daum검색둘러보기(vs Naver검색) 
 
검색기술튜토리얼 
 
정보검색 
 
검색랭킹/ 키워드연관성/ 스팸점수/ 클릭점수 
 
형태소분석/ 철자교정/ 검색어추천/ 띄어쓰기 
 
자동태깅/ 오피니언마이닝 
 
스마트앤써/ Content Service Mapper 
 
카테고리분류기 
 
검색트렌드/ 관련검색어/ 디렉토리검색 
 
이미지검색 
 
Q&A
숭실대컴퓨터학부세미나 – Daum검색 튜토리얼 < 3 > 
Daum 소개 
 
About Daum 
 
http://info.daum.net/Daum/index.html 
 
http://info.daum.net/Daum/info/companySituation.do 
 
Daum 기업문화 
 
http://recruit.daum.net/DaumRecruit/campaign/cul/cul01.html 
 
제주GMC 혜택 
 
http://recruit.daum.net/DaumRecruit/campaign/well/well01.html 
 
Daum&Lycos 개발자컨퍼런스 
 
http://devcon.daum.net/conference2007.html 
 
http://blog.daum.net/daumcomm 
 
Daum 사회공헌 
 
http://hyphen.daum.net/ 
 
http://hyphen.daum.net/campaign/ 
 
http://hyphen.daum.net/divide/ 
 
Daum검색공식블로그 
 
http://blog.daum.net/daumsearch/
숭실대컴퓨터학부세미나 – Daum검색 튜토리얼 < 4 > 
Daum검색둘러보기(1) 
 
이미지검색 
 
양파<중의어,피드백> 
 
Daum http://search.daum.net/search?nil_suggest=btn&nil_ch=&rtupcoll=&w=img&m=&lpp=&q=%BE%E7%C6%C4 
 
앰씨몽<동의어사전> 
 
Naver http://image.search.naver.com/search.naver?sm=tab_hty&where=image&query=%BE%DA%BE%BE%B8%F9&x=0&y=0 
 
Daum http://search.daum.net/search?nil_suggest=btn&nil_ch=&rtupcoll=&w=img&m=&lpp=16&q=%BE%DA% BE%BE%B8%F9 
 
부동산검색 
 
도곡동삼성래미안(or 도곡동삼성레미안) 
 
Daum http://search.daum.net/search?nil_suggest=btn&nil_ch=&rtupcoll=&w=tot&m=&lpp=&q=%B5%B5%B0% EE%B5%BF%BB%EF%BC%BA%B7%A1%B9%CC%BE%C8 
 
lg개포자이아파트 
 
Daum http://search.daum.net/search?nil_suggest=btn&nil_ch=&rtupcoll=&w=tot&m=&lpp=&q=lg%B0%B3%C6%F7%C0%DA%C0%CC+%BE%C6%C6%C4%C6%AE
숭실대컴퓨터학부세미나 – Daum검색 튜토리얼 < 5 > 
Daum검색둘러보기(2) 
 
지식검색 
 
핸드폰이물에빠졌을때어떻게해요 
 
Daumhttp://search.daum.net/search?nil_suggest=btn&nil_ch=&rtupcoll=&w=knowledge&m=&lpp=&q=%C7%DA%B5%E5%C6%F9%C0%CC+%B9%B0%BF%A1+%BA%FC%C1%B3%C0%BB%B6%A7+%BE%EE%B6%BB%B0%D4+%C7%D8%BF%E4 
 
Naverhttp://kin.search.naver.com/search.naver?where=kin&query=%C7%DA%B5%E5%C6%F9%C0%CC%20%B9%B0%BF%A1%20%BA%FC%C1%B3%C0%BB%B6%A7%20%BE%EE%B6%BB%B0%D4%20%C7%D8%BF%E4&sm=tab_nmr 
 
니콜키드맨 
 
Daumhttp://search.daum.net/search?nil_suggest=btn&nil_ch=&rtupcoll=&w=knowledge&m=&lpp=10&q=%B4%CF%C4%DD+%C5%B0%B5%E5%B8%C7 
 
Naverhttp://kin.search.naver.com/search.naver?where=kin&query=%B4%CF%C4%DD%20%C5%B0%B5%E5%B8%C7&sm=tab_nmr
숭실대컴퓨터학부세미나 – Daum검색 튜토리얼 < 6 > 
Daum검색둘러보기(3) 
 
인물검색 
 
공지영 
 
Daumhttp://search.daum.net/search?nil_suggest=btn&nil_ch=&rtupcoll=&w=tot&m=&lpp=&q=% B0%F8%C1%F6%BF%B5 
 
Naverhttp://search.naver.com/search.naver?where=nexearch&query=%B0%F8%C1%F6%BF%B5&x=0&y=0&sm=top_hty&frm=t1 
 
스팸처리 
 
오션파라다이스 
 
Daumhttp://search.daum.net/search?w=tot&q=%BF%C0%BC%C7%C6%C4%B6%F3%B4%D9%C0%CC%BD%BA 
 
Naverhttp://search.naver.com/search.naver?where=nexearch&sm=tab_jum&query=%uC624% uC158%uD30C%uB77C%uB2E4%uC774%uC2A4
검색기술튜토리얼정보검색,키워드연관성,스팸분류,클릭정제, 형태소분석,키워드추천,스마트앤써,연관검색어등…
숭실대컴퓨터학부세미나 – Daum검색 튜토리얼 < 8 > 
통합검색과컬렉션검색 
 
사용자 
 
통합검색 
 
서비스섹션 
볼륨 
컬렉션 
Inlink
숭실대컴퓨터학부세미나 – Daum검색 튜토리얼 < 9 > 
정보검색–(예) 카페검색 
색인대상 
조건검색대상 
카페데이터 
600만개
숭실대컴퓨터학부세미나 – Daum검색 튜토리얼 < 10 > 
정보검색과데이터마이닝 
사용자 
Scoring(Ranking) 
QueryProcessor 
Filtering 
IndexFile 
검색엔진 
원본문서 
WebLog 
Spam점수, 카테고리 
TF*IDF, 자동태깅 
Click점수, 
인기도 
유사/동의어문서확장 
외부문서, 
외부지표 
외부사이트DB 
NLP 
QE 
데이터변환/통합 
데이터추출
숭실대컴퓨터학부세미나 – Daum검색 튜토리얼 < 11 > 
이효리카페를찾아요~♥ 
나, 이효리 
나도, 이효리 
나돈데.. 
누가맞을까? ㅋㅋ 
넌누구? 
내가진짜이효리 
이효리카페를찾고있어요~ 
난옷가게인데.. 
성형수술상담해요 
강호동카페관심없수? 
스펙(^^) # Filtering: 카페명or 카페키워드# Scoring: 카페랭킹+ 클릭점수-스팸점수
숭실대컴퓨터학부세미나 – Daum검색 튜토리얼 < 12 > 
DataMining 
카페내키워드간연관성: 상호정보량(MI) 
이효리 
핑사모(핑클을사랑하는사람들의모임) 
옷파는남정네~♥ 
이효리 
핑클 
이진 
옥주현 
핑키 
이효리 
지마켓 
코디 
공동구매 
보세의류 
0.7665 
0.2271 
연관성평균 
기준단어 
이웃단어 
연관도(MI) 
이효리 
핑클 
1.0000 
이효리 
성유리 
0.9957 
이효리 
옥주현 
0.9159 
이효리 
이진 
0.8835 
이효리 
효리 
0.8395 
이효리 
핑키 
0.6120 
… 
이효리 
코디 
0.3796 
이효리 
지마켓 
0.2944 
이효리 
보세의류 
0.0747 
이효리 
공동구매 
0.0495 
연관성평균
숭실대컴퓨터학부세미나 – Daum검색 튜토리얼 < 13 > 
상호정보량(MI)의개념 
 
문서셋 
 
전체문서수: |D| = 10 
 
단어셋 
 
초록A: df(A) = 9 
 
빨강B: df(B) = 6 
 
파랑C: df(C) = 5 
 
단어페어셋 
 
A ∩ B: df(A,B) = 5 
 
A ∩ C: df(A,C) = 4 
 
B ∩C: df(B,C) = 1 
단어간동시출현분포: 단어간연관성 
A 
C 
B 
5 
4 
1 
고양이 
개 
쥐
숭실대컴퓨터학부세미나 – Daum검색 튜토리얼 < 14 > 
어뷰징키워드의Negative 가중치 
 
어뷰징키워드 
 
검색상위에노출시키기위해카페와관련성도없으면서의도적으로입력된키워드로대부분쿼리빈도가높은인기키워드 
 
Negative 가중치의필요성 
 
어뷰징용도로흔히쓰이는키워드의경우잘못된또는불분명한연관성이추출됨 
 
성인키워드또는도박등불건전키워드인경우강제적인랭킹하향조치 
소녀시대팬카페 
어뷰징키워드에쿼리매칭 
최대값꼭지점 
최저값꼭지점 
소녀시대 
서현 
유리 
제시카 
티파니 
윤아 
스타크래프트 
단어연관그래프(Word Relation Graph) 
써니 
소녀
숭실대컴퓨터학부세미나 – Daum검색 튜토리얼 < 15 > 
키워드연관성적용전 
※ 본데이터는2008.4.1 실험결과이며, 기존검색의첫페이지를키워드연관도기준만으로재정렬한것입니다. (카페랭킹,클릭점수등고려되지않았음) 
순위 
카페명/키워드 
CK연관도 
키워드 
1 
★효리만큼예뻐지자★ ------------------- 패션,코디,화장,헤어스타일, 이효리,효리만큼이뻐지자, 다이어트,핑클,스타일,베스트드레서 
0.8142 
코디 
0.8004 
패션 
0.7761 
스타일 
0.7131 
헤어스타일 
0.6921 
베스트드레서 
0.6851 
화장 
0.6681 
다이어트 
0.6019 
이효리 
0.4442 
효리만큼이뻐지자 
0.3937 
핑클 
2 
효리투게더------------------- 이효리,효리,사랑한다면이들처럼,톡톡톡,잔소리,캘빈클라인,애니콜,세잎클로버, 횰투,효리투게더 
0.5015 
사랑한다면이들처럼 
0.4614 
잔소리 
0.4500 
이효리 
0.4470 
효리 
0.4253 
애니콜 
0.3365 
톡톡톡 
0.3130 
캘빈클라인 
0.2757 
세잎클로버 
3 
효리사랑------------------- 이효리,효리,핑클,비달사순, 블랙빈테라티,이자녹스,애니콜,투싼,사랑한다면이들처럼 
0.6409 
사랑한다면이들처럼 
0.5477 
효리 
0.5301 
이효리 
0.4866 
핑클 
0.4793 
애니콜 
0.4375 
이자녹스 
0.3005 
비달사순 
0.2917 
투싼 
4 
핑사모(핑클을사랑하는사람들의모임) ------------------- 핑사모,핑클,이효리,옥주현, 성유리,이진,펄레드,핑키, 팬카페,국내가수 
0.7740 
펄레드 
0.7717 
핑클 
0.7666 
이효리 
0.7523 
옥주현 
0.7507 
핑키 
0.7264 
이진 
0.7223 
성유리 
0.6827 
핑사모 
0.6475 
팬카페 
0.5701 
국내가수 
5 
★가슴미인★ ------------------- 가슴,여자,피부,속옷,결혼, 성형,다이어트,요가,이효리, 몸짱 
0.6961 
가슴 
0.6855 
다이어트 
0.6428 
피부 
0.6376 
성형 
0.6174 
몸짱 
0.5493 
여자 
0.5426 
요가 
0.5187 
결혼 
0.4575 
속옷 
0.4412 
이효리 
순위 
카페명/키워드 
CK연관도 
키워드 
6 
★맘대루씨~부리자!!^^ ★ ------------------- 꽃미녀,누드풍경,장나라,이효리,전지현,누,성,맘대루,맘대로 
0.4708 
맘대루 
0.3838 
이효리 
0.3795 
전지현 
0.3730 
장나라 
0.3515 
맘대로 
0.3348 
꽃미녀 
7 
┃-미스김홈페이지-┃ ------------------- 비키니소녀영상,이효리,한채영,최신영화,진짜디카미인사진만땅,드라마,송혜교,동영상, 레이싱걸,미인미남얼짱몸짱사진 
0.5050 
드라마 
0.4751 
동영상 
0.3734 
레이싱걸 
0.3729 
이효리 
0.3634 
최신영화 
0.3607 
송혜교 
0.3095 
한채영 
8 
뮤비앤라이브------------------- 뮤직비디오,뮤비,가요,라이브, 동영상,원더걸스,이효리,아이비,비,정지훈 
0.6259 
뮤직비디오 
0.6036 
뮤비 
0.5690 
가요 
0.5673 
동영상 
0.4738 
이효리 
0.4641 
라이브 
0.4016 
원더걸스 
0.3748 
정지훈 
0.3627 
아이비 
9 
HJJY+ 핑클99.9%파' ------------------- 이효리,옥주현,이진,성유리,999,핑클,핑클짱만외치는, 구구쩜구,핑클짱,효리주현진유리 
0.4964 
이효리 
0.4892 
옥주현 
0.4808 
핑클 
0.4786 
성유리 
0.4778 
이진 
0.4098 
핑클짱 
10 
CAR BOX------------------- 박스카,카박스,비비,cube,carbox,boxcar,이효리,수입차,일본차,bb 
0.4236 
비비 
0.4009 
수입차 
0.3947 
박스카 
0.3801 
bb 
0.3787 
일본차 
0.3085 
cube 
0.2916 
이효리
숭실대컴퓨터학부세미나 – Daum검색 튜토리얼 < 16 > 
키워드연관성적용후 
순위 
카페명/키워드 
CK연관도 
키워드 
1 
핑사모(핑클을 
사랑하는사람들의모임) 
------------------- 
핑사모,핑클,이효리,옥주현, 
유리,이진,펄레드,핑키, 
팬카페,국내가수 
0.7740 
펄레드 
0.7717 
핑클 
0.7666 
이효리 
0.7523 
옥주현 
0.7507 
핑키 
0.7264 
이진 
0.7223 
성유리 
0.6827 
핑사모 
0.6475 
팬카페 
0.5701 
국내가수 
2 
★효리만큼예뻐지자★ 
------------------- 
패션,코디,화장,헤어스타일, 
이효리,효리만큼이뻐지자, 
다이어트,핑클,스타일, 
베스트드레서 
0.8142 
코디 
0.8004 
패션 
0.7761 
스타일 
0.7131 
헤어스타일 
0.6921 
베스트드레서 
0.6851 
화장 
0.6681 
다이어트 
0.6019 
이효리 
0.4442 
효리만큼이뻐지자 
0.3937 
핑클 
3 
효리사랑 
------------------- 
이효리,효리,핑클,비달사순, 
블랙빈테라티,이자녹스, 
애니콜,투싼, 
사랑한다면이들처럼 
0.6409 
사랑한다면이들처럼 
0.5477 
효리 
0.5301 
이효리 
0.4866 
핑클 
0.4793 
애니콜 
0.4375 
이자녹스 
0.3005 
비달사순 
0.2917 
투싼 
4 
HJJY+ 핑클99.9%파' 
------------------- 
이효리,옥주현,이진,성유리, 
999,핑클,핑클짱만외치는, 
구구쩜구,핑클짱, 
효리주현진유리 
0.4964 
이효리 
0.4892 
옥주현 
0.4808 
핑클 
0.4786 
성유리 
0.4778 
이진 
0.4098 
핑클짱 
5 
뮤비앤라이브 
------------------- 
뮤직비디오,뮤비,가요,라이브, 
동영상,원더걸스,이효리, 
아이비,비,정지훈 
0.6259 
뮤직비디오 
0.6036 
뮤비 
0.5690 
가요 
0.5673 
동영상 
0.4738 
이효리 
0.4641 
라이브 
0.4016 
원더걸스 
0.3748 
정지훈 
0.3627 
아이비 
순위 
카페명/키워드 
CK연관도 
키워드 
6 
효리투게더 
------------------- 
이효리,효리, 
사랑한다면이들처럼,톡톡톡, 
잔소리,캘빈클라인,애니콜, 
세잎클로버,횰투,효리투게더 
0.5015 
사랑한다면이들처럼 
0.4614 
잔소리 
0.4500 
이효리 
0.4470 
효리 
0.4253 
애니콜 
0.3365 
톡톡톡 
0.3130 
캘빈클라인 
0.2757 
세잎클로버 
7 
★가슴미인★ 
------------------- 
가슴,여자,피부,속옷,결혼, 
성형,다이어트,요가,이효리, 
몸짱 
0.6961 
가슴 
0.6855 
다이어트 
0.6428 
피부 
0.6376 
성형 
0.6174 
몸짱 
0.5493 
여자 
0.5426 
요가 
0.5187 
결혼 
0.4575 
속옷 
0.4412 
이효리 
8 
★맘대루씨~부리자!!^^ ★ 
------------------- 
꽃미녀,누드풍경,장나라, 
이효리,전지현,누,성,맘대루, 
맘대로 
0.4708 
맘대루 
0.3838 
이효리 
0.3795 
전지현 
0.3730 
장나라 
0.3515 
맘대로 
0.3348 
꽃미녀 
9 
┃-미스김홈페이지-┃ 
------------------- 
비키니소녀영상,이효리,한채영, 
최신영화,진짜디카미인사진만땅, 
드라마,송혜교,동영상,레이싱걸, 
미인미남얼짱몸짱사진 
0.5050 
드라마 
0.4751 
동영상 
0.3734 
레이싱걸 
0.3729 
이효리 
0.3634 
최신영화 
0.3607 
송혜교 
0.3095 
한채영 
10 
CAR BOX 
------------------- 
박스카,카박스,비비,cube, 
carbox,boxcar,이효리,수입차, 
일본차,bb 
0.4236 
비비 
0.4009 
수입차 
0.3947 
박스카 
0.3801 
bb 
0.3787 
일본차 
0.3085 
cube 
0.2916 
이효리 
※ 본데이터는2008.4.1 실험결과이며, 기존검색의첫페이지를키워드연관도기준만으로재정렬한것입니다. (카페랭킹,클릭점수등고려되지않았음)
숭실대컴퓨터학부세미나 – Daum검색 튜토리얼 < 17 > 
카페Spam점수 
 
불건전성키워드관련데이터 
 
블라인드카페키워드 
 
야동, 하두리키워드 
 
드라마키워드 
 
판촉키워드 
=> 스팸후보제시, 가중치자동부여 
 
성인키워드 
 
통합검색의성인인증필요키워드 
=> 매뉴얼가중치로입력 
카페키워드 
블라인드카페수 
정상카페수 
머니상 
142 
321 
다시보기 
153 
1,230 
한게임머니 
118 
286 
포커머니 
118 
326 
신화머니 
119 
372 
드라마다시보기 
115 
453 
… 
… 
… 
불건전성카페분류의문제=> 나이브베이지안분류 
정상카페수 
3,846,552 
블라인드카페수 
3,081 
총카페수 
3,849,633 
log2 P(spam|’머니상’) + log2P(spam|’다시보기’) + log2P(spam|’한게임머니’) + log2P(spam|’하두리’) + log2P(spam|’연예인노출’) + log2P(spam|’화상캠’) +… 
? > threshold 
______ SPAM 
SPAM 
True 
False 
Σ 
Spam점수 
log2 P(spam|’머니상’) + log2P(spam|’다시보기’) + log2P(spam|’한게임머니’) + log2P(spam|’하두리’) + log2P(spam|’연예인노출’) + log2P(spam|’화상캠’) +… 
Binomial Model: 스팸카페내출현확률: 정상카페내출현확률
숭실대컴퓨터학부세미나 – Daum검색 튜토리얼 < 18 > 
카페Click점수 
 
Click데이터정제 
 
Click점수의급격한등락폭줄이기 
 
일시적어뷰징제거 
추세를이용한평균필요: 지수이동평균 
9일지수이동평균적용(c = 0.2 ) EMA(지수이동평균)= 전일지수이동평균+ { c ×( 금일클릭수–전일지수이동평균) } ※ c = 2 / (n+1), n은이동평균기간일수 
고의적인클릭or데이터이상의심 
지수이동평균적용
숭실대컴퓨터학부세미나 – Daum검색 튜토리얼 
형태소분석(1/3) 
 
사전탐색방향( 우측) 
 
다음커뮤니케이션에서 
 
STEP 1 : 다음커뮤니케이션>>에서(조사사전) 
 
STEP 2 : ------------->>다음커뮤니케이션(명사사전) 
 
STEP 3 : 다음커뮤니케이션+에서 
 
어절단위분석–가능한모든분석결과 
 
나는학교에간다 
 
나는 
: (N "나") + (j "는“) 
: (V "나") + (e "는“) 
: (V "날") + (e "는") 
 
학교에 
: (N "학교") + (j "에") 
 
간다 
: (V "가") + (e "ㄴ다“) 
: (V "갈") + (e "ㄴ다“)
숭실대컴퓨터학부세미나 – Daum검색 튜토리얼 
형태소분석(2/3) 
나는학교에간다 
하늘을나는새 
POS tagging 
나/대명사 
는/조사 
하늘/일반명사 
을/조사 
새/명사 
새/동사 
시작 
끝 
나/동사 
는/어미 
는/어미 
날/동사 
나/동사 
는/어미 
학교/일반명사 
에/조사 
가/동사 
갈/동사 
ㄴ다/동사 
ㄴ다/어미 
시작 
끝 
날/동사 
는/어미 
는/조사 
나/대명사
숭실대컴퓨터학부세미나 – Daum검색 튜토리얼 
형태소분석(3/3) 
다 
음 
커 
뮤 
니 
케 
이 
션 
에 
서 
명사 
조사 
어절시작 
어절끝 
문법검사 
문법검사 
문법검사
숭실대컴퓨터학부세미나 – Daum검색 튜토리얼 
철자교정(Speller) (1/3) 
 
기반기술: Trie이활용기술 
 
장점: Trie검색한번으로원하는오류범위의단어를빠른속도로검색 
 
단점: 오류범위가넓어질수록검색속도가느려지고불필요한중복검색이발생
숭실대컴퓨터학부세미나 – Daum검색 튜토리얼 
철자교정(Speller) (2/3) 
 
Trie를이용한Fault Counting과오용어사전, 오용패턴이용한spell check 
 
오용어사전: 자주틀리는단어 
 
Ex> aple:: apple 
 
오용패턴사전: 단어의일부분중자주틀리는부분 
 
Ex> tino:: tion 
 
Ex> goverment=> government 
영어speller
숭실대컴퓨터학부세미나 – Daum검색 튜토리얼 
철자교정(Speller) (3/3) 
 
Trie를이용한Fault counting과오류패턴의분석을통한spell check 
 
분석내용 
 
Keyboard상의거리 
 
발음규칙을활용한오류검출 
 
경끼=> 경기( 격음화) 
 
발음규칙을역으로활용한오류검출 
 
사람들이자주틀리는패턴을이용한오류검출 
 
가게부=> 가계부 
 
사이월드=> 싸이월드 
한글speller
숭실대컴퓨터학부세미나 – Daum검색 튜토리얼 
검색어추천(Suggest) (1/4) 
 
기능 
 
기본기능: Prefix | Suffix search 
 
다음 
 
영한변환후(prefix | suffix search ) 
 
ekdma->다음 
 
한영변환후(prefix | suffix search ) 
 
해ㅐ히->googl
숭실대컴퓨터학부세미나 – Daum검색 튜토리얼 
검색어추천(Suggest)(2/4) 
 
일본어SUGGEST 
로마자입력 
한글입력 
일본어입력
숭실대컴퓨터학부세미나 – Daum검색 튜토리얼 
검색어추천(Suggest) (3/4) 
 
중국어SUGGEST 
 
도서검색SUGGEST 
로마자로입력 
한글발음으로입력 
도서검색의중간매칭방식suggest
숭실대컴퓨터학부세미나 – Daum검색 튜토리얼 
검색어추천(Suggest) (4/4) 
 
관련기술: 
 
자소분해, Maxsort, Apache module programming… 
 
주요이슈 
 
자소분해: 
 
초성과종성에동일코드부여 
 
두가지정렬기준(자소단위, 클릭수) 
 
백단데이터구축시에는자소단위로정열 
 
자소단위로정열된데이터를조건에맞게가져와클릭수단위로재정렬 
 
실시간정렬 
 
Max sort algorithm (suggest의경우는quick sort 보다빠르다) 
‘ㄷ’으로시작하는모든결과를가져와서Click Ratio가높은것중상위10개를보여준다
숭실대컴퓨터학부세미나 – Daum검색 튜토리얼 
띄어쓰기(Word Spacing) (1/3) 
 
사전: 
 
Trie 모듈사용, 좌기준최장일치우선 
 
DHA에서사용하는사전은단순화시켜10개내외의사전으로만듦 
 
Replace.dic, pre.dic, back.dic과같은사전추가 
 
기본규칙 
 
규칙1. 동사(용언류)의앞을띄어쓴다: 
 
빵을[SPACE]만드는 
 
규칙2. 조사나어미의뒤를띄어쓴다 
 
공부를[SPACE]하는 
 
규칙3. 명사와명사사이를띄우지않는다: [프로그래밍][언어][이야기] 
 
기본품사 
 
n : 명사류( noun ) 
 
j: 조사류( josa ) 
 
v: 용언류( verb ) 
 
e: 어미류( eomi ) 
 
p: 어절의앞에공백( pre ) 
 
b: 어절의뒤에공백( back ) 
 
t: 어절의앞뒤에공백( pre and back ) 
 
r: 부분기분석사전( replace )
숭실대컴퓨터학부세미나 – Daum검색 튜토리얼 
띄어쓰기(Word Spacing) (2/3) 
 
Ex> 조폭이사랑한여자 
조 
폭(n) 
Push 
이(j) 
사(n) 
Push 
랑 
한(x) 
Fail 
이(j) 
사(n) 
Pop 
이(j) 
사 
랑(h) 
한(v) 
Push 
여 
자(n) 
push 
animation
숭실대컴퓨터학부세미나 – Daum검색 튜토리얼 
띄어쓰기예제 
조 
폭 
랑 
이 
사 
Fail 
한 
여 
자 
명사 
조사 
동사 
명사
숭실대컴퓨터학부세미나 – Daum검색 튜토리얼 
띄어쓰기(Word Spacing)(3/3) 
 
확률: 
 
Corpus에서추출한bi-gram, tri-gram 사용 
 
Bi-gram : 냅가0 0 0 0 0 1 0 0 -( 8 ) 
 
Tri-gram : 가가급23 41 2870 5 -( 4 ) 
 
확률을이용한띄어쓰기 
 
입력: 먹는데이가아파요 
 
먹는데이가아파요 
 
……………………….. 
 
먹는데이가아파요 
 
2n개중최대확률선택
숭실대컴퓨터학부세미나 – Daum검색 튜토리얼 
자동태깅(Auto Tagging) 
 
활용자원 
 
패턴사전(고빈도다어절쿼리) 
 
형태소분석후복합명사합성(word position) 
 
TF/IDF사용 
 
적용 
 
사용자가질문을입력할때해당질문이어느카테고리에해당되는지를추천하기위해질문에서주요키워드(또는Phrase)를추출한다.
숭실대컴퓨터학부세미나 – Daum검색 튜토리얼 
Opinion Mining 이란? 
-어떤topic에대한평가가담겨있는문서를분석해서긍정/부정context를검출 
-검출된context를기반으로긍정/부정분류 
필요한리소스 
-topic 를포함하고있는문서검색시스템: 검색엔진 
-검색된문서가topic에대한평가등을담고있는지판단하는시스템: 정보성필터 
-상위n건의관련문서들에대한Opinion Analysis 시스템 
* 형태소분석기: DHA/HPS2.0 
* Partial parser: tuple추출(topic , feature, predicate, modifier, conjunction) 
* 의미분석기: 추출된tuple에대해의미점수를산정 
* 의미사전: partial parser/의미분석기에필요한의미사전–도메인별로다름 
-분석결과와검색엔진의연동시스템 
긍정부정(Opinion Mining) (1/2)
숭실대컴퓨터학부세미나 – Daum검색 튜토리얼 
긍정부정(Opinion Mining) (2/2)
숭실대컴퓨터학부세미나 – Daum검색 튜토리얼 
스마트앤써(1/2) 
 
목적: 다음검색에서사용하고있는많은DB정보의효과적인활용 
 
기술: 자연언어처리기술과DB자원의효과적인매칭 
 
NLIDB( Natural Language Interface for Database ) 
 
Ex>”박지성이태어난날은” 
 
박지성= feature:name 
 
태어난날= table : birthday 
 
SQL : Select birthdayfrom table where name= ‘박지성’ 
 
정답: 국내축구선수박지성의생일은1981년2월25일입니다.
숭실대컴퓨터학부세미나 – Daum검색 튜토리얼 
스마트앤써(적용) (2/2) 
영화 
음악 
TV 
전체사전 
인물프로필 
영어사전 
시청률
숭실대컴퓨터학부세미나 – Daum검색 튜토리얼 
Contents Service Mapper 
 
What’s CSM(Contents Service Mapper)??? 
 
Contents와서비스를키워드기반으로연결하는시스템. 
 
2008년4월News Contents(미디어다음,금융,웹뉴스)를대상으로개발하여현재금융,영화,로컬에서사용하고있고연내카페와블로그Contents를포함하도록개발중. 
 
Example 
 
금융개편시뉴스Contents를사용하고싶어요!!! 
• 
CSM 사용하지않을경우 
1. 
미디어다음,웹뉴스,금융뉴스담당자를contact 한다. 
2. 
각각의뉴스를수집한다. 
3. 
수집된데이터를분류한다. 
4. 
뉴스Contents를서비스한다. 
• 
CSM 사용할경우. 
1. 
서비스에필요한CSM의API를요청한다. 
2. 
서비스특성에맞는키워드를등록하여분류한다. 
3. 
뉴스Contents를서비스한다. 
 
Benefit 
 
Contents를서비스하기위해서비스별로Contents를수집하고, 분류하는절차와프로세스가생략됨.(시간,인력,시스템Resource 감소) 
 
Contents가많아지고, 요구사항이복잡해질수록더욱효과적인시스템으로발전가능.
숭실대컴퓨터학부세미나 – Daum검색 튜토리얼 
카테고리분류기(Classifier) 
 
쇼핑하우데이터에 
자동분류진행중 
자질사전 
모델학습 
자질추출 
자동분류 
분류모델 
형태소분석기 
불용어사전 
전처리 
모델명사전 
기분류데이터 
미분류데이터 
C1 
C2 
C3 
C4 
Cn 
……
숭실대컴퓨터학부세미나 – Daum검색 튜토리얼 
1. 
검색순위노출-검색횟수순D-1일쿼리를기반으로각카테고리별로인기있는키워드를집계 
- 
순위상승과거데이터의평균과D-1일데이터간의순위변동의Gap을노출2. 검색추이 
- 
해당키워드에대해과거6개월동안의검색빈도를집계3. 관련기사-해당키워드와관련된기사가존재할경우해당시점에태그및제목을노출함으로써관련기사로링크 
• 
검색트렌드란? 
• 
검색트렌드는전날쿼리를기반으로100여개의카테고리대해서검색순위및급등순위를산정하여보여주는서비스 
검색트렌드(1/2)
숭실대컴퓨터학부세미나 – Daum검색 튜토리얼 
4. 성별/세대별/지역별추이 
-해당키워드의성별/세대별/지역별선호정도를파악후노출 
5. 실시간검색어 
-해당카테고리에서실시간인기검색어를산정하여노출 
6. 성별검색어 
-해당카테고리에서성별인기키워드를집계하여노출 
검색트렌드(2/2)
숭실대컴퓨터학부세미나 – Daum검색 튜토리얼 
• 
관련검색어란? 
• 
사용자가입력한전날에대한모든키워드를시간적나열을통해사용자가입력한키워드간의연관도를파악하여고객이검색하는키워드와관련된키워드( by assocationrule)를가이드하는서비스 
관련검색어
숭실대컴퓨터학부세미나 – Daum검색 튜토리얼 
가나다순 
다음랭킹 
디렉토리검색(1/4)
숭실대컴퓨터학부세미나 – Daum검색 튜토리얼 
사이트지표 
디렉토리검색(2/4)
숭실대컴퓨터학부세미나 – Daum검색 튜토리얼 
 
ex:동방신기다음까페 
 
ex:유튜브한국사이트 
성별고객분석 
연령대별고객분석 
유입웹사이트분석 
유출웹사이트분석 
디렉토리검색(3/4) -상세보기
숭실대컴퓨터학부세미나 – Daum검색 튜토리얼 
 
ex: 네이트닷컴www.nate.com의하위사이트*.nate.com등의지표제공 
 
ex: KB국민은행 
하위사이트 
검색엔진별유입검색어 
디렉토리검색(4/4) -상세보기
숭실대컴퓨터학부세미나 – Daum검색 튜토리얼 
이미지검색(1/2) 
47 
 
SIAM (동영상이미지의동시처리) 
 
대용량이미지전처리시스템(썸네일, 성인, 중복) 
 
규모확장이용이함 
 
하루트랜젝션처리량: 천만개 
 
LICH (undead) 
 
집단지성정보를활용한이미지랭킹시스템 
 
서비스적용후CTR 16 % 증가
숭실대컴퓨터학부세미나 – Daum검색 튜토리얼 
이미지검색(2/2) 
유사이미지검색 
이미지의유사성을활용한검색기술 
Thumbnail image 
Animated gif에서상품이미지만검출기술 
Face detection 
이미지내얼굴인식기술 
OCR 
이미지내글자를인식,색인에반영하는기술 
대표색깔인식 
상품의대표색깔인식을통한색깔검색가능하게하는기술 
성인이미지검출 
성인이미지검출기술
숭실대컴퓨터학부세미나 – Daum검색 튜토리얼 < 49 > 
끝 
감사합니다 
감사합니다^^ Q&A

More Related Content

Viewers also liked

04. IT서비스산업 전문가 특강 (테라데이터 장동인 부사장)
04. IT서비스산업 전문가 특강 (테라데이터 장동인 부사장)04. IT서비스산업 전문가 특강 (테라데이터 장동인 부사장)
04. IT서비스산업 전문가 특강 (테라데이터 장동인 부사장)University of Ulsan
 
Service workers 기초 및 활용 (Korean)
Service workers 기초 및 활용 (Korean)Service workers 기초 및 활용 (Korean)
Service workers 기초 및 활용 (Korean)jungkees
 
Hybrid App Platform - HyWAI 3.5
Hybrid App Platform - HyWAI 3.5Hybrid App Platform - HyWAI 3.5
Hybrid App Platform - HyWAI 3.5Jonathan Jeon
 
License Plate Recognition
License Plate RecognitionLicense Plate Recognition
License Plate RecognitionJoon Young Park
 
The elements o u parking system and its advantages-ppt
The elements o u parking system and its advantages-pptThe elements o u parking system and its advantages-ppt
The elements o u parking system and its advantages-pptMyoung Soo Kang
 
03. 한국의 IT서비스산업 (김재균 교수)
03. 한국의 IT서비스산업 (김재균 교수)03. 한국의 IT서비스산업 (김재균 교수)
03. 한국의 IT서비스산업 (김재균 교수)University of Ulsan
 
연구업적 데이터베이스를 활용한 빅데이터 분석시스템 (16 sep2014)
연구업적 데이터베이스를 활용한 빅데이터 분석시스템 (16 sep2014)연구업적 데이터베이스를 활용한 빅데이터 분석시스템 (16 sep2014)
연구업적 데이터베이스를 활용한 빅데이터 분석시스템 (16 sep2014)Han Woo PARK
 
Automated parking system EITO & Global and Mark 2 2010
Automated parking system EITO & Global  and Mark 2  2010Automated parking system EITO & Global  and Mark 2  2010
Automated parking system EITO & Global and Mark 2 2010Mark 2
 
D-spark_Season2 똑똑하고 기특한 모바일 센서(Mobile Sensors)의 세계
D-spark_Season2 똑똑하고 기특한 모바일 센서(Mobile Sensors)의 세계D-spark_Season2 똑똑하고 기특한 모바일 센서(Mobile Sensors)의 세계
D-spark_Season2 똑똑하고 기특한 모바일 센서(Mobile Sensors)의 세계D:rink
 
인포그래픽스 데이터분석과 저널리즘 3장 데이터수집,정제에서 분석까지
인포그래픽스 데이터분석과 저널리즘 3장 데이터수집,정제에서 분석까지인포그래픽스 데이터분석과 저널리즘 3장 데이터수집,정제에서 분석까지
인포그래픽스 데이터분석과 저널리즘 3장 데이터수집,정제에서 분석까지Han Woo PARK
 
Service Design 2015
Service Design 2015Service Design 2015
Service Design 2015Michael Heo
 
차량용 소프트웨어 개발 시 소프트웨어 아키텍처 고려사항
차량용 소프트웨어 개발 시 소프트웨어 아키텍처 고려사항차량용 소프트웨어 개발 시 소프트웨어 아키텍처 고려사항
차량용 소프트웨어 개발 시 소프트웨어 아키텍처 고려사항신승환
 
파킹스퀘어 기업 홍보문서
파킹스퀘어 기업 홍보문서파킹스퀘어 기업 홍보문서
파킹스퀘어 기업 홍보문서startupkorea
 
국내 의료기기 인터페이스 관련의료기관 정보현황의 이해 - 이제관 기술사 -
국내 의료기기 인터페이스 관련의료기관 정보현황의 이해 - 이제관 기술사 -국내 의료기기 인터페이스 관련의료기관 정보현황의 이해 - 이제관 기술사 -
국내 의료기기 인터페이스 관련의료기관 정보현황의 이해 - 이제관 기술사 -제관 이
 

Viewers also liked (15)

04. IT서비스산업 전문가 특강 (테라데이터 장동인 부사장)
04. IT서비스산업 전문가 특강 (테라데이터 장동인 부사장)04. IT서비스산업 전문가 특강 (테라데이터 장동인 부사장)
04. IT서비스산업 전문가 특강 (테라데이터 장동인 부사장)
 
Service workers 기초 및 활용 (Korean)
Service workers 기초 및 활용 (Korean)Service workers 기초 및 활용 (Korean)
Service workers 기초 및 활용 (Korean)
 
Hybrid App Platform - HyWAI 3.5
Hybrid App Platform - HyWAI 3.5Hybrid App Platform - HyWAI 3.5
Hybrid App Platform - HyWAI 3.5
 
License Plate Recognition
License Plate RecognitionLicense Plate Recognition
License Plate Recognition
 
The elements o u parking system and its advantages-ppt
The elements o u parking system and its advantages-pptThe elements o u parking system and its advantages-ppt
The elements o u parking system and its advantages-ppt
 
03. 한국의 IT서비스산업 (김재균 교수)
03. 한국의 IT서비스산업 (김재균 교수)03. 한국의 IT서비스산업 (김재균 교수)
03. 한국의 IT서비스산업 (김재균 교수)
 
Open Data Workshop
Open Data Workshop Open Data Workshop
Open Data Workshop
 
연구업적 데이터베이스를 활용한 빅데이터 분석시스템 (16 sep2014)
연구업적 데이터베이스를 활용한 빅데이터 분석시스템 (16 sep2014)연구업적 데이터베이스를 활용한 빅데이터 분석시스템 (16 sep2014)
연구업적 데이터베이스를 활용한 빅데이터 분석시스템 (16 sep2014)
 
Automated parking system EITO & Global and Mark 2 2010
Automated parking system EITO & Global  and Mark 2  2010Automated parking system EITO & Global  and Mark 2  2010
Automated parking system EITO & Global and Mark 2 2010
 
D-spark_Season2 똑똑하고 기특한 모바일 센서(Mobile Sensors)의 세계
D-spark_Season2 똑똑하고 기특한 모바일 센서(Mobile Sensors)의 세계D-spark_Season2 똑똑하고 기특한 모바일 센서(Mobile Sensors)의 세계
D-spark_Season2 똑똑하고 기특한 모바일 센서(Mobile Sensors)의 세계
 
인포그래픽스 데이터분석과 저널리즘 3장 데이터수집,정제에서 분석까지
인포그래픽스 데이터분석과 저널리즘 3장 데이터수집,정제에서 분석까지인포그래픽스 데이터분석과 저널리즘 3장 데이터수집,정제에서 분석까지
인포그래픽스 데이터분석과 저널리즘 3장 데이터수집,정제에서 분석까지
 
Service Design 2015
Service Design 2015Service Design 2015
Service Design 2015
 
차량용 소프트웨어 개발 시 소프트웨어 아키텍처 고려사항
차량용 소프트웨어 개발 시 소프트웨어 아키텍처 고려사항차량용 소프트웨어 개발 시 소프트웨어 아키텍처 고려사항
차량용 소프트웨어 개발 시 소프트웨어 아키텍처 고려사항
 
파킹스퀘어 기업 홍보문서
파킹스퀘어 기업 홍보문서파킹스퀘어 기업 홍보문서
파킹스퀘어 기업 홍보문서
 
국내 의료기기 인터페이스 관련의료기관 정보현황의 이해 - 이제관 기술사 -
국내 의료기기 인터페이스 관련의료기관 정보현황의 이해 - 이제관 기술사 -국내 의료기기 인터페이스 관련의료기관 정보현황의 이해 - 이제관 기술사 -
국내 의료기기 인터페이스 관련의료기관 정보현황의 이해 - 이제관 기술사 -
 

More from 병국 민

Survey - 카페 추천 기술기획 (2014-02-10)
Survey - 카페 추천 기술기획 (2014-02-10)Survey - 카페 추천 기술기획 (2014-02-10)
Survey - 카페 추천 기술기획 (2014-02-10)병국 민
 
쿼리로그로부터 주제별 키워드 수집 방안 민병국-20131213
쿼리로그로부터 주제별 키워드 수집 방안 민병국-20131213쿼리로그로부터 주제별 키워드 수집 방안 민병국-20131213
쿼리로그로부터 주제별 키워드 수집 방안 민병국-20131213병국 민
 
네비게이션 검색 통합 - 민병국(2009)
네비게이션 검색 통합 - 민병국(2009)네비게이션 검색 통합 - 민병국(2009)
네비게이션 검색 통합 - 민병국(2009)병국 민
 
민병국 - 검색품질관리툴 (스팸어수집, 비정상문서검출)
민병국 - 검색품질관리툴 (스팸어수집, 비정상문서검출)민병국 - 검색품질관리툴 (스팸어수집, 비정상문서검출)
민병국 - 검색품질관리툴 (스팸어수집, 비정상문서검출)병국 민
 
[2008] 민병국 - 주제검색과 오픈검색 (제안)
[2008] 민병국 - 주제검색과 오픈검색 (제안)[2008] 민병국 - 주제검색과 오픈검색 (제안)
[2008] 민병국 - 주제검색과 오픈검색 (제안)병국 민
 
[2007] 논문발표 민병국-단어연관그래프를 이용한 단어 의미의 자동...
[2007] 논문발표 민병국-단어연관그래프를 이용한 단어 의미의 자동...[2007] 논문발표 민병국-단어연관그래프를 이용한 단어 의미의 자동...
[2007] 논문발표 민병국-단어연관그래프를 이용한 단어 의미의 자동...병국 민
 

More from 병국 민 (6)

Survey - 카페 추천 기술기획 (2014-02-10)
Survey - 카페 추천 기술기획 (2014-02-10)Survey - 카페 추천 기술기획 (2014-02-10)
Survey - 카페 추천 기술기획 (2014-02-10)
 
쿼리로그로부터 주제별 키워드 수집 방안 민병국-20131213
쿼리로그로부터 주제별 키워드 수집 방안 민병국-20131213쿼리로그로부터 주제별 키워드 수집 방안 민병국-20131213
쿼리로그로부터 주제별 키워드 수집 방안 민병국-20131213
 
네비게이션 검색 통합 - 민병국(2009)
네비게이션 검색 통합 - 민병국(2009)네비게이션 검색 통합 - 민병국(2009)
네비게이션 검색 통합 - 민병국(2009)
 
민병국 - 검색품질관리툴 (스팸어수집, 비정상문서검출)
민병국 - 검색품질관리툴 (스팸어수집, 비정상문서검출)민병국 - 검색품질관리툴 (스팸어수집, 비정상문서검출)
민병국 - 검색품질관리툴 (스팸어수집, 비정상문서검출)
 
[2008] 민병국 - 주제검색과 오픈검색 (제안)
[2008] 민병국 - 주제검색과 오픈검색 (제안)[2008] 민병국 - 주제검색과 오픈검색 (제안)
[2008] 민병국 - 주제검색과 오픈검색 (제안)
 
[2007] 논문발표 민병국-단어연관그래프를 이용한 단어 의미의 자동...
[2007] 논문발표 민병국-단어연관그래프를 이용한 단어 의미의 자동...[2007] 논문발표 민병국-단어연관그래프를 이용한 단어 의미의 자동...
[2007] 논문발표 민병국-단어연관그래프를 이용한 단어 의미의 자동...
 

[2008] 숭실대컴퓨터학부 외부세미나 민병국 - Daum검색 튜토리얼

  • 2. 숭실대컴퓨터학부세미나 – Daum검색 튜토리얼 < 2 > 내용  Daum 소개  Daum검색둘러보기(vs Naver검색)  검색기술튜토리얼  정보검색  검색랭킹/ 키워드연관성/ 스팸점수/ 클릭점수  형태소분석/ 철자교정/ 검색어추천/ 띄어쓰기  자동태깅/ 오피니언마이닝  스마트앤써/ Content Service Mapper  카테고리분류기  검색트렌드/ 관련검색어/ 디렉토리검색  이미지검색  Q&A
  • 3. 숭실대컴퓨터학부세미나 – Daum검색 튜토리얼 < 3 > Daum 소개  About Daum  http://info.daum.net/Daum/index.html  http://info.daum.net/Daum/info/companySituation.do  Daum 기업문화  http://recruit.daum.net/DaumRecruit/campaign/cul/cul01.html  제주GMC 혜택  http://recruit.daum.net/DaumRecruit/campaign/well/well01.html  Daum&Lycos 개발자컨퍼런스  http://devcon.daum.net/conference2007.html  http://blog.daum.net/daumcomm  Daum 사회공헌  http://hyphen.daum.net/  http://hyphen.daum.net/campaign/  http://hyphen.daum.net/divide/  Daum검색공식블로그  http://blog.daum.net/daumsearch/
  • 4. 숭실대컴퓨터학부세미나 – Daum검색 튜토리얼 < 4 > Daum검색둘러보기(1)  이미지검색  양파<중의어,피드백>  Daum http://search.daum.net/search?nil_suggest=btn&nil_ch=&rtupcoll=&w=img&m=&lpp=&q=%BE%E7%C6%C4  앰씨몽<동의어사전>  Naver http://image.search.naver.com/search.naver?sm=tab_hty&where=image&query=%BE%DA%BE%BE%B8%F9&x=0&y=0  Daum http://search.daum.net/search?nil_suggest=btn&nil_ch=&rtupcoll=&w=img&m=&lpp=16&q=%BE%DA% BE%BE%B8%F9  부동산검색  도곡동삼성래미안(or 도곡동삼성레미안)  Daum http://search.daum.net/search?nil_suggest=btn&nil_ch=&rtupcoll=&w=tot&m=&lpp=&q=%B5%B5%B0% EE%B5%BF%BB%EF%BC%BA%B7%A1%B9%CC%BE%C8  lg개포자이아파트  Daum http://search.daum.net/search?nil_suggest=btn&nil_ch=&rtupcoll=&w=tot&m=&lpp=&q=lg%B0%B3%C6%F7%C0%DA%C0%CC+%BE%C6%C6%C4%C6%AE
  • 5. 숭실대컴퓨터학부세미나 – Daum검색 튜토리얼 < 5 > Daum검색둘러보기(2)  지식검색  핸드폰이물에빠졌을때어떻게해요  Daumhttp://search.daum.net/search?nil_suggest=btn&nil_ch=&rtupcoll=&w=knowledge&m=&lpp=&q=%C7%DA%B5%E5%C6%F9%C0%CC+%B9%B0%BF%A1+%BA%FC%C1%B3%C0%BB%B6%A7+%BE%EE%B6%BB%B0%D4+%C7%D8%BF%E4  Naverhttp://kin.search.naver.com/search.naver?where=kin&query=%C7%DA%B5%E5%C6%F9%C0%CC%20%B9%B0%BF%A1%20%BA%FC%C1%B3%C0%BB%B6%A7%20%BE%EE%B6%BB%B0%D4%20%C7%D8%BF%E4&sm=tab_nmr  니콜키드맨  Daumhttp://search.daum.net/search?nil_suggest=btn&nil_ch=&rtupcoll=&w=knowledge&m=&lpp=10&q=%B4%CF%C4%DD+%C5%B0%B5%E5%B8%C7  Naverhttp://kin.search.naver.com/search.naver?where=kin&query=%B4%CF%C4%DD%20%C5%B0%B5%E5%B8%C7&sm=tab_nmr
  • 6. 숭실대컴퓨터학부세미나 – Daum검색 튜토리얼 < 6 > Daum검색둘러보기(3)  인물검색  공지영  Daumhttp://search.daum.net/search?nil_suggest=btn&nil_ch=&rtupcoll=&w=tot&m=&lpp=&q=% B0%F8%C1%F6%BF%B5  Naverhttp://search.naver.com/search.naver?where=nexearch&query=%B0%F8%C1%F6%BF%B5&x=0&y=0&sm=top_hty&frm=t1  스팸처리  오션파라다이스  Daumhttp://search.daum.net/search?w=tot&q=%BF%C0%BC%C7%C6%C4%B6%F3%B4%D9%C0%CC%BD%BA  Naverhttp://search.naver.com/search.naver?where=nexearch&sm=tab_jum&query=%uC624% uC158%uD30C%uB77C%uB2E4%uC774%uC2A4
  • 8. 숭실대컴퓨터학부세미나 – Daum검색 튜토리얼 < 8 > 통합검색과컬렉션검색  사용자  통합검색  서비스섹션 볼륨 컬렉션 Inlink
  • 9. 숭실대컴퓨터학부세미나 – Daum검색 튜토리얼 < 9 > 정보검색–(예) 카페검색 색인대상 조건검색대상 카페데이터 600만개
  • 10. 숭실대컴퓨터학부세미나 – Daum검색 튜토리얼 < 10 > 정보검색과데이터마이닝 사용자 Scoring(Ranking) QueryProcessor Filtering IndexFile 검색엔진 원본문서 WebLog Spam점수, 카테고리 TF*IDF, 자동태깅 Click점수, 인기도 유사/동의어문서확장 외부문서, 외부지표 외부사이트DB NLP QE 데이터변환/통합 데이터추출
  • 11. 숭실대컴퓨터학부세미나 – Daum검색 튜토리얼 < 11 > 이효리카페를찾아요~♥ 나, 이효리 나도, 이효리 나돈데.. 누가맞을까? ㅋㅋ 넌누구? 내가진짜이효리 이효리카페를찾고있어요~ 난옷가게인데.. 성형수술상담해요 강호동카페관심없수? 스펙(^^) # Filtering: 카페명or 카페키워드# Scoring: 카페랭킹+ 클릭점수-스팸점수
  • 12. 숭실대컴퓨터학부세미나 – Daum검색 튜토리얼 < 12 > DataMining 카페내키워드간연관성: 상호정보량(MI) 이효리 핑사모(핑클을사랑하는사람들의모임) 옷파는남정네~♥ 이효리 핑클 이진 옥주현 핑키 이효리 지마켓 코디 공동구매 보세의류 0.7665 0.2271 연관성평균 기준단어 이웃단어 연관도(MI) 이효리 핑클 1.0000 이효리 성유리 0.9957 이효리 옥주현 0.9159 이효리 이진 0.8835 이효리 효리 0.8395 이효리 핑키 0.6120 … 이효리 코디 0.3796 이효리 지마켓 0.2944 이효리 보세의류 0.0747 이효리 공동구매 0.0495 연관성평균
  • 13. 숭실대컴퓨터학부세미나 – Daum검색 튜토리얼 < 13 > 상호정보량(MI)의개념  문서셋  전체문서수: |D| = 10  단어셋  초록A: df(A) = 9  빨강B: df(B) = 6  파랑C: df(C) = 5  단어페어셋  A ∩ B: df(A,B) = 5  A ∩ C: df(A,C) = 4  B ∩C: df(B,C) = 1 단어간동시출현분포: 단어간연관성 A C B 5 4 1 고양이 개 쥐
  • 14. 숭실대컴퓨터학부세미나 – Daum검색 튜토리얼 < 14 > 어뷰징키워드의Negative 가중치  어뷰징키워드  검색상위에노출시키기위해카페와관련성도없으면서의도적으로입력된키워드로대부분쿼리빈도가높은인기키워드  Negative 가중치의필요성  어뷰징용도로흔히쓰이는키워드의경우잘못된또는불분명한연관성이추출됨  성인키워드또는도박등불건전키워드인경우강제적인랭킹하향조치 소녀시대팬카페 어뷰징키워드에쿼리매칭 최대값꼭지점 최저값꼭지점 소녀시대 서현 유리 제시카 티파니 윤아 스타크래프트 단어연관그래프(Word Relation Graph) 써니 소녀
  • 15. 숭실대컴퓨터학부세미나 – Daum검색 튜토리얼 < 15 > 키워드연관성적용전 ※ 본데이터는2008.4.1 실험결과이며, 기존검색의첫페이지를키워드연관도기준만으로재정렬한것입니다. (카페랭킹,클릭점수등고려되지않았음) 순위 카페명/키워드 CK연관도 키워드 1 ★효리만큼예뻐지자★ ------------------- 패션,코디,화장,헤어스타일, 이효리,효리만큼이뻐지자, 다이어트,핑클,스타일,베스트드레서 0.8142 코디 0.8004 패션 0.7761 스타일 0.7131 헤어스타일 0.6921 베스트드레서 0.6851 화장 0.6681 다이어트 0.6019 이효리 0.4442 효리만큼이뻐지자 0.3937 핑클 2 효리투게더------------------- 이효리,효리,사랑한다면이들처럼,톡톡톡,잔소리,캘빈클라인,애니콜,세잎클로버, 횰투,효리투게더 0.5015 사랑한다면이들처럼 0.4614 잔소리 0.4500 이효리 0.4470 효리 0.4253 애니콜 0.3365 톡톡톡 0.3130 캘빈클라인 0.2757 세잎클로버 3 효리사랑------------------- 이효리,효리,핑클,비달사순, 블랙빈테라티,이자녹스,애니콜,투싼,사랑한다면이들처럼 0.6409 사랑한다면이들처럼 0.5477 효리 0.5301 이효리 0.4866 핑클 0.4793 애니콜 0.4375 이자녹스 0.3005 비달사순 0.2917 투싼 4 핑사모(핑클을사랑하는사람들의모임) ------------------- 핑사모,핑클,이효리,옥주현, 성유리,이진,펄레드,핑키, 팬카페,국내가수 0.7740 펄레드 0.7717 핑클 0.7666 이효리 0.7523 옥주현 0.7507 핑키 0.7264 이진 0.7223 성유리 0.6827 핑사모 0.6475 팬카페 0.5701 국내가수 5 ★가슴미인★ ------------------- 가슴,여자,피부,속옷,결혼, 성형,다이어트,요가,이효리, 몸짱 0.6961 가슴 0.6855 다이어트 0.6428 피부 0.6376 성형 0.6174 몸짱 0.5493 여자 0.5426 요가 0.5187 결혼 0.4575 속옷 0.4412 이효리 순위 카페명/키워드 CK연관도 키워드 6 ★맘대루씨~부리자!!^^ ★ ------------------- 꽃미녀,누드풍경,장나라,이효리,전지현,누,성,맘대루,맘대로 0.4708 맘대루 0.3838 이효리 0.3795 전지현 0.3730 장나라 0.3515 맘대로 0.3348 꽃미녀 7 ┃-미스김홈페이지-┃ ------------------- 비키니소녀영상,이효리,한채영,최신영화,진짜디카미인사진만땅,드라마,송혜교,동영상, 레이싱걸,미인미남얼짱몸짱사진 0.5050 드라마 0.4751 동영상 0.3734 레이싱걸 0.3729 이효리 0.3634 최신영화 0.3607 송혜교 0.3095 한채영 8 뮤비앤라이브------------------- 뮤직비디오,뮤비,가요,라이브, 동영상,원더걸스,이효리,아이비,비,정지훈 0.6259 뮤직비디오 0.6036 뮤비 0.5690 가요 0.5673 동영상 0.4738 이효리 0.4641 라이브 0.4016 원더걸스 0.3748 정지훈 0.3627 아이비 9 HJJY+ 핑클99.9%파' ------------------- 이효리,옥주현,이진,성유리,999,핑클,핑클짱만외치는, 구구쩜구,핑클짱,효리주현진유리 0.4964 이효리 0.4892 옥주현 0.4808 핑클 0.4786 성유리 0.4778 이진 0.4098 핑클짱 10 CAR BOX------------------- 박스카,카박스,비비,cube,carbox,boxcar,이효리,수입차,일본차,bb 0.4236 비비 0.4009 수입차 0.3947 박스카 0.3801 bb 0.3787 일본차 0.3085 cube 0.2916 이효리
  • 16. 숭실대컴퓨터학부세미나 – Daum검색 튜토리얼 < 16 > 키워드연관성적용후 순위 카페명/키워드 CK연관도 키워드 1 핑사모(핑클을 사랑하는사람들의모임) ------------------- 핑사모,핑클,이효리,옥주현, 유리,이진,펄레드,핑키, 팬카페,국내가수 0.7740 펄레드 0.7717 핑클 0.7666 이효리 0.7523 옥주현 0.7507 핑키 0.7264 이진 0.7223 성유리 0.6827 핑사모 0.6475 팬카페 0.5701 국내가수 2 ★효리만큼예뻐지자★ ------------------- 패션,코디,화장,헤어스타일, 이효리,효리만큼이뻐지자, 다이어트,핑클,스타일, 베스트드레서 0.8142 코디 0.8004 패션 0.7761 스타일 0.7131 헤어스타일 0.6921 베스트드레서 0.6851 화장 0.6681 다이어트 0.6019 이효리 0.4442 효리만큼이뻐지자 0.3937 핑클 3 효리사랑 ------------------- 이효리,효리,핑클,비달사순, 블랙빈테라티,이자녹스, 애니콜,투싼, 사랑한다면이들처럼 0.6409 사랑한다면이들처럼 0.5477 효리 0.5301 이효리 0.4866 핑클 0.4793 애니콜 0.4375 이자녹스 0.3005 비달사순 0.2917 투싼 4 HJJY+ 핑클99.9%파' ------------------- 이효리,옥주현,이진,성유리, 999,핑클,핑클짱만외치는, 구구쩜구,핑클짱, 효리주현진유리 0.4964 이효리 0.4892 옥주현 0.4808 핑클 0.4786 성유리 0.4778 이진 0.4098 핑클짱 5 뮤비앤라이브 ------------------- 뮤직비디오,뮤비,가요,라이브, 동영상,원더걸스,이효리, 아이비,비,정지훈 0.6259 뮤직비디오 0.6036 뮤비 0.5690 가요 0.5673 동영상 0.4738 이효리 0.4641 라이브 0.4016 원더걸스 0.3748 정지훈 0.3627 아이비 순위 카페명/키워드 CK연관도 키워드 6 효리투게더 ------------------- 이효리,효리, 사랑한다면이들처럼,톡톡톡, 잔소리,캘빈클라인,애니콜, 세잎클로버,횰투,효리투게더 0.5015 사랑한다면이들처럼 0.4614 잔소리 0.4500 이효리 0.4470 효리 0.4253 애니콜 0.3365 톡톡톡 0.3130 캘빈클라인 0.2757 세잎클로버 7 ★가슴미인★ ------------------- 가슴,여자,피부,속옷,결혼, 성형,다이어트,요가,이효리, 몸짱 0.6961 가슴 0.6855 다이어트 0.6428 피부 0.6376 성형 0.6174 몸짱 0.5493 여자 0.5426 요가 0.5187 결혼 0.4575 속옷 0.4412 이효리 8 ★맘대루씨~부리자!!^^ ★ ------------------- 꽃미녀,누드풍경,장나라, 이효리,전지현,누,성,맘대루, 맘대로 0.4708 맘대루 0.3838 이효리 0.3795 전지현 0.3730 장나라 0.3515 맘대로 0.3348 꽃미녀 9 ┃-미스김홈페이지-┃ ------------------- 비키니소녀영상,이효리,한채영, 최신영화,진짜디카미인사진만땅, 드라마,송혜교,동영상,레이싱걸, 미인미남얼짱몸짱사진 0.5050 드라마 0.4751 동영상 0.3734 레이싱걸 0.3729 이효리 0.3634 최신영화 0.3607 송혜교 0.3095 한채영 10 CAR BOX ------------------- 박스카,카박스,비비,cube, carbox,boxcar,이효리,수입차, 일본차,bb 0.4236 비비 0.4009 수입차 0.3947 박스카 0.3801 bb 0.3787 일본차 0.3085 cube 0.2916 이효리 ※ 본데이터는2008.4.1 실험결과이며, 기존검색의첫페이지를키워드연관도기준만으로재정렬한것입니다. (카페랭킹,클릭점수등고려되지않았음)
  • 17. 숭실대컴퓨터학부세미나 – Daum검색 튜토리얼 < 17 > 카페Spam점수  불건전성키워드관련데이터  블라인드카페키워드  야동, 하두리키워드  드라마키워드  판촉키워드 => 스팸후보제시, 가중치자동부여  성인키워드  통합검색의성인인증필요키워드 => 매뉴얼가중치로입력 카페키워드 블라인드카페수 정상카페수 머니상 142 321 다시보기 153 1,230 한게임머니 118 286 포커머니 118 326 신화머니 119 372 드라마다시보기 115 453 … … … 불건전성카페분류의문제=> 나이브베이지안분류 정상카페수 3,846,552 블라인드카페수 3,081 총카페수 3,849,633 log2 P(spam|’머니상’) + log2P(spam|’다시보기’) + log2P(spam|’한게임머니’) + log2P(spam|’하두리’) + log2P(spam|’연예인노출’) + log2P(spam|’화상캠’) +… ? > threshold ______ SPAM SPAM True False Σ Spam점수 log2 P(spam|’머니상’) + log2P(spam|’다시보기’) + log2P(spam|’한게임머니’) + log2P(spam|’하두리’) + log2P(spam|’연예인노출’) + log2P(spam|’화상캠’) +… Binomial Model: 스팸카페내출현확률: 정상카페내출현확률
  • 18. 숭실대컴퓨터학부세미나 – Daum검색 튜토리얼 < 18 > 카페Click점수  Click데이터정제  Click점수의급격한등락폭줄이기  일시적어뷰징제거 추세를이용한평균필요: 지수이동평균 9일지수이동평균적용(c = 0.2 ) EMA(지수이동평균)= 전일지수이동평균+ { c ×( 금일클릭수–전일지수이동평균) } ※ c = 2 / (n+1), n은이동평균기간일수 고의적인클릭or데이터이상의심 지수이동평균적용
  • 19. 숭실대컴퓨터학부세미나 – Daum검색 튜토리얼 형태소분석(1/3)  사전탐색방향( 우측)  다음커뮤니케이션에서  STEP 1 : 다음커뮤니케이션>>에서(조사사전)  STEP 2 : ------------->>다음커뮤니케이션(명사사전)  STEP 3 : 다음커뮤니케이션+에서  어절단위분석–가능한모든분석결과  나는학교에간다  나는 : (N "나") + (j "는“) : (V "나") + (e "는“) : (V "날") + (e "는")  학교에 : (N "학교") + (j "에")  간다 : (V "가") + (e "ㄴ다“) : (V "갈") + (e "ㄴ다“)
  • 20. 숭실대컴퓨터학부세미나 – Daum검색 튜토리얼 형태소분석(2/3) 나는학교에간다 하늘을나는새 POS tagging 나/대명사 는/조사 하늘/일반명사 을/조사 새/명사 새/동사 시작 끝 나/동사 는/어미 는/어미 날/동사 나/동사 는/어미 학교/일반명사 에/조사 가/동사 갈/동사 ㄴ다/동사 ㄴ다/어미 시작 끝 날/동사 는/어미 는/조사 나/대명사
  • 21. 숭실대컴퓨터학부세미나 – Daum검색 튜토리얼 형태소분석(3/3) 다 음 커 뮤 니 케 이 션 에 서 명사 조사 어절시작 어절끝 문법검사 문법검사 문법검사
  • 22. 숭실대컴퓨터학부세미나 – Daum검색 튜토리얼 철자교정(Speller) (1/3)  기반기술: Trie이활용기술  장점: Trie검색한번으로원하는오류범위의단어를빠른속도로검색  단점: 오류범위가넓어질수록검색속도가느려지고불필요한중복검색이발생
  • 23. 숭실대컴퓨터학부세미나 – Daum검색 튜토리얼 철자교정(Speller) (2/3)  Trie를이용한Fault Counting과오용어사전, 오용패턴이용한spell check  오용어사전: 자주틀리는단어  Ex> aple:: apple  오용패턴사전: 단어의일부분중자주틀리는부분  Ex> tino:: tion  Ex> goverment=> government 영어speller
  • 24. 숭실대컴퓨터학부세미나 – Daum검색 튜토리얼 철자교정(Speller) (3/3)  Trie를이용한Fault counting과오류패턴의분석을통한spell check  분석내용  Keyboard상의거리  발음규칙을활용한오류검출  경끼=> 경기( 격음화)  발음규칙을역으로활용한오류검출  사람들이자주틀리는패턴을이용한오류검출  가게부=> 가계부  사이월드=> 싸이월드 한글speller
  • 25. 숭실대컴퓨터학부세미나 – Daum검색 튜토리얼 검색어추천(Suggest) (1/4)  기능  기본기능: Prefix | Suffix search  다음  영한변환후(prefix | suffix search )  ekdma->다음  한영변환후(prefix | suffix search )  해ㅐ히->googl
  • 26. 숭실대컴퓨터학부세미나 – Daum검색 튜토리얼 검색어추천(Suggest)(2/4)  일본어SUGGEST 로마자입력 한글입력 일본어입력
  • 27. 숭실대컴퓨터학부세미나 – Daum검색 튜토리얼 검색어추천(Suggest) (3/4)  중국어SUGGEST  도서검색SUGGEST 로마자로입력 한글발음으로입력 도서검색의중간매칭방식suggest
  • 28. 숭실대컴퓨터학부세미나 – Daum검색 튜토리얼 검색어추천(Suggest) (4/4)  관련기술:  자소분해, Maxsort, Apache module programming…  주요이슈  자소분해:  초성과종성에동일코드부여  두가지정렬기준(자소단위, 클릭수)  백단데이터구축시에는자소단위로정열  자소단위로정열된데이터를조건에맞게가져와클릭수단위로재정렬  실시간정렬  Max sort algorithm (suggest의경우는quick sort 보다빠르다) ‘ㄷ’으로시작하는모든결과를가져와서Click Ratio가높은것중상위10개를보여준다
  • 29. 숭실대컴퓨터학부세미나 – Daum검색 튜토리얼 띄어쓰기(Word Spacing) (1/3)  사전:  Trie 모듈사용, 좌기준최장일치우선  DHA에서사용하는사전은단순화시켜10개내외의사전으로만듦  Replace.dic, pre.dic, back.dic과같은사전추가  기본규칙  규칙1. 동사(용언류)의앞을띄어쓴다:  빵을[SPACE]만드는  규칙2. 조사나어미의뒤를띄어쓴다  공부를[SPACE]하는  규칙3. 명사와명사사이를띄우지않는다: [프로그래밍][언어][이야기]  기본품사  n : 명사류( noun )  j: 조사류( josa )  v: 용언류( verb )  e: 어미류( eomi )  p: 어절의앞에공백( pre )  b: 어절의뒤에공백( back )  t: 어절의앞뒤에공백( pre and back )  r: 부분기분석사전( replace )
  • 30. 숭실대컴퓨터학부세미나 – Daum검색 튜토리얼 띄어쓰기(Word Spacing) (2/3)  Ex> 조폭이사랑한여자 조 폭(n) Push 이(j) 사(n) Push 랑 한(x) Fail 이(j) 사(n) Pop 이(j) 사 랑(h) 한(v) Push 여 자(n) push animation
  • 31. 숭실대컴퓨터학부세미나 – Daum검색 튜토리얼 띄어쓰기예제 조 폭 랑 이 사 Fail 한 여 자 명사 조사 동사 명사
  • 32. 숭실대컴퓨터학부세미나 – Daum검색 튜토리얼 띄어쓰기(Word Spacing)(3/3)  확률:  Corpus에서추출한bi-gram, tri-gram 사용  Bi-gram : 냅가0 0 0 0 0 1 0 0 -( 8 )  Tri-gram : 가가급23 41 2870 5 -( 4 )  확률을이용한띄어쓰기  입력: 먹는데이가아파요  먹는데이가아파요  ………………………..  먹는데이가아파요  2n개중최대확률선택
  • 33. 숭실대컴퓨터학부세미나 – Daum검색 튜토리얼 자동태깅(Auto Tagging)  활용자원  패턴사전(고빈도다어절쿼리)  형태소분석후복합명사합성(word position)  TF/IDF사용  적용  사용자가질문을입력할때해당질문이어느카테고리에해당되는지를추천하기위해질문에서주요키워드(또는Phrase)를추출한다.
  • 34. 숭실대컴퓨터학부세미나 – Daum검색 튜토리얼 Opinion Mining 이란? -어떤topic에대한평가가담겨있는문서를분석해서긍정/부정context를검출 -검출된context를기반으로긍정/부정분류 필요한리소스 -topic 를포함하고있는문서검색시스템: 검색엔진 -검색된문서가topic에대한평가등을담고있는지판단하는시스템: 정보성필터 -상위n건의관련문서들에대한Opinion Analysis 시스템 * 형태소분석기: DHA/HPS2.0 * Partial parser: tuple추출(topic , feature, predicate, modifier, conjunction) * 의미분석기: 추출된tuple에대해의미점수를산정 * 의미사전: partial parser/의미분석기에필요한의미사전–도메인별로다름 -분석결과와검색엔진의연동시스템 긍정부정(Opinion Mining) (1/2)
  • 35. 숭실대컴퓨터학부세미나 – Daum검색 튜토리얼 긍정부정(Opinion Mining) (2/2)
  • 36. 숭실대컴퓨터학부세미나 – Daum검색 튜토리얼 스마트앤써(1/2)  목적: 다음검색에서사용하고있는많은DB정보의효과적인활용  기술: 자연언어처리기술과DB자원의효과적인매칭  NLIDB( Natural Language Interface for Database )  Ex>”박지성이태어난날은”  박지성= feature:name  태어난날= table : birthday  SQL : Select birthdayfrom table where name= ‘박지성’  정답: 국내축구선수박지성의생일은1981년2월25일입니다.
  • 37. 숭실대컴퓨터학부세미나 – Daum검색 튜토리얼 스마트앤써(적용) (2/2) 영화 음악 TV 전체사전 인물프로필 영어사전 시청률
  • 38. 숭실대컴퓨터학부세미나 – Daum검색 튜토리얼 Contents Service Mapper  What’s CSM(Contents Service Mapper)???  Contents와서비스를키워드기반으로연결하는시스템.  2008년4월News Contents(미디어다음,금융,웹뉴스)를대상으로개발하여현재금융,영화,로컬에서사용하고있고연내카페와블로그Contents를포함하도록개발중.  Example  금융개편시뉴스Contents를사용하고싶어요!!! • CSM 사용하지않을경우 1. 미디어다음,웹뉴스,금융뉴스담당자를contact 한다. 2. 각각의뉴스를수집한다. 3. 수집된데이터를분류한다. 4. 뉴스Contents를서비스한다. • CSM 사용할경우. 1. 서비스에필요한CSM의API를요청한다. 2. 서비스특성에맞는키워드를등록하여분류한다. 3. 뉴스Contents를서비스한다.  Benefit  Contents를서비스하기위해서비스별로Contents를수집하고, 분류하는절차와프로세스가생략됨.(시간,인력,시스템Resource 감소)  Contents가많아지고, 요구사항이복잡해질수록더욱효과적인시스템으로발전가능.
  • 39. 숭실대컴퓨터학부세미나 – Daum검색 튜토리얼 카테고리분류기(Classifier)  쇼핑하우데이터에 자동분류진행중 자질사전 모델학습 자질추출 자동분류 분류모델 형태소분석기 불용어사전 전처리 모델명사전 기분류데이터 미분류데이터 C1 C2 C3 C4 Cn ……
  • 40. 숭실대컴퓨터학부세미나 – Daum검색 튜토리얼 1. 검색순위노출-검색횟수순D-1일쿼리를기반으로각카테고리별로인기있는키워드를집계 - 순위상승과거데이터의평균과D-1일데이터간의순위변동의Gap을노출2. 검색추이 - 해당키워드에대해과거6개월동안의검색빈도를집계3. 관련기사-해당키워드와관련된기사가존재할경우해당시점에태그및제목을노출함으로써관련기사로링크 • 검색트렌드란? • 검색트렌드는전날쿼리를기반으로100여개의카테고리대해서검색순위및급등순위를산정하여보여주는서비스 검색트렌드(1/2)
  • 41. 숭실대컴퓨터학부세미나 – Daum검색 튜토리얼 4. 성별/세대별/지역별추이 -해당키워드의성별/세대별/지역별선호정도를파악후노출 5. 실시간검색어 -해당카테고리에서실시간인기검색어를산정하여노출 6. 성별검색어 -해당카테고리에서성별인기키워드를집계하여노출 검색트렌드(2/2)
  • 42. 숭실대컴퓨터학부세미나 – Daum검색 튜토리얼 • 관련검색어란? • 사용자가입력한전날에대한모든키워드를시간적나열을통해사용자가입력한키워드간의연관도를파악하여고객이검색하는키워드와관련된키워드( by assocationrule)를가이드하는서비스 관련검색어
  • 43. 숭실대컴퓨터학부세미나 – Daum검색 튜토리얼 가나다순 다음랭킹 디렉토리검색(1/4)
  • 44. 숭실대컴퓨터학부세미나 – Daum검색 튜토리얼 사이트지표 디렉토리검색(2/4)
  • 45. 숭실대컴퓨터학부세미나 – Daum검색 튜토리얼  ex:동방신기다음까페  ex:유튜브한국사이트 성별고객분석 연령대별고객분석 유입웹사이트분석 유출웹사이트분석 디렉토리검색(3/4) -상세보기
  • 46. 숭실대컴퓨터학부세미나 – Daum검색 튜토리얼  ex: 네이트닷컴www.nate.com의하위사이트*.nate.com등의지표제공  ex: KB국민은행 하위사이트 검색엔진별유입검색어 디렉토리검색(4/4) -상세보기
  • 47. 숭실대컴퓨터학부세미나 – Daum검색 튜토리얼 이미지검색(1/2) 47  SIAM (동영상이미지의동시처리)  대용량이미지전처리시스템(썸네일, 성인, 중복)  규모확장이용이함  하루트랜젝션처리량: 천만개  LICH (undead)  집단지성정보를활용한이미지랭킹시스템  서비스적용후CTR 16 % 증가
  • 48. 숭실대컴퓨터학부세미나 – Daum검색 튜토리얼 이미지검색(2/2) 유사이미지검색 이미지의유사성을활용한검색기술 Thumbnail image Animated gif에서상품이미지만검출기술 Face detection 이미지내얼굴인식기술 OCR 이미지내글자를인식,색인에반영하는기술 대표색깔인식 상품의대표색깔인식을통한색깔검색가능하게하는기술 성인이미지검출 성인이미지검출기술
  • 49. 숭실대컴퓨터학부세미나 – Daum검색 튜토리얼 < 49 > 끝 감사합니다 감사합니다^^ Q&A