SlideShare a Scribd company logo
1 of 49
Download to read offline
ТЕМАТИЧЕСКАЯ 
КЛАССИФИКАЦИЯ
Павел Браславский ‐ Анализ запросов 34
Тематическая классификацияТематическая классификация
?Зачем?
• релевантность (в т.ч. рекламы)р ( р )
• вертикальные поиски
ДанныеДанные
• список запросов
• коллекция текстов
• вебвеб
• клики
Павел Браславский ‐ Анализ запросов 35
Selectional Preferences: Step 1Selectional Preferences: Step 1
• Obtain a large log of unlabeled web queries
• View each query as pairs of lexical units:View each query as pairs of lexical units:
– <head, tail>
O l li bl i f 2– Only applicable to queries of 2+ terms
– Queries with n terms form n‐1 pairs
– Example: “directions to DIMACS” forms two pairs:
• <directions to DIMACS> and <directions to<directions, to DIMACS> and <directions to, 
DIMACS>
Павел Браславский ‐ Анализ запросов 36[Beitzel]
Selectional Preferences: Step 2Selectional Preferences: Step 2
Obt i t f ll l b l d i• Obtain a set of manually labeled queries
• Check the heads and tails of each pair to see if 
h i h ll l b l dthey appear in the manually labeled set
• Convert each <head, tail> pair into:
– <head, CATEGORY> (forward preference)
– <CATEGORY, tail> (backward preference)
Павел Браславский ‐ Анализ запросов 37[Beitzel]
Selectional Preferences: Step 2Selectional Preferences: Step 2
“Personal Finance”
Category
“Personal Finance”
CategoryCategory
Query Log Forward SP Rule:…
banks
Category
Query Log Forward SP Rule:…
banks
…
Yahoo mail
banks
bonds
stocks
Head
PERSONAL
Tail…
Yahoo mail
banks
bonds
stocks
Head
PERSONAL
Tail
interest rates
Ebay motors
…
rates
savings
checking
interest
PERSONAL
FINANCE
interest rates
Ebay motors
…
rates
savings
checking
interest
PERSONAL
FINANCE
……
Павел Браславский ‐ Анализ запросов 38[Beitzel]
Selectional Preferences: Step 3Selectional Preferences: Step 3
• Score each preference using Resnik’s Selectional Preference 
Strength formula:
S (x ) = D ( P (U |x ) || P (U ) )
P (u |x )
P (u |x )lo g
⎛ ⎞
⎜ ⎟∑ 2
u
( | )
= P (u |x )lo g
P (u )
⎜ ⎟
⎝ ⎠
∑
Where u represents a category, as found in Step 2.
S(x) is the sum of the weighted scores for every category 
i d i h i l i l iassociated with a given lexical unit
Павел Браславский ‐ Анализ запросов 39[Beitzel]
Selectional Preferences: Step 4Selectional Preferences: Step 4
• Use the mined preferences and weighted scores from Steps 3 and 4 to 
assign classifications to unseen queries
Incoming Query
Matching SP Rule:
Head Tail
Incoming Query
Matching SP Rule:
Head Tail
interest only loan
Incoming Query
interest
PERSONAL
FINANCE
interest only loan
Incoming Query
interest
PERSONAL
FINANCE
“interest only loan” is classified as a“interest only loan” is classified as ate est o y oa s c ss ed s
PERSONAL FINANCE query.
te est o y oa s c ss ed s
PERSONAL FINANCE query.
Павел Браславский ‐ Анализ запросов 40[Beitzel]
Selectional Preference Rule ExamplesSelectional Preference Rule Examples
Forward Rules
– harlem club X
Backward Rules
– X gets hot wont startharlem club X
• ENT‐>0.722 
• PLACES‐>0.378 
• TRAVEL >1 531
• AUTOS‐>2.049 
• PLACES‐>0.594
– X getaway bargain• TRAVEL‐>1.531
– harley all stainless X
• AUTOS‐>3.448
g y g
• PLACES‐>0.877
• SHOPPING‐>0.047
• TRAVEL‐>0.862 
• SHOPPING‐>0.021 
– harley chicks with X
• PORN‐>5.681
– X getaway bargain hotel and 
airfare
• PLACES‐>0.594PORN 5.681 
• TRAVEL‐>2.057 
Павел Браславский ‐ Анализ запросов 41[Beitzel]
На основе коллекции текстовНа основе коллекции текстов
запросзапрос
поиск
дом спорт музыка кинодом спорт музыка кино
10
15
0
5
Павел Браславский ‐ Анализ запросов 42
0
KDD Cup 2005KDD Cup 2005
• Классификация запросов
• 800,000 запросов, 67 категорий
б• есть примеры, нет обучающего множества
• нет подробного описания категорий
• ответ системы: до 5 категорий• ответ системы: до 5 категорий 
• оценка: 800 запросов оцениваются тремя асессорами 
• метрика: F1метрика: F1
Павел Браславский ‐ Анализ запросов 43
Nature of ProblemNature of Problem
queries …? 67 kdd-categories
synonym-basedPage Categories
Phase I Phase II
classifier
query … 67 kdd-categoriesSearch engines
Page Content
statistical
Павел Браславский ‐ Анализ запросов 44
classifiers
[Shen]
Phase I: From queries to pages and 
categories 
• Input: 
– A query: Qi,
• We collected 
– 40 million entries
50GBA query: Qi, 
• Output: 
– <Page listi, Category listi > 
– 50GB
• Search engines
– Lumur (CMU open source)
• Approach: 
– through Search Engines (SE)
( p )
– Google 
– ODP
L k t– Looksmart
Павел Браславский ‐ Анализ запросов 45[Shen]
Phase II.a Synonym‐based Classifier: 
using directories
– 67 KDD‐categories in KDDCUP
– 172,565 in ODP/Google,
• Advantage
– Fast,
– Precise172,565 in ODP/Google, 
272,405 in Looksmart
• For each of the KDDCUP category
• Disadvantage
– Many of the 172K and 272K 
categories from ODP/Google 
d L k t d t t
g y
– Apply Wordnet to find the 
corresponding synonyms in the 
categories of ODP (Google) and 
Looksmart respectively
and Looksmart do not map to 
KDDCUP categories
– This may result in low recall
Looksmart, respectively
• This produces one mapping 
function f for each directory
– Also returns a rank by matchingAlso returns a rank by matching 
frequency
Павел Браславский ‐ Анализ запросов 46[Shen]
Phase II b: Statistical ClassifiersPhase II.b: Statistical Classifiers
• Statistical Classifiers• Statistical Classifiers
– Support Vector Machine (SVM): mapping pages to KDDCUP categories
• Training Data
– 15 million pages with categories from ODP Directory– 15 million pages with categories from ODP Directory
– Apply the mapping f from Phase II.a, to build training data.  
f15 Million Pairs 15 Million Pairs
• Application of the classifier
f15 Million Pairs
(page, odp-categories)
15 Million Pairs
(page, kdd-categories)
– Construct a virtual document for each query by combining the snippets from the 
returned pages given in Phase I.
– Classifier returns category and rank
Павел Браславский ‐ Анализ запросов 47[Shen]
Component Classifier IntegrationComponent Classifier Integration
W f ll bl l i h• We follow an ensemble learning approach
– Each classifier returns the category and rank
– The two kinds of classifiers have the similar performance.p
– We integrate the different classifiers together by a weighted 
sum of the ranks
• Weights can be determined by validation data set:• Weights can be determined by validation data set:
– Based on the performance on the 111 sample data;
– Assign different weight values for a classifier on different categories
– The higher the precision the higher the weight valueThe higher the precision, the higher the weight value
• We have also tried to use equally weighted component 
classifiers
Павел Браславский ‐ Анализ запросов 48[Shen]
Final Result GenerationFinal Result Generation
• Two Solutions: One for each evaluation criteria 
– S1: Using the validation data set is expected to achieve better precision 
measuremeasure 
• Since each component classifier is highly weighted on the classes 
where it achieves high precision.
S2 E ll i ht d bi ti i t d t hi hi h F1– S2: Equally weighted combination is expected to achieve higher F1 
performance 
• Since the recall is relatively high
– Evaluation Results(http://www.acm.org/sigs/sigkdd/kdd2005/kddcup.html)
Submission ID Precision F1
S1 37 0.423741 0.426123
• The Results are generated automatically.
S2 22 0.414067 0.444395
Павел Браславский ‐ Анализ запросов 49
[Shen]
Putting them togetherPutting them together
Phase I Phase II Ensemble
Павел Браславский ‐ Анализ запросов 50
[Shen]
Классификация на основе кликовКлассификация на основе кликов
1. Расширение обучающего множества
2. Классификация на основе лексических признаков
3. Комбинация методов
Павел Браславский ‐ Анализ запросов 51
Li et al. SIGIR2008
ц д
Классификация запросовКлассификация запросов
x за рос y к асс (0/1)x – запрос, y – класс (0/1)
Признаки φ(x, y) - n‐граммы
[britney spears][britney spears] 
britney, spears, 
<s> britney britney spears spears </s><s> britney, britney spears, spears </s>, 
<s> britney spears, britney spears </s>
Павел Браславский ‐ Анализ запросов 52
Распространение метокРаспространение меток
• W – матрица mxn, wij – количество кликов на 
документ j по запросу iд у j р у
• F – матрица mx2, fiy – вероятность 
принадлежности запроса i классу yпринадлежности запроса i классу y
• F0 – первоначальная разметка
И• Итерации:
Павел Браславский ‐ Анализ запросов 53
КомбинацияКомбинация
Павел Браславский ‐ Анализ запросов 54
БЛИЗКИЕ ЗАПРОСЫ
Павел Браславский ‐ Анализ запросов 55
михаил булгаков богдан ступка и аил булга ов
мастер и маргарита
мастер и маргарита фильм
богда с у а
михаил боярский 
д'артаньянмастер и маргарита фильм 
владимир бортко
д'артаньян
три мушкетера
тарас бульба фильм  александр дюма
56Павел Браславский ‐ Анализ запросов
ПодробнееПодробнее
1. Уточнение:
золотое кольцо  золотое кольцо с бриллиантом
2. Снятие неоднозначности: 
ягуар  ягуар животное
3. Расширение: 
золотое кольцо  ювелирные украшения
4. Синоним:  
японская вишня  сакура
57Павел Браславский ‐ Анализ запросов
Еще подробнееЕще подробнее
5. Другой запрос на ту же тему: 
мерседес ауди
6 С й6. Смена поисковой цели:
купить санки детский мир
7 Перевод:7. Перевод: 
коралловый клуб  coral club
58Павел Браславский ‐ Анализ запросов
Близкие но «про другое»Близкие, но «про другое»
• Опечатки: курсовая робота – курсовая работа
• Транслитерация: золото – zoloto
• Раскладка: lbvf ,bkfy – дима билан
• Реникса: otbeptka – отвертка• Реникса: otbeptka – отвертка
59Павел Браславский ‐ Анализ запросов
Хороший запрос это непростоХороший запрос – это непросто
Назовите глагол из вопроса, помещенного 
б дна борту транспортного средства 
подопечных Фатиха Терима
на первенстве континента?
IX Кубок Яндекса по поиску (2008)
http://kubok.yandex.ru
Павел Браславский ‐ Анализ запросов 60
Работа мыслиРабота мысли
• Фатих Терим
• сборная турции на борту самолета 
• сборная турции "на борту" самолетасборная турции на борту  самолета 
• сборная турции надпись "на борту" самолета 
• сборная турции надпись "на борту" автобуса 
• сборная турции надпись на автобусе 
• футбол "сборная турции" надпись на автобусе 
ф б " б " б• чемпионат европы футбол "сборная турции" надпись на автобусе 
61Павел Браславский ‐ Анализ запросов
ОтветОтвет
Вместит ли автобус всю страсть Турции?Вместит ли автобус всю страсть Турции?
62Павел Браславский ‐ Анализ запросов
63Павел Браславский ‐ Анализ запросов
64Павел Браславский ‐ Анализ запросов
65Павел Браславский ‐ Анализ запросов
66Павел Браславский ‐ Анализ запросов
67Павел Браславский ‐ Анализ запросов
68Павел Браславский ‐ Анализ запросов
Источники данныхИсточники данных
• Лог запросов
• Текст ссылокТекст ссылок 
• Корпус текстов
ford  ford focus, ford fusion, ford mondeo
карта  карта памяти, карта города
машина  стиральная машина, швейная машина 
69Павел Браславский ‐ Анализ запросов
Близость запросовБлизость запросов
q2 q3 q4q1
слова/буквы сессиислова/буквы сессии
клики
70Павел Браславский ‐ Анализ запросов
МетодМетод
0. чистка лога (порно, Яндекс, «подсказки», язык запросов, опечатки)
запрос=<timeStamp, userId, queryText, ckicks>
1. выделение сессий (по времени)
2. выделение пар (в.ч. транзитивно)
Павел Браславский ‐ Анализ запросов 71
Метод 2Метод – 2 
3 (3. нормализация запросов (стоп‐слова, капитализация, лемматизация, 
сортировка слов + выбор лучшего обратного преобразования)
4 борьба со флешмобами и «событийными» ассоциациями4. борьба со флешмобами и «событийными» ассоциациями 
5. матрица частоты переходов «запрос‐запрос» (пороги для 
пользователя ограничение на абсолютную частоту)пользователя, ограничение на абсолютную частоту)
6. weight(q1  q2)= f(freqq1, freqq2, freqq1q2)*f(freqq2q1)
7. ранжирование, отсечение по порогу
8. индекс: q  q1, q2, q3… (оригинальные запросы)д q q , q , q ( р р )
Павел Браславский ‐ Анализ запросов 72
ОценкаОценка
• «оценка глазами»
• «классы объектов»«классы объектов»
• кластеры запросов Яндекс.Директа
• кликабельность
73Павел Браславский ‐ Анализ запросов
РезультатРезультат
74Павел Браславский ‐ Анализ запросов
ЛитератураЛитература
• Broder A. A Taxonomy of Web Search. SIGIR 2002.
• Broder A. et al. Robust classification of rare queries using web knowledge. 
SIGIR 2007.
• Risvik K. M. et al. Query Segmentation for Web Search. WWW2003. 
• Bergsma S. & Wang Q. I. Learning Noun Phrase Query Segmentation. 
EMNLP‐CoNLL 2007.
• Hagen M. et al. The Power of Naïve Query Segmentation. SIGIR 2010.
• Beitzel, S.M. et al. Temporal analysis of a very large topically categorized 
web query log, JASIST, vol. 58, no. 2, 2007.
• Beitzel, S.M., et al. Automatic classification of web queries using very large 
l b l d l ACM T I f S 25(2) 9 2007unlabeled query logs. ACM Trans. Inf. Syst., 25(2):9, 2007.
• Shen D. et al. Q2C@UST: Our Winning Solution to Query Classification in 
KDDCUP 2005, SIGKDD Explorations 7(2).
Li X l L i Q I f R l i d Cli k G h SIGIR• Li X. et al. Learning Query Intent from Regularized Click Graphs. SIGIR 
2008.
Павел Браславский ‐ Анализ запросов 75
СсылкиСсылки
• И AOL• История про лог AOL – см. 
http://en.wikipedia.org/wiki/AOL_search_data_scandal
• Поиск по логу AOL2006
htt // l t lk /http://www.aolstalker.com/
• Query Log Analysis Workshop @ WWW2007, 
http://querylogs2007.webir.org/
• KDD Cup 2005, http://www.sigkdd.org/kdd2005/kddcup.html
• WSCD09: Workshop on Web Search Click Data 2009, 
http://research.microsoft.com/users/nickcr/wscd09/p // / / / /
• Microsoft Web N‐gram Services, http://research.microsoft.com/en‐
us/collaboration/focus/cs/web‐ngram.aspx
• Jiang D et al Web Search/Browse Log Mining: ChallengesJiang D. et al. Web Search/Browse Log Mining: Challenges, 
Methods, and Applications, http://research.microsoft.com/en‐
us/people/djiang/web_search_and_browse_log_mining.pdf
Павел Браславский ‐ Анализ запросов 76
ПРАКТИКА
Павел Браславский ‐ Анализ запросов 77
ПрактикаПрактика
З• Задачи 
– Сегментация
– Тематическая классификацияТематическая классификация
– Близкие запросы
• Данные – AOL2006Д
http://www.gregsadetsky.com/aol‐data/
– seed ~2000 запросов, 
http://www kansas ru/querylog analysis/2000queries txthttp://www.kansas.ru/querylog_analysis/2000queries.txt
– + описания DMOZ для категорий второго уровня
http://narod.ru/disk/371552001/dmoz_data.zip.html
• Можно использовать любые внешние ресурсы (не 
человеческие ;)
Павел Браславский ‐ Анализ запросов 78
DMOZDMOZ
няго уровнии второкатегорик
Павел Браславский ‐ Анализ запросов 79
ПримерыПримеры
Сегментация
• at the vet | norman rockwell | litho
• big weenie | by eminem
Тематическая классификация
• big weenie by eminem ‐‐> Arts_Music /t Art_Television
До трех категорий, упорядоченных по уменьшению уверенности
Кластеризация
• 1996 mitsubishi mirage ‐‐> 2001 subaru impreza wagon /t toyotag p g / y
corolla /t toyota sienna hybrid
До 10 запросов из большого лога (сначала – самый близкий)
Павел Браславский ‐ Анализ запросов 80
• Присылайте по почте с темой 
querylog_analysis_resultsq y g_ y _
• segmentation_имя_фамилия.txt
l ifi i ф• classification_имя_фамилия.txt
• clustering имя фамилия.txtg_ _ф
• имя_фамилия.pdf ‐ краткое описание 
методов
Павел Браславский ‐ Анализ запросов 81
Павел БраславскийПавел Браславский
pb@yandex‐team.ru
82Павел Браславский ‐ Анализ запросов

More Related Content

Viewers also liked

Юрий Владимирович Матиясевич. Десятая проблема Гильберта. Решение и применени...
Юрий Владимирович Матиясевич. Десятая проблема Гильберта. Решение и применени...Юрий Владимирович Матиясевич. Десятая проблема Гильберта. Решение и применени...
Юрий Владимирович Матиясевич. Десятая проблема Гильберта. Решение и применени...Computer Science Club
 
20100214 virtualization igotti_lecture01
20100214 virtualization igotti_lecture0120100214 virtualization igotti_lecture01
20100214 virtualization igotti_lecture01Computer Science Club
 
20091025 algorithmsfornphardproblems kulikov_lecture03
20091025 algorithmsfornphardproblems kulikov_lecture0320091025 algorithmsfornphardproblems kulikov_lecture03
20091025 algorithmsfornphardproblems kulikov_lecture03Computer Science Club
 
20091108 algorithmsfornphardproblems kulikov_lecture08
20091108 algorithmsfornphardproblems kulikov_lecture0820091108 algorithmsfornphardproblems kulikov_lecture08
20091108 algorithmsfornphardproblems kulikov_lecture08Computer Science Club
 
20071104 verification konev_lecture10
20071104 verification konev_lecture1020071104 verification konev_lecture10
20071104 verification konev_lecture10Computer Science Club
 
20090322 hardnessvsrandomness itsykson_lecture05
20090322 hardnessvsrandomness itsykson_lecture0520090322 hardnessvsrandomness itsykson_lecture05
20090322 hardnessvsrandomness itsykson_lecture05Computer Science Club
 
20081019 auctions nikolenko_lecture03
20081019 auctions nikolenko_lecture0320081019 auctions nikolenko_lecture03
20081019 auctions nikolenko_lecture03Computer Science Club
 
Юрий Владимирович Матиясевич. Десятая проблема Гильберта. Решение и применени...
Юрий Владимирович Матиясевич. Десятая проблема Гильберта. Решение и применени...Юрий Владимирович Матиясевич. Десятая проблема Гильберта. Решение и применени...
Юрий Владимирович Матиясевич. Десятая проблема Гильберта. Решение и применени...Computer Science Club
 

Viewers also liked (8)

Юрий Владимирович Матиясевич. Десятая проблема Гильберта. Решение и применени...
Юрий Владимирович Матиясевич. Десятая проблема Гильберта. Решение и применени...Юрий Владимирович Матиясевич. Десятая проблема Гильберта. Решение и применени...
Юрий Владимирович Матиясевич. Десятая проблема Гильберта. Решение и применени...
 
20100214 virtualization igotti_lecture01
20100214 virtualization igotti_lecture0120100214 virtualization igotti_lecture01
20100214 virtualization igotti_lecture01
 
20091025 algorithmsfornphardproblems kulikov_lecture03
20091025 algorithmsfornphardproblems kulikov_lecture0320091025 algorithmsfornphardproblems kulikov_lecture03
20091025 algorithmsfornphardproblems kulikov_lecture03
 
20091108 algorithmsfornphardproblems kulikov_lecture08
20091108 algorithmsfornphardproblems kulikov_lecture0820091108 algorithmsfornphardproblems kulikov_lecture08
20091108 algorithmsfornphardproblems kulikov_lecture08
 
20071104 verification konev_lecture10
20071104 verification konev_lecture1020071104 verification konev_lecture10
20071104 verification konev_lecture10
 
20090322 hardnessvsrandomness itsykson_lecture05
20090322 hardnessvsrandomness itsykson_lecture0520090322 hardnessvsrandomness itsykson_lecture05
20090322 hardnessvsrandomness itsykson_lecture05
 
20081019 auctions nikolenko_lecture03
20081019 auctions nikolenko_lecture0320081019 auctions nikolenko_lecture03
20081019 auctions nikolenko_lecture03
 
Юрий Владимирович Матиясевич. Десятая проблема Гильберта. Решение и применени...
Юрий Владимирович Матиясевич. Десятая проблема Гильберта. Решение и применени...Юрий Владимирович Матиясевич. Десятая проблема Гильберта. Решение и применени...
Юрий Владимирович Матиясевич. Десятая проблема Гильберта. Решение и применени...
 

More from Computer Science Club

20140531 serebryany lecture01_fantastic_cpp_bugs
20140531 serebryany lecture01_fantastic_cpp_bugs20140531 serebryany lecture01_fantastic_cpp_bugs
20140531 serebryany lecture01_fantastic_cpp_bugsComputer Science Club
 
20140531 serebryany lecture02_find_scary_cpp_bugs
20140531 serebryany lecture02_find_scary_cpp_bugs20140531 serebryany lecture02_find_scary_cpp_bugs
20140531 serebryany lecture02_find_scary_cpp_bugsComputer Science Club
 
20140531 serebryany lecture01_fantastic_cpp_bugs
20140531 serebryany lecture01_fantastic_cpp_bugs20140531 serebryany lecture01_fantastic_cpp_bugs
20140531 serebryany lecture01_fantastic_cpp_bugsComputer Science Club
 
20140511 parallel programming_kalishenko_lecture12
20140511 parallel programming_kalishenko_lecture1220140511 parallel programming_kalishenko_lecture12
20140511 parallel programming_kalishenko_lecture12Computer Science Club
 
20140427 parallel programming_zlobin_lecture11
20140427 parallel programming_zlobin_lecture1120140427 parallel programming_zlobin_lecture11
20140427 parallel programming_zlobin_lecture11Computer Science Club
 
20140420 parallel programming_kalishenko_lecture10
20140420 parallel programming_kalishenko_lecture1020140420 parallel programming_kalishenko_lecture10
20140420 parallel programming_kalishenko_lecture10Computer Science Club
 
20140413 parallel programming_kalishenko_lecture09
20140413 parallel programming_kalishenko_lecture0920140413 parallel programming_kalishenko_lecture09
20140413 parallel programming_kalishenko_lecture09Computer Science Club
 
20140329 graph drawing_dainiak_lecture02
20140329 graph drawing_dainiak_lecture0220140329 graph drawing_dainiak_lecture02
20140329 graph drawing_dainiak_lecture02Computer Science Club
 
20140329 graph drawing_dainiak_lecture01
20140329 graph drawing_dainiak_lecture0120140329 graph drawing_dainiak_lecture01
20140329 graph drawing_dainiak_lecture01Computer Science Club
 
20140310 parallel programming_kalishenko_lecture03-04
20140310 parallel programming_kalishenko_lecture03-0420140310 parallel programming_kalishenko_lecture03-04
20140310 parallel programming_kalishenko_lecture03-04Computer Science Club
 
20140216 parallel programming_kalishenko_lecture01
20140216 parallel programming_kalishenko_lecture0120140216 parallel programming_kalishenko_lecture01
20140216 parallel programming_kalishenko_lecture01Computer Science Club
 

More from Computer Science Club (20)

20141223 kuznetsov distributed
20141223 kuznetsov distributed20141223 kuznetsov distributed
20141223 kuznetsov distributed
 
Computer Vision
Computer VisionComputer Vision
Computer Vision
 
20140531 serebryany lecture01_fantastic_cpp_bugs
20140531 serebryany lecture01_fantastic_cpp_bugs20140531 serebryany lecture01_fantastic_cpp_bugs
20140531 serebryany lecture01_fantastic_cpp_bugs
 
20140531 serebryany lecture02_find_scary_cpp_bugs
20140531 serebryany lecture02_find_scary_cpp_bugs20140531 serebryany lecture02_find_scary_cpp_bugs
20140531 serebryany lecture02_find_scary_cpp_bugs
 
20140531 serebryany lecture01_fantastic_cpp_bugs
20140531 serebryany lecture01_fantastic_cpp_bugs20140531 serebryany lecture01_fantastic_cpp_bugs
20140531 serebryany lecture01_fantastic_cpp_bugs
 
20140511 parallel programming_kalishenko_lecture12
20140511 parallel programming_kalishenko_lecture1220140511 parallel programming_kalishenko_lecture12
20140511 parallel programming_kalishenko_lecture12
 
20140427 parallel programming_zlobin_lecture11
20140427 parallel programming_zlobin_lecture1120140427 parallel programming_zlobin_lecture11
20140427 parallel programming_zlobin_lecture11
 
20140420 parallel programming_kalishenko_lecture10
20140420 parallel programming_kalishenko_lecture1020140420 parallel programming_kalishenko_lecture10
20140420 parallel programming_kalishenko_lecture10
 
20140413 parallel programming_kalishenko_lecture09
20140413 parallel programming_kalishenko_lecture0920140413 parallel programming_kalishenko_lecture09
20140413 parallel programming_kalishenko_lecture09
 
20140329 graph drawing_dainiak_lecture02
20140329 graph drawing_dainiak_lecture0220140329 graph drawing_dainiak_lecture02
20140329 graph drawing_dainiak_lecture02
 
20140329 graph drawing_dainiak_lecture01
20140329 graph drawing_dainiak_lecture0120140329 graph drawing_dainiak_lecture01
20140329 graph drawing_dainiak_lecture01
 
20140310 parallel programming_kalishenko_lecture03-04
20140310 parallel programming_kalishenko_lecture03-0420140310 parallel programming_kalishenko_lecture03-04
20140310 parallel programming_kalishenko_lecture03-04
 
20140223-SuffixTrees-lecture01-03
20140223-SuffixTrees-lecture01-0320140223-SuffixTrees-lecture01-03
20140223-SuffixTrees-lecture01-03
 
20140216 parallel programming_kalishenko_lecture01
20140216 parallel programming_kalishenko_lecture0120140216 parallel programming_kalishenko_lecture01
20140216 parallel programming_kalishenko_lecture01
 
20131106 h10 lecture6_matiyasevich
20131106 h10 lecture6_matiyasevich20131106 h10 lecture6_matiyasevich
20131106 h10 lecture6_matiyasevich
 
20131027 h10 lecture5_matiyasevich
20131027 h10 lecture5_matiyasevich20131027 h10 lecture5_matiyasevich
20131027 h10 lecture5_matiyasevich
 
20131027 h10 lecture5_matiyasevich
20131027 h10 lecture5_matiyasevich20131027 h10 lecture5_matiyasevich
20131027 h10 lecture5_matiyasevich
 
20131013 h10 lecture4_matiyasevich
20131013 h10 lecture4_matiyasevich20131013 h10 lecture4_matiyasevich
20131013 h10 lecture4_matiyasevich
 
20131006 h10 lecture3_matiyasevich
20131006 h10 lecture3_matiyasevich20131006 h10 lecture3_matiyasevich
20131006 h10 lecture3_matiyasevich
 
20131006 h10 lecture3_matiyasevich
20131006 h10 lecture3_matiyasevich20131006 h10 lecture3_matiyasevich
20131006 h10 lecture3_matiyasevich
 

20101127 search query_analysis_braslavski_lecture02

  • 2. Тематическая классификацияТематическая классификация ?Зачем? • релевантность (в т.ч. рекламы)р ( р ) • вертикальные поиски ДанныеДанные • список запросов • коллекция текстов • вебвеб • клики Павел Браславский ‐ Анализ запросов 35
  • 3. Selectional Preferences: Step 1Selectional Preferences: Step 1 • Obtain a large log of unlabeled web queries • View each query as pairs of lexical units:View each query as pairs of lexical units: – <head, tail> O l li bl i f 2– Only applicable to queries of 2+ terms – Queries with n terms form n‐1 pairs – Example: “directions to DIMACS” forms two pairs: • <directions to DIMACS> and <directions to<directions, to DIMACS> and <directions to,  DIMACS> Павел Браславский ‐ Анализ запросов 36[Beitzel]
  • 4. Selectional Preferences: Step 2Selectional Preferences: Step 2 Obt i t f ll l b l d i• Obtain a set of manually labeled queries • Check the heads and tails of each pair to see if  h i h ll l b l dthey appear in the manually labeled set • Convert each <head, tail> pair into: – <head, CATEGORY> (forward preference) – <CATEGORY, tail> (backward preference) Павел Браславский ‐ Анализ запросов 37[Beitzel]
  • 5. Selectional Preferences: Step 2Selectional Preferences: Step 2 “Personal Finance” Category “Personal Finance” CategoryCategory Query Log Forward SP Rule:… banks Category Query Log Forward SP Rule:… banks … Yahoo mail banks bonds stocks Head PERSONAL Tail… Yahoo mail banks bonds stocks Head PERSONAL Tail interest rates Ebay motors … rates savings checking interest PERSONAL FINANCE interest rates Ebay motors … rates savings checking interest PERSONAL FINANCE …… Павел Браславский ‐ Анализ запросов 38[Beitzel]
  • 6. Selectional Preferences: Step 3Selectional Preferences: Step 3 • Score each preference using Resnik’s Selectional Preference  Strength formula: S (x ) = D ( P (U |x ) || P (U ) ) P (u |x ) P (u |x )lo g ⎛ ⎞ ⎜ ⎟∑ 2 u ( | ) = P (u |x )lo g P (u ) ⎜ ⎟ ⎝ ⎠ ∑ Where u represents a category, as found in Step 2. S(x) is the sum of the weighted scores for every category  i d i h i l i l iassociated with a given lexical unit Павел Браславский ‐ Анализ запросов 39[Beitzel]
  • 7. Selectional Preferences: Step 4Selectional Preferences: Step 4 • Use the mined preferences and weighted scores from Steps 3 and 4 to  assign classifications to unseen queries Incoming Query Matching SP Rule: Head Tail Incoming Query Matching SP Rule: Head Tail interest only loan Incoming Query interest PERSONAL FINANCE interest only loan Incoming Query interest PERSONAL FINANCE “interest only loan” is classified as a“interest only loan” is classified as ate est o y oa s c ss ed s PERSONAL FINANCE query. te est o y oa s c ss ed s PERSONAL FINANCE query. Павел Браславский ‐ Анализ запросов 40[Beitzel]
  • 8. Selectional Preference Rule ExamplesSelectional Preference Rule Examples Forward Rules – harlem club X Backward Rules – X gets hot wont startharlem club X • ENT‐>0.722  • PLACES‐>0.378  • TRAVEL >1 531 • AUTOS‐>2.049  • PLACES‐>0.594 – X getaway bargain• TRAVEL‐>1.531 – harley all stainless X • AUTOS‐>3.448 g y g • PLACES‐>0.877 • SHOPPING‐>0.047 • TRAVEL‐>0.862  • SHOPPING‐>0.021  – harley chicks with X • PORN‐>5.681 – X getaway bargain hotel and  airfare • PLACES‐>0.594PORN 5.681  • TRAVEL‐>2.057  Павел Браславский ‐ Анализ запросов 41[Beitzel]
  • 9. На основе коллекции текстовНа основе коллекции текстов запросзапрос поиск дом спорт музыка кинодом спорт музыка кино 10 15 0 5 Павел Браславский ‐ Анализ запросов 42 0
  • 10. KDD Cup 2005KDD Cup 2005 • Классификация запросов • 800,000 запросов, 67 категорий б• есть примеры, нет обучающего множества • нет подробного описания категорий • ответ системы: до 5 категорий• ответ системы: до 5 категорий  • оценка: 800 запросов оцениваются тремя асессорами  • метрика: F1метрика: F1 Павел Браславский ‐ Анализ запросов 43
  • 11. Nature of ProblemNature of Problem queries …? 67 kdd-categories synonym-basedPage Categories Phase I Phase II classifier query … 67 kdd-categoriesSearch engines Page Content statistical Павел Браславский ‐ Анализ запросов 44 classifiers [Shen]
  • 12. Phase I: From queries to pages and  categories  • Input:  – A query: Qi, • We collected  – 40 million entries 50GBA query: Qi,  • Output:  – <Page listi, Category listi >  – 50GB • Search engines – Lumur (CMU open source) • Approach:  – through Search Engines (SE) ( p ) – Google  – ODP L k t– Looksmart Павел Браславский ‐ Анализ запросов 45[Shen]
  • 13. Phase II.a Synonym‐based Classifier:  using directories – 67 KDD‐categories in KDDCUP – 172,565 in ODP/Google, • Advantage – Fast, – Precise172,565 in ODP/Google,  272,405 in Looksmart • For each of the KDDCUP category • Disadvantage – Many of the 172K and 272K  categories from ODP/Google  d L k t d t t g y – Apply Wordnet to find the  corresponding synonyms in the  categories of ODP (Google) and  Looksmart respectively and Looksmart do not map to  KDDCUP categories – This may result in low recall Looksmart, respectively • This produces one mapping  function f for each directory – Also returns a rank by matchingAlso returns a rank by matching  frequency Павел Браславский ‐ Анализ запросов 46[Shen]
  • 14. Phase II b: Statistical ClassifiersPhase II.b: Statistical Classifiers • Statistical Classifiers• Statistical Classifiers – Support Vector Machine (SVM): mapping pages to KDDCUP categories • Training Data – 15 million pages with categories from ODP Directory– 15 million pages with categories from ODP Directory – Apply the mapping f from Phase II.a, to build training data.   f15 Million Pairs 15 Million Pairs • Application of the classifier f15 Million Pairs (page, odp-categories) 15 Million Pairs (page, kdd-categories) – Construct a virtual document for each query by combining the snippets from the  returned pages given in Phase I. – Classifier returns category and rank Павел Браславский ‐ Анализ запросов 47[Shen]
  • 15. Component Classifier IntegrationComponent Classifier Integration W f ll bl l i h• We follow an ensemble learning approach – Each classifier returns the category and rank – The two kinds of classifiers have the similar performance.p – We integrate the different classifiers together by a weighted  sum of the ranks • Weights can be determined by validation data set:• Weights can be determined by validation data set: – Based on the performance on the 111 sample data; – Assign different weight values for a classifier on different categories – The higher the precision the higher the weight valueThe higher the precision, the higher the weight value • We have also tried to use equally weighted component  classifiers Павел Браславский ‐ Анализ запросов 48[Shen]
  • 16. Final Result GenerationFinal Result Generation • Two Solutions: One for each evaluation criteria  – S1: Using the validation data set is expected to achieve better precision  measuremeasure  • Since each component classifier is highly weighted on the classes  where it achieves high precision. S2 E ll i ht d bi ti i t d t hi hi h F1– S2: Equally weighted combination is expected to achieve higher F1  performance  • Since the recall is relatively high – Evaluation Results(http://www.acm.org/sigs/sigkdd/kdd2005/kddcup.html) Submission ID Precision F1 S1 37 0.423741 0.426123 • The Results are generated automatically. S2 22 0.414067 0.444395 Павел Браславский ‐ Анализ запросов 49 [Shen]
  • 17. Putting them togetherPutting them together Phase I Phase II Ensemble Павел Браславский ‐ Анализ запросов 50 [Shen]
  • 18. Классификация на основе кликовКлассификация на основе кликов 1. Расширение обучающего множества 2. Классификация на основе лексических признаков 3. Комбинация методов Павел Браславский ‐ Анализ запросов 51 Li et al. SIGIR2008 ц д
  • 19. Классификация запросовКлассификация запросов x за рос y к асс (0/1)x – запрос, y – класс (0/1) Признаки φ(x, y) - n‐граммы [britney spears][britney spears]  britney, spears,  <s> britney britney spears spears </s><s> britney, britney spears, spears </s>,  <s> britney spears, britney spears </s> Павел Браславский ‐ Анализ запросов 52
  • 20. Распространение метокРаспространение меток • W – матрица mxn, wij – количество кликов на  документ j по запросу iд у j р у • F – матрица mx2, fiy – вероятность  принадлежности запроса i классу yпринадлежности запроса i классу y • F0 – первоначальная разметка И• Итерации: Павел Браславский ‐ Анализ запросов 53
  • 23. михаил булгаков богдан ступка и аил булга ов мастер и маргарита мастер и маргарита фильм богда с у а михаил боярский  д'артаньянмастер и маргарита фильм  владимир бортко д'артаньян три мушкетера тарас бульба фильм  александр дюма 56Павел Браславский ‐ Анализ запросов
  • 24. ПодробнееПодробнее 1. Уточнение: золотое кольцо  золотое кольцо с бриллиантом 2. Снятие неоднозначности:  ягуар  ягуар животное 3. Расширение:  золотое кольцо  ювелирные украшения 4. Синоним:   японская вишня  сакура 57Павел Браславский ‐ Анализ запросов
  • 25. Еще подробнееЕще подробнее 5. Другой запрос на ту же тему:  мерседес ауди 6 С й6. Смена поисковой цели: купить санки детский мир 7 Перевод:7. Перевод:  коралловый клуб  coral club 58Павел Браславский ‐ Анализ запросов
  • 26. Близкие но «про другое»Близкие, но «про другое» • Опечатки: курсовая робота – курсовая работа • Транслитерация: золото – zoloto • Раскладка: lbvf ,bkfy – дима билан • Реникса: otbeptka – отвертка• Реникса: otbeptka – отвертка 59Павел Браславский ‐ Анализ запросов
  • 27. Хороший запрос это непростоХороший запрос – это непросто Назовите глагол из вопроса, помещенного  б дна борту транспортного средства  подопечных Фатиха Терима на первенстве континента? IX Кубок Яндекса по поиску (2008) http://kubok.yandex.ru Павел Браславский ‐ Анализ запросов 60
  • 28. Работа мыслиРабота мысли • Фатих Терим • сборная турции на борту самолета  • сборная турции "на борту" самолетасборная турции на борту  самолета  • сборная турции надпись "на борту" самолета  • сборная турции надпись "на борту" автобуса  • сборная турции надпись на автобусе  • футбол "сборная турции" надпись на автобусе  ф б " б " б• чемпионат европы футбол "сборная турции" надпись на автобусе  61Павел Браславский ‐ Анализ запросов
  • 29. ОтветОтвет Вместит ли автобус всю страсть Турции?Вместит ли автобус всю страсть Турции? 62Павел Браславский ‐ Анализ запросов
  • 36. Источники данныхИсточники данных • Лог запросов • Текст ссылокТекст ссылок  • Корпус текстов ford  ford focus, ford fusion, ford mondeo карта  карта памяти, карта города машина  стиральная машина, швейная машина  69Павел Браславский ‐ Анализ запросов
  • 37. Близость запросовБлизость запросов q2 q3 q4q1 слова/буквы сессиислова/буквы сессии клики 70Павел Браславский ‐ Анализ запросов
  • 39. Метод 2Метод – 2  3 (3. нормализация запросов (стоп‐слова, капитализация, лемматизация,  сортировка слов + выбор лучшего обратного преобразования) 4 борьба со флешмобами и «событийными» ассоциациями4. борьба со флешмобами и «событийными» ассоциациями  5. матрица частоты переходов «запрос‐запрос» (пороги для  пользователя ограничение на абсолютную частоту)пользователя, ограничение на абсолютную частоту) 6. weight(q1  q2)= f(freqq1, freqq2, freqq1q2)*f(freqq2q1) 7. ранжирование, отсечение по порогу 8. индекс: q  q1, q2, q3… (оригинальные запросы)д q q , q , q ( р р ) Павел Браславский ‐ Анализ запросов 72
  • 40. ОценкаОценка • «оценка глазами» • «классы объектов»«классы объектов» • кластеры запросов Яндекс.Директа • кликабельность 73Павел Браславский ‐ Анализ запросов
  • 42. ЛитератураЛитература • Broder A. A Taxonomy of Web Search. SIGIR 2002. • Broder A. et al. Robust classification of rare queries using web knowledge.  SIGIR 2007. • Risvik K. M. et al. Query Segmentation for Web Search. WWW2003.  • Bergsma S. & Wang Q. I. Learning Noun Phrase Query Segmentation.  EMNLP‐CoNLL 2007. • Hagen M. et al. The Power of Naïve Query Segmentation. SIGIR 2010. • Beitzel, S.M. et al. Temporal analysis of a very large topically categorized  web query log, JASIST, vol. 58, no. 2, 2007. • Beitzel, S.M., et al. Automatic classification of web queries using very large  l b l d l ACM T I f S 25(2) 9 2007unlabeled query logs. ACM Trans. Inf. Syst., 25(2):9, 2007. • Shen D. et al. Q2C@UST: Our Winning Solution to Query Classification in  KDDCUP 2005, SIGKDD Explorations 7(2). Li X l L i Q I f R l i d Cli k G h SIGIR• Li X. et al. Learning Query Intent from Regularized Click Graphs. SIGIR  2008. Павел Браславский ‐ Анализ запросов 75
  • 43. СсылкиСсылки • И AOL• История про лог AOL – см.  http://en.wikipedia.org/wiki/AOL_search_data_scandal • Поиск по логу AOL2006 htt // l t lk /http://www.aolstalker.com/ • Query Log Analysis Workshop @ WWW2007,  http://querylogs2007.webir.org/ • KDD Cup 2005, http://www.sigkdd.org/kdd2005/kddcup.html • WSCD09: Workshop on Web Search Click Data 2009,  http://research.microsoft.com/users/nickcr/wscd09/p // / / / / • Microsoft Web N‐gram Services, http://research.microsoft.com/en‐ us/collaboration/focus/cs/web‐ngram.aspx • Jiang D et al Web Search/Browse Log Mining: ChallengesJiang D. et al. Web Search/Browse Log Mining: Challenges,  Methods, and Applications, http://research.microsoft.com/en‐ us/people/djiang/web_search_and_browse_log_mining.pdf Павел Браславский ‐ Анализ запросов 76
  • 45. ПрактикаПрактика З• Задачи  – Сегментация – Тематическая классификацияТематическая классификация – Близкие запросы • Данные – AOL2006Д http://www.gregsadetsky.com/aol‐data/ – seed ~2000 запросов,  http://www kansas ru/querylog analysis/2000queries txthttp://www.kansas.ru/querylog_analysis/2000queries.txt – + описания DMOZ для категорий второго уровня http://narod.ru/disk/371552001/dmoz_data.zip.html • Можно использовать любые внешние ресурсы (не  человеческие ;) Павел Браславский ‐ Анализ запросов 78
  • 47. ПримерыПримеры Сегментация • at the vet | norman rockwell | litho • big weenie | by eminem Тематическая классификация • big weenie by eminem ‐‐> Arts_Music /t Art_Television До трех категорий, упорядоченных по уменьшению уверенности Кластеризация • 1996 mitsubishi mirage ‐‐> 2001 subaru impreza wagon /t toyotag p g / y corolla /t toyota sienna hybrid До 10 запросов из большого лога (сначала – самый близкий) Павел Браславский ‐ Анализ запросов 80
  • 48. • Присылайте по почте с темой  querylog_analysis_resultsq y g_ y _ • segmentation_имя_фамилия.txt l ifi i ф• classification_имя_фамилия.txt • clustering имя фамилия.txtg_ _ф • имя_фамилия.pdf ‐ краткое описание  методов Павел Браславский ‐ Анализ запросов 81