SlideShare a Scribd company logo
1 of 52
Алгоритм полнотекстокового поиска с обучением на основе статистических данных Алексей Колосов
Оглавление ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
Задача ,[object Object],[object Object],[object Object]
Рабочий процесс Не помогло? До: После: Помогло?
Обработка данных Вопрос  пользователя (произвольный рус./англ. текст) Ссылки на документы Вход Выход Поисковая система
Поиск по теме сообщения - результаты
Практические задачи ,[object Object],[object Object],[object Object],[object Object]
Отличия данного вида поиска от поиска в Интернете ,[object Object],[object Object],[object Object],[object Object]
[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
Функции системы (подзадачи)
[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
Обработка запросов ,[object Object],[object Object],[object Object],[object Object]
Выявление словосочетаний – знаки препинания  ( при индексировании) ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
Выявление словосочетаний - семантика ,[object Object],[object Object]
Пример запроса ,[object Object],[object Object],[object Object],[object Object]
Концептуальный граф - фрагмент
Отфильтрованные предложения
Результаты разбора ,[object Object],[object Object],[object Object],[object Object]
[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
Поисковый алгоритм ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
Используемая модель ,[object Object],[object Object],[object Object],[object Object]
Процесс поиска
Релевантность по словам где  – вес соответсвующих слов, вычисленный по формуле tf.
Релевантность по словосочетаниям ,[object Object],[object Object],[object Object]
Релевантность по словосочетаниям. Факторы ,[object Object],[object Object],[object Object]
Есть ли словосочетание в тексте? ,[object Object],[object Object],[object Object]
Словосочетание есть в документе, если... ,[object Object],[object Object],[object Object],[object Object],[object Object]
Релевантность по словосочетаниям - формула среднее арифметическое релевантностей по каждому из рассматриваемых словосочетаний  p i , выделенных из запроса  q .  Здесь  w pi   –  вес словосочетания в запросе,  R p  - релевантность документа словосочетанию  p i ,  вычисляемая по следующей форумле: где  – количество слов в словосочетании  p i ,  –  суммарное расстояние между каждым из этих слов в рассматриваемом документе  d j , вычисленное для каждого вхождения в документ словосочетания  p i .
Итоговая релевантность ,[object Object],[object Object],[object Object]
Итоговая релевантность - формула где  – косинус угла между векторами запроса  q  и документа  d j , характеризующий их близость по ключевым словам ,  R phrase  –  релевантность по словосочетаниям,  W field  –  вес проиндексированного поля
[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
Эксперимент. Формула оценки качества поиска где  rel i  – релевантность, проставленная асессором  [0..2] , i –  порядковый номер результата в выдаче p  = 10  –  количество оцениваемых результатов
Результаты экспериментов Среднее качество « top 10 » результатов ( discounted cumulative gain) ,  max=10,51 Количество запросов
[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
Обучение ,[object Object],[object Object],[object Object],[object Object]
Особенности: ,[object Object],[object Object],[object Object]
Оценка качества при поиске   по тексту ,[object Object],Хорошие результаты – просмотренные документы Плохие результаты – просмотренные документы Плохие  результаты поиска: Плохие результаты – документы с первой страницы результатов
Оценка качества при обычном поиске ,[object Object],Хорошие результаты – просмотренные документы Хорошие результаты – просмотренные документы
Оценка качества при обычном поиске ,[object Object],Плохие результаты – все показанные документы с номерами  [ 0 , N-1],  где  N –  номер первого просмотренного документа Плохие результаты – документы с первой страницы результатов Плохие результаты – просмотренные документы
Корректировка весов после поиска ,[object Object],[object Object],[object Object]
Корректировка весов после поиска где  – текущий скорректированный вес ключевого слова в индексе (измененный ранее в результате обработки статистики),  –  вес ключевого слова, изначально вычисленный по формуле  tf .  Значение  n  берется в зависимости от полезности обрабатываемого результата. Если результат является плохим, берется  n  = 1, если хорошим – берется  n  = 2.  K   > 0 –  константа.
Корректировка весов при изменении документа ,[object Object],[object Object],[object Object]
Корректировка весов при изменении документа - формула w i , j   =  tf i , j   +  cos ( d ’ j ,  d j ) · ( tf i , j   -  w’ i , j ) здесь  cos ( d ’ j ,  d j ) – схожесть старой версии документа  d j  и новой версии документа  d ’ j , вычисленная как косинус угла между их векторами ,   tf i , j  – вес слова в новой версии документа,  w’ i , j  – скорректированный вес слова в старой версии документа.
[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
Обучение распознаванию фраз ,[object Object],[object Object],[object Object],[object Object]
Обучение распознаванию фраз. Пример ,[object Object],[object Object],[object Object]
Обучение распознаванию фраз. Пример ,[object Object],[object Object],[object Object],[object Object]
Выводы ,[object Object],[object Object],[object Object]
Вопросы?
Выявление близких по смыслу слов ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

More Related Content

What's hot

What's hot (6)

Запуск клуба "Поисковые системы"
Запуск клуба "Поисковые системы"Запуск клуба "Поисковые системы"
Запуск клуба "Поисковые системы"
 
04 извлечение информации
04 извлечение информации04 извлечение информации
04 извлечение информации
 
Комбинирование факторов для разрешения референции местоимений
Комбинирование факторов для разрешения референции местоименийКомбинирование факторов для разрешения референции местоимений
Комбинирование факторов для разрешения референции местоимений
 
Tomita
TomitaTomita
Tomita
 
Концепция поисковых расширений
Концепция поисковых расширенийКонцепция поисковых расширений
Концепция поисковых расширений
 
Query expansion
Query expansionQuery expansion
Query expansion
 

Viewers also liked

MassChallenge Startup Names Analysis
MassChallenge Startup Names AnalysisMassChallenge Startup Names Analysis
MassChallenge Startup Names Analysisjloha312
 
01 информационный поиск
01 информационный поиск01 информационный поиск
01 информационный поискLidia Pivovarova
 
Enterprise Flex applications on tablet devices
Enterprise Flex applications on tablet devicesEnterprise Flex applications on tablet devices
Enterprise Flex applications on tablet devicesMichael Chaize
 
Atividades Práticas Com Professor Robson
Atividades Práticas Com Professor RobsonAtividades Práticas Com Professor Robson
Atividades Práticas Com Professor Robsonguest97bf29
 
2009 Meet The Principal
2009 Meet The Principal2009 Meet The Principal
2009 Meet The Principalph0enix74
 
Martin karlssons vykortssamling hum. läroverket och lekmannaskolan
Martin karlssons vykortssamling   hum. läroverket och lekmannaskolanMartin karlssons vykortssamling   hum. läroverket och lekmannaskolan
Martin karlssons vykortssamling hum. läroverket och lekmannaskolanhembygdsigtuna
 
Adobe flash platform java
Adobe flash platform javaAdobe flash platform java
Adobe flash platform javaMichael Chaize
 
Enhancing the pedagogical value through lecture capture
Enhancing the pedagogical value through lecture captureEnhancing the pedagogical value through lecture capture
Enhancing the pedagogical value through lecture captureIlkka Kukkonen
 
Martin karlssons vykortssamling stadshotellet
Martin karlssons vykortssamling   stadshotelletMartin karlssons vykortssamling   stadshotellet
Martin karlssons vykortssamling stadshotellethembygdsigtuna
 
مناظرات الإنتداب بالقطاع العمومي
مناظرات الإنتداب بالقطاع العموميمناظرات الإنتداب بالقطاع العمومي
مناظرات الإنتداب بالقطاع العموميSlim Hmaied
 

Viewers also liked (16)

MassChallenge Startup Names Analysis
MassChallenge Startup Names AnalysisMassChallenge Startup Names Analysis
MassChallenge Startup Names Analysis
 
01 информационный поиск
01 информационный поиск01 информационный поиск
01 информационный поиск
 
Managing terabytes
Managing terabytesManaging terabytes
Managing terabytes
 
Hide you file behind a picture
Hide you file behind a pictureHide you file behind a picture
Hide you file behind a picture
 
Enterprise Flex applications on tablet devices
Enterprise Flex applications on tablet devicesEnterprise Flex applications on tablet devices
Enterprise Flex applications on tablet devices
 
Pg92 HA, LCA 2012, Ballarat
Pg92 HA, LCA 2012, BallaratPg92 HA, LCA 2012, Ballarat
Pg92 HA, LCA 2012, Ballarat
 
Camping2006
Camping2006Camping2006
Camping2006
 
Atividades Práticas Com Professor Robson
Atividades Práticas Com Professor RobsonAtividades Práticas Com Professor Robson
Atividades Práticas Com Professor Robson
 
2009 Meet The Principal
2009 Meet The Principal2009 Meet The Principal
2009 Meet The Principal
 
Martin karlssons vykortssamling hum. läroverket och lekmannaskolan
Martin karlssons vykortssamling   hum. läroverket och lekmannaskolanMartin karlssons vykortssamling   hum. läroverket och lekmannaskolan
Martin karlssons vykortssamling hum. läroverket och lekmannaskolan
 
Mond tot Mond
Mond tot MondMond tot Mond
Mond tot Mond
 
Adobe flash platform java
Adobe flash platform javaAdobe flash platform java
Adobe flash platform java
 
Enhancing the pedagogical value through lecture capture
Enhancing the pedagogical value through lecture captureEnhancing the pedagogical value through lecture capture
Enhancing the pedagogical value through lecture capture
 
Martin karlssons vykortssamling stadshotellet
Martin karlssons vykortssamling   stadshotelletMartin karlssons vykortssamling   stadshotellet
Martin karlssons vykortssamling stadshotellet
 
Process Groups
Process GroupsProcess Groups
Process Groups
 
مناظرات الإنتداب بالقطاع العمومي
مناظرات الإنتداب بالقطاع العموميمناظرات الإنتداب بالقطاع العمومي
مناظرات الإنتداب بالقطاع العمومي
 

Similar to Алексей Колосов

Принципы работы поисковой системы
Принципы работы поисковой системыПринципы работы поисковой системы
Принципы работы поисковой системыNetpeak
 
Принципы работы поисковой системы
Принципы работы поисковой системыПринципы работы поисковой системы
Принципы работы поисковой системыNetpeak
 
QA Fest 2018. Анастасия Асеева. Shift-Left Testing
QA Fest 2018. Анастасия Асеева. Shift-Left TestingQA Fest 2018. Анастасия Асеева. Shift-Left Testing
QA Fest 2018. Анастасия Асеева. Shift-Left TestingQAFest
 
Ainl 2013 bogatyrev_математическая и лингвистическая
Ainl 2013 bogatyrev_математическая и лингвистическаяAinl 2013 bogatyrev_математическая и лингвистическая
Ainl 2013 bogatyrev_математическая и лингвистическаяAINL Conferences
 
Максим Литвинов
Максим ЛитвиновМаксим Литвинов
Максим ЛитвиновLidia Pivovarova
 
Process Quality, QA and QC. QA Club. Kharkov. Ukraine
Process Quality, QA and QC. QA Club. Kharkov. UkraineProcess Quality, QA and QC. QA Club. Kharkov. Ukraine
Process Quality, QA and QC. QA Club. Kharkov. UkraineSergiy Povolyashko
 
уровни подготовленности по теме лекции № 1
уровни подготовленности по теме лекции № 1уровни подготовленности по теме лекции № 1
уровни подготовленности по теме лекции № 1Аркадий Захаров
 
Денис Бесков -- Послание аналитиков тестировщикам
Денис Бесков -- Послание аналитиков тестировщикамДенис Бесков -- Послание аналитиков тестировщикам
Денис Бесков -- Послание аналитиков тестировщикамsqadays8
 
Фишки из патентов Google на GuruConf-2017
Фишки из патентов Google на GuruConf-2017Фишки из патентов Google на GuruConf-2017
Фишки из патентов Google на GuruConf-2017Taras Gushcha
 

Similar to Алексей Колосов (20)

Авиком
АвикомАвиком
Авиком
 
Принципы работы поисковой системы
Принципы работы поисковой системыПринципы работы поисковой системы
Принципы работы поисковой системы
 
Принципы работы поисковой системы
Принципы работы поисковой системыПринципы работы поисковой системы
Принципы работы поисковой системы
 
Evaluation in-nlp
Evaluation in-nlpEvaluation in-nlp
Evaluation in-nlp
 
QA Fest 2018. Анастасия Асеева. Shift-Left Testing
QA Fest 2018. Анастасия Асеева. Shift-Left TestingQA Fest 2018. Анастасия Асеева. Shift-Left Testing
QA Fest 2018. Анастасия Асеева. Shift-Left Testing
 
Информационный поиск. Методы оценки качества поиска. Эволюция результатов
Информационный поиск. Методы оценки качества поиска. Эволюция результатовИнформационный поиск. Методы оценки качества поиска. Эволюция результатов
Информационный поиск. Методы оценки качества поиска. Эволюция результатов
 
Системы автоматического составления обзорных рефератов
Системы автоматического составления обзорных рефератовСистемы автоматического составления обзорных рефератов
Системы автоматического составления обзорных рефератов
 
Извлечение перевожных эквивалентов из параллельных корпусов
Извлечение перевожных эквивалентов из параллельных корпусовИзвлечение перевожных эквивалентов из параллельных корпусов
Извлечение перевожных эквивалентов из параллельных корпусов
 
Рассуждения на основе прецедентов
Рассуждения на основе прецедентовРассуждения на основе прецедентов
Рассуждения на основе прецедентов
 
Ainl 2013 bogatyrev_математическая и лингвистическая
Ainl 2013 bogatyrev_математическая и лингвистическаяAinl 2013 bogatyrev_математическая и лингвистическая
Ainl 2013 bogatyrev_математическая и лингвистическая
 
Максим Литвинов
Максим ЛитвиновМаксим Литвинов
Максим Литвинов
 
Process Quality, QA and QC. QA Club. Kharkov. Ukraine
Process Quality, QA and QC. QA Club. Kharkov. UkraineProcess Quality, QA and QC. QA Club. Kharkov. Ukraine
Process Quality, QA and QC. QA Club. Kharkov. Ukraine
 
уровни подготовленности по теме лекции № 1
уровни подготовленности по теме лекции № 1уровни подготовленности по теме лекции № 1
уровни подготовленности по теме лекции № 1
 
Денис Бесков -- Послание аналитиков тестировщикам
Денис Бесков -- Послание аналитиков тестировщикамДенис Бесков -- Послание аналитиков тестировщикам
Денис Бесков -- Послание аналитиков тестировщикам
 
Lande, Jigalo
Lande, JigaloLande, Jigalo
Lande, Jigalo
 
л 2 7
л 2 7л 2 7
л 2 7
 
Фишки из патентов Google на GuruConf-2017
Фишки из патентов Google на GuruConf-2017Фишки из патентов Google на GuruConf-2017
Фишки из патентов Google на GuruConf-2017
 
Фишки из патентов Google
Фишки из патентов GoogleФишки из патентов Google
Фишки из патентов Google
 
Смирнова. Методы исправления ошибок в текстах, написанных иностранцами.
Смирнова. Методы исправления ошибок в текстах, написанных иностранцами.Смирнова. Методы исправления ошибок в текстах, написанных иностранцами.
Смирнова. Методы исправления ошибок в текстах, написанных иностранцами.
 
кулагин поиск близких по смыслу языковых выражений
кулагин поиск близких по смыслу языковых выраженийкулагин поиск близких по смыслу языковых выражений
кулагин поиск близких по смыслу языковых выражений
 

More from Lidia Pivovarova

Classification and clustering in media monitoring: from knowledge engineering...
Classification and clustering in media monitoring: from knowledge engineering...Classification and clustering in media monitoring: from knowledge engineering...
Classification and clustering in media monitoring: from knowledge engineering...Lidia Pivovarova
 
Convolutional neural networks for text classification
Convolutional neural networks for text classificationConvolutional neural networks for text classification
Convolutional neural networks for text classificationLidia Pivovarova
 
Grouping business news stories based on salience of named entities
Grouping business news stories based on salience of named entitiesGrouping business news stories based on salience of named entities
Grouping business news stories based on salience of named entitiesLidia Pivovarova
 
Интеллектуальный анализ текста
Интеллектуальный анализ текстаИнтеллектуальный анализ текста
Интеллектуальный анализ текстаLidia Pivovarova
 
AINL 2016: Bodrunova, Blekanov, Maksimov
AINL 2016: Bodrunova, Blekanov, MaksimovAINL 2016: Bodrunova, Blekanov, Maksimov
AINL 2016: Bodrunova, Blekanov, MaksimovLidia Pivovarova
 
AINL 2016: Rykov, Nagornyy, Koltsova, Natta, Kremenets, Manovich, Cerrone, Cr...
AINL 2016: Rykov, Nagornyy, Koltsova, Natta, Kremenets, Manovich, Cerrone, Cr...AINL 2016: Rykov, Nagornyy, Koltsova, Natta, Kremenets, Manovich, Cerrone, Cr...
AINL 2016: Rykov, Nagornyy, Koltsova, Natta, Kremenets, Manovich, Cerrone, Cr...Lidia Pivovarova
 
AINL 2016: Shavrina, Selegey
AINL 2016: Shavrina, SelegeyAINL 2016: Shavrina, Selegey
AINL 2016: Shavrina, SelegeyLidia Pivovarova
 

More from Lidia Pivovarova (20)

Classification and clustering in media monitoring: from knowledge engineering...
Classification and clustering in media monitoring: from knowledge engineering...Classification and clustering in media monitoring: from knowledge engineering...
Classification and clustering in media monitoring: from knowledge engineering...
 
Convolutional neural networks for text classification
Convolutional neural networks for text classificationConvolutional neural networks for text classification
Convolutional neural networks for text classification
 
Grouping business news stories based on salience of named entities
Grouping business news stories based on salience of named entitiesGrouping business news stories based on salience of named entities
Grouping business news stories based on salience of named entities
 
Интеллектуальный анализ текста
Интеллектуальный анализ текстаИнтеллектуальный анализ текста
Интеллектуальный анализ текста
 
AINL 2016: Yagunova
AINL 2016: YagunovaAINL 2016: Yagunova
AINL 2016: Yagunova
 
AINL 2016: Kuznetsova
AINL 2016: KuznetsovaAINL 2016: Kuznetsova
AINL 2016: Kuznetsova
 
AINL 2016: Bodrunova, Blekanov, Maksimov
AINL 2016: Bodrunova, Blekanov, MaksimovAINL 2016: Bodrunova, Blekanov, Maksimov
AINL 2016: Bodrunova, Blekanov, Maksimov
 
AINL 2016: Boldyreva
AINL 2016: BoldyrevaAINL 2016: Boldyreva
AINL 2016: Boldyreva
 
AINL 2016: Rykov, Nagornyy, Koltsova, Natta, Kremenets, Manovich, Cerrone, Cr...
AINL 2016: Rykov, Nagornyy, Koltsova, Natta, Kremenets, Manovich, Cerrone, Cr...AINL 2016: Rykov, Nagornyy, Koltsova, Natta, Kremenets, Manovich, Cerrone, Cr...
AINL 2016: Rykov, Nagornyy, Koltsova, Natta, Kremenets, Manovich, Cerrone, Cr...
 
AINL 2016: Kozerenko
AINL 2016: Kozerenko AINL 2016: Kozerenko
AINL 2016: Kozerenko
 
AINL 2016: Shavrina, Selegey
AINL 2016: Shavrina, SelegeyAINL 2016: Shavrina, Selegey
AINL 2016: Shavrina, Selegey
 
AINL 2016: Khudobakhshov
AINL 2016: KhudobakhshovAINL 2016: Khudobakhshov
AINL 2016: Khudobakhshov
 
AINL 2016: Proncheva
AINL 2016: PronchevaAINL 2016: Proncheva
AINL 2016: Proncheva
 
AINL 2016:
AINL 2016: AINL 2016:
AINL 2016:
 
AINL 2016: Bugaychenko
AINL 2016: BugaychenkoAINL 2016: Bugaychenko
AINL 2016: Bugaychenko
 
AINL 2016: Grigorieva
AINL 2016: GrigorievaAINL 2016: Grigorieva
AINL 2016: Grigorieva
 
AINL 2016: Muravyov
AINL 2016: MuravyovAINL 2016: Muravyov
AINL 2016: Muravyov
 
AINL 2016: Just AI
AINL 2016: Just AIAINL 2016: Just AI
AINL 2016: Just AI
 
AINL 2016: Moskvichev
AINL 2016: MoskvichevAINL 2016: Moskvichev
AINL 2016: Moskvichev
 
AINL 2016: Goncharov
AINL 2016: GoncharovAINL 2016: Goncharov
AINL 2016: Goncharov
 

Алексей Колосов

  • 1. Алгоритм полнотекстокового поиска с обучением на основе статистических данных Алексей Колосов
  • 2.
  • 3.
  • 4.
  • 5. Рабочий процесс Не помогло? До: После: Помогло?
  • 6. Обработка данных Вопрос пользователя (произвольный рус./англ. текст) Ссылки на документы Вход Выход Поисковая система
  • 7.
  • 8. Поиск по теме сообщения - результаты
  • 9.
  • 10.
  • 11.
  • 13.
  • 14.
  • 15.
  • 16.
  • 17.
  • 20.
  • 21.
  • 22.
  • 23.
  • 25. Релевантность по словам где – вес соответсвующих слов, вычисленный по формуле tf.
  • 26.
  • 27.
  • 28.
  • 29.
  • 30. Релевантность по словосочетаниям - формула среднее арифметическое релевантностей по каждому из рассматриваемых словосочетаний p i , выделенных из запроса q . Здесь w pi – вес словосочетания в запросе, R p - релевантность документа словосочетанию p i , вычисляемая по следующей форумле: где – количество слов в словосочетании p i , – суммарное расстояние между каждым из этих слов в рассматриваемом документе d j , вычисленное для каждого вхождения в документ словосочетания p i .
  • 31.
  • 32. Итоговая релевантность - формула где – косинус угла между векторами запроса q и документа d j , характеризующий их близость по ключевым словам , R phrase – релевантность по словосочетаниям, W field – вес проиндексированного поля
  • 33.
  • 34. Эксперимент. Формула оценки качества поиска где rel i – релевантность, проставленная асессором [0..2] , i – порядковый номер результата в выдаче p = 10 – количество оцениваемых результатов
  • 35. Результаты экспериментов Среднее качество « top 10 » результатов ( discounted cumulative gain) , max=10,51 Количество запросов
  • 36.
  • 37.
  • 38.
  • 39.
  • 40.
  • 41.
  • 42.
  • 43. Корректировка весов после поиска где – текущий скорректированный вес ключевого слова в индексе (измененный ранее в результате обработки статистики), – вес ключевого слова, изначально вычисленный по формуле tf . Значение n берется в зависимости от полезности обрабатываемого результата. Если результат является плохим, берется n = 1, если хорошим – берется n = 2. K > 0 – константа.
  • 44.
  • 45. Корректировка весов при изменении документа - формула w i , j = tf i , j + cos ( d ’ j , d j ) · ( tf i , j - w’ i , j ) здесь cos ( d ’ j , d j ) – схожесть старой версии документа d j и новой версии документа d ’ j , вычисленная как косинус угла между их векторами , tf i , j – вес слова в новой версии документа, w’ i , j – скорректированный вес слова в старой версии документа.
  • 46.
  • 47.
  • 48.
  • 49.
  • 50.
  • 52.