SlideShare a Scribd company logo
1 of 20
Построение правил для автоматического извлечения словосочетаний из текста   Загорулько Максим Юрьевич Научный руководитель н.с. ИСИ СО РАН, к.ф.-м.н. Е.А.Сидорова
Основная цель ,[object Object],[object Object]
Постановка задачи ,[object Object],[object Object],[object Object],[object Object],[object Object]
Структура словосочетания ,[object Object],[object Object],[object Object],[object Object]
Структура словосочетания ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
Структура словосочетания ,[object Object],[object Object],[object Object]
Таблица согласований ,[object Object],с яркий (0) свет (1) Таблица согласований 1. род, число, падеж 2. Число – ед, падеж – рд 3. Число – мн, падеж – тв 4. …………… 5. …………… …… 1- >0 Согл. №1 Корень (1) Яркий свет Словосочетание :  ЯРКИЙ СВЕТ
Согласование ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
Особенности построения связей между элементами словосочетания  ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
Структура  правил ,[object Object],[object Object],[object Object],[object Object],[object Object],Прил (Кач.) Сущ(мж.р неод.) Сущ(ж.р неод.) ед-ч, падеж - род род, число, падеж
Алгоритм извлечения словосочетаний из текста 0 шаг :   (1 обход текста) Составляется словарь терминов. 1 шаг :  ( 2   обход текста )  Для каждого слова текста ищем все правила,  с таким же морфологическим классом корневого элемента. Запоминаем позиции данных правил и сами правила, составляем из них список гипотез. Примерно под таким девизом в 1977 году начиналась наша  лаборатория в Институте естественных наук Бурятского филиала СО  АН СССР. Лаборатория создавалась для исследований по технологии  вольфрама и молибдена; по академической программе — для  претворения в практику физико-химического анализа и результатов Институт – Сущ Правило : Сущ +Прил+Сущ Сущ +Прил+Сущ Позиция : 12 Гипотеза 2 Гипотеза 3
2 шаг :  ( 3   обход текста )  Для каждой гипотезы в соответствии с текущей  позицией в тексте проверяем соответствие морфологического класса элемента правила и слова в тексте. Если соответствие отсутствует –  удаляем гипотезу из списка. 3 шаг :   Для каждой гипотезы проверяем согласование  заданное в правилах. Если согласование не выполнено –  удаляем гипотезу из списка. 4 шаг :   На основе оставшихся гипотез формируем новое словосочетание Примерно под таким девизом в 1977 году начиналась наша  лаборатория в Институте естественных наук Бурятского филиала СО  АН СССР. Лаборатория создавалась для исследований по технологии Сущ +Прил+Сущ Позиция : 12 Гипотеза 2 Гипотеза 3 Институт естественных наук Сущ +Прил+Сущ = ?
Извлечение словосочетаний  ТАБЛИЦА СОГЛАСОВАНИЙ ТАБЛИЦА ПРАВИЛ СЛОВАРЬ СЛОВОСОЧЕТАНИЙ ЯДРО ПОИСКА ОБРАБАТЫВАЕМЫЙ ТЕКСТ СЛОВАРЬ  ТЕРМИНОВ
Словарь словосочетаний  Таблица правил
Редактор словосочетаний
Редактор правил
Согласование морфологических признаков .
Результаты обработки текстов Было  обработано 3 текста  из  разных предметных областей . Таблица правил содержала  5 основных правил
Результаты обработки текстов Название текста Слов в тексте Гипотезы, прошедшие согласование С+Срд С+Ств С+П П+С С+Прил+Срд Отрывок из учебного пособия по гетерогенному катализу. №1 9 000 37% 539 42 12 357 69 Отрывок из учебного пособия по гетерогенному катализу. №2 19 000 38% 1167 99 39 660 84 Михаил Шолохов  "Судьба человека" 7 000 40% 171 58 11 320 13
Перспективы развития ,[object Object],[object Object],[object Object]

More Related Content

Similar to Построение правил для автоматического извлечения словосочетаний из текста

collocations in search
collocations in searchcollocations in search
collocations in searchNLPseminar
 
Ontology and Text Alalize
Ontology and Text AlalizeOntology and Text Alalize
Ontology and Text AlalizeOchirov Tsyren
 
МЕТОД НАВИГАЦИИ ПО ТЕКСТУ ДОКУМЕНТА С ПОМОЩЬЮ АВТОМАТИЧЕСКОЙ ОБРАБОТКИ ЕГО СО...
МЕТОД НАВИГАЦИИ ПО ТЕКСТУ ДОКУМЕНТА С ПОМОЩЬЮ АВТОМАТИЧЕСКОЙ ОБРАБОТКИ ЕГО СО...МЕТОД НАВИГАЦИИ ПО ТЕКСТУ ДОКУМЕНТА С ПОМОЩЬЮ АВТОМАТИЧЕСКОЙ ОБРАБОТКИ ЕГО СО...
МЕТОД НАВИГАЦИИ ПО ТЕКСТУ ДОКУМЕНТА С ПОМОЩЬЮ АВТОМАТИЧЕСКОЙ ОБРАБОТКИ ЕГО СО...ITMO University
 
ПРОБЛЕМЫ ПОПОЛНЕНИЯ СЕМАНТИЧЕСКОГО СЛОВАРЯ
ПРОБЛЕМЫ ПОПОЛНЕНИЯ СЕМАНТИЧЕСКОГО СЛОВАРЯПРОБЛЕМЫ ПОПОЛНЕНИЯ СЕМАНТИЧЕСКОГО СЛОВАРЯ
ПРОБЛЕМЫ ПОПОЛНЕНИЯ СЕМАНТИЧЕСКОГО СЛОВАРЯITMO University
 
Яндекс Малый ШАД - лингвистика в поиске
Яндекс  Малый ШАД - лингвистика в поискеЯндекс  Малый ШАД - лингвистика в поиске
Яндекс Малый ШАД - лингвистика в поискеЕвгений Летов
 
ПОСТРОЕНИЕ ОТНОШЕНИЙ В СМЕШАННОЙ ОНТОЛОГИЧЕСКОЙ СЕТИ ДЛЯ РЕШЕНИЯ ЗАДАЧ ТЕСТИР...
ПОСТРОЕНИЕ ОТНОШЕНИЙ В СМЕШАННОЙ ОНТОЛОГИЧЕСКОЙ СЕТИ ДЛЯ РЕШЕНИЯ ЗАДАЧ ТЕСТИР...ПОСТРОЕНИЕ ОТНОШЕНИЙ В СМЕШАННОЙ ОНТОЛОГИЧЕСКОЙ СЕТИ ДЛЯ РЕШЕНИЯ ЗАДАЧ ТЕСТИР...
ПОСТРОЕНИЕ ОТНОШЕНИЙ В СМЕШАННОЙ ОНТОЛОГИЧЕСКОЙ СЕТИ ДЛЯ РЕШЕНИЯ ЗАДАЧ ТЕСТИР...Сергей Пономарев
 
Fact Extraction (ideograph)
Fact Extraction (ideograph)Fact Extraction (ideograph)
Fact Extraction (ideograph)NLPseminar
 

Similar to Построение правил для автоматического извлечения словосочетаний из текста (20)

Методы морфологического анализа текстов
Методы морфологического анализа текстовМетоды морфологического анализа текстов
Методы морфологического анализа текстов
 
Извлечение терминологических словосочетаний из текстов
Извлечение терминологических словосочетаний из текстовИзвлечение терминологических словосочетаний из текстов
Извлечение терминологических словосочетаний из текстов
 
Rule b platf
Rule b platfRule b platf
Rule b platf
 
Slovar pr. metodol
Slovar pr. metodolSlovar pr. metodol
Slovar pr. metodol
 
Программные средства выявления теминологических вариантов в текстах
Программные средства выявления теминологических вариантов в текстахПрограммные средства выявления теминологических вариантов в текстах
Программные средства выявления теминологических вариантов в текстах
 
clasification
clasificationclasification
clasification
 
Извлечение знаний и фактов из текстов
Извлечение знаний и фактов из текстовИзвлечение знаний и фактов из текстов
Извлечение знаний и фактов из текстов
 
Автоматическое построение лексико-синтаксических шаблонов по текстам предметн...
Автоматическое построение лексико-синтаксических шаблонов по текстам предметн...Автоматическое построение лексико-синтаксических шаблонов по текстам предметн...
Автоматическое построение лексико-синтаксических шаблонов по текстам предметн...
 
силина2010
силина2010силина2010
силина2010
 
collocations in search
collocations in searchcollocations in search
collocations in search
 
Модули автоматической обработки текстов в проекте aot.ru
Модули автоматической обработки текстов в проекте aot.ruМодули автоматической обработки текстов в проекте aot.ru
Модули автоматической обработки текстов в проекте aot.ru
 
Ontology and Text Alalize
Ontology and Text AlalizeOntology and Text Alalize
Ontology and Text Alalize
 
МЕТОД НАВИГАЦИИ ПО ТЕКСТУ ДОКУМЕНТА С ПОМОЩЬЮ АВТОМАТИЧЕСКОЙ ОБРАБОТКИ ЕГО СО...
МЕТОД НАВИГАЦИИ ПО ТЕКСТУ ДОКУМЕНТА С ПОМОЩЬЮ АВТОМАТИЧЕСКОЙ ОБРАБОТКИ ЕГО СО...МЕТОД НАВИГАЦИИ ПО ТЕКСТУ ДОКУМЕНТА С ПОМОЩЬЮ АВТОМАТИЧЕСКОЙ ОБРАБОТКИ ЕГО СО...
МЕТОД НАВИГАЦИИ ПО ТЕКСТУ ДОКУМЕНТА С ПОМОЩЬЮ АВТОМАТИЧЕСКОЙ ОБРАБОТКИ ЕГО СО...
 
Semantic evaluation on Dialog 2015
Semantic evaluation on Dialog 2015Semantic evaluation on Dialog 2015
Semantic evaluation on Dialog 2015
 
ПРОБЛЕМЫ ПОПОЛНЕНИЯ СЕМАНТИЧЕСКОГО СЛОВАРЯ
ПРОБЛЕМЫ ПОПОЛНЕНИЯ СЕМАНТИЧЕСКОГО СЛОВАРЯПРОБЛЕМЫ ПОПОЛНЕНИЯ СЕМАНТИЧЕСКОГО СЛОВАРЯ
ПРОБЛЕМЫ ПОПОЛНЕНИЯ СЕМАНТИЧЕСКОГО СЛОВАРЯ
 
Яндекс Малый ШАД - лингвистика в поиске
Яндекс  Малый ШАД - лингвистика в поискеЯндекс  Малый ШАД - лингвистика в поиске
Яндекс Малый ШАД - лингвистика в поиске
 
ПОСТРОЕНИЕ ОТНОШЕНИЙ В СМЕШАННОЙ ОНТОЛОГИЧЕСКОЙ СЕТИ ДЛЯ РЕШЕНИЯ ЗАДАЧ ТЕСТИР...
ПОСТРОЕНИЕ ОТНОШЕНИЙ В СМЕШАННОЙ ОНТОЛОГИЧЕСКОЙ СЕТИ ДЛЯ РЕШЕНИЯ ЗАДАЧ ТЕСТИР...ПОСТРОЕНИЕ ОТНОШЕНИЙ В СМЕШАННОЙ ОНТОЛОГИЧЕСКОЙ СЕТИ ДЛЯ РЕШЕНИЯ ЗАДАЧ ТЕСТИР...
ПОСТРОЕНИЕ ОТНОШЕНИЙ В СМЕШАННОЙ ОНТОЛОГИЧЕСКОЙ СЕТИ ДЛЯ РЕШЕНИЯ ЗАДАЧ ТЕСТИР...
 
RussNet
RussNetRussNet
RussNet
 
Fact Extraction (ideograph)
Fact Extraction (ideograph)Fact Extraction (ideograph)
Fact Extraction (ideograph)
 
Поиск информации в Интернете
Поиск информации в ИнтернетеПоиск информации в Интернете
Поиск информации в Интернете
 

More from Irene Pochinok

Грамматические правила формализации смысла комических текстов в концепции инв...
Грамматические правила формализации смысла комических текстов в концепции инв...Грамматические правила формализации смысла комических текстов в концепции инв...
Грамматические правила формализации смысла комических текстов в концепции инв...Irene Pochinok
 
Проблемы построения интеллектуальных агентов реального времени
Проблемы построения интеллектуальных агентов реального времениПроблемы построения интеллектуальных агентов реального времени
Проблемы построения интеллектуальных агентов реального времениIrene Pochinok
 
Использование данных семантического веба поисковыми системами
Использование данных семантического веба поисковыми системамиИспользование данных семантического веба поисковыми системами
Использование данных семантического веба поисковыми системамиIrene Pochinok
 
Обработка слабоструктурированных веб-документов на основе облачных технологий...
Обработка слабоструктурированных веб-документов на основе облачных технологий...Обработка слабоструктурированных веб-документов на основе облачных технологий...
Обработка слабоструктурированных веб-документов на основе облачных технологий...Irene Pochinok
 
Инженерия знаний
Инженерия знанийИнженерия знаний
Инженерия знанийIrene Pochinok
 
FUNCTION OF RIVAL SIMILARITY IN A COGNITIVE DATA ANALYSIS
FUNCTION OF RIVAL SIMILARITY IN A COGNITIVE DATA ANALYSISFUNCTION OF RIVAL SIMILARITY IN A COGNITIVE DATA ANALYSIS
FUNCTION OF RIVAL SIMILARITY IN A COGNITIVE DATA ANALYSISIrene Pochinok
 
Илья Утехин, СПбГУ
Илья Утехин, СПбГУИлья Утехин, СПбГУ
Илья Утехин, СПбГУIrene Pochinok
 

More from Irene Pochinok (7)

Грамматические правила формализации смысла комических текстов в концепции инв...
Грамматические правила формализации смысла комических текстов в концепции инв...Грамматические правила формализации смысла комических текстов в концепции инв...
Грамматические правила формализации смысла комических текстов в концепции инв...
 
Проблемы построения интеллектуальных агентов реального времени
Проблемы построения интеллектуальных агентов реального времениПроблемы построения интеллектуальных агентов реального времени
Проблемы построения интеллектуальных агентов реального времени
 
Использование данных семантического веба поисковыми системами
Использование данных семантического веба поисковыми системамиИспользование данных семантического веба поисковыми системами
Использование данных семантического веба поисковыми системами
 
Обработка слабоструктурированных веб-документов на основе облачных технологий...
Обработка слабоструктурированных веб-документов на основе облачных технологий...Обработка слабоструктурированных веб-документов на основе облачных технологий...
Обработка слабоструктурированных веб-документов на основе облачных технологий...
 
Инженерия знаний
Инженерия знанийИнженерия знаний
Инженерия знаний
 
FUNCTION OF RIVAL SIMILARITY IN A COGNITIVE DATA ANALYSIS
FUNCTION OF RIVAL SIMILARITY IN A COGNITIVE DATA ANALYSISFUNCTION OF RIVAL SIMILARITY IN A COGNITIVE DATA ANALYSIS
FUNCTION OF RIVAL SIMILARITY IN A COGNITIVE DATA ANALYSIS
 
Илья Утехин, СПбГУ
Илья Утехин, СПбГУИлья Утехин, СПбГУ
Илья Утехин, СПбГУ
 

Построение правил для автоматического извлечения словосочетаний из текста

  • 1. Построение правил для автоматического извлечения словосочетаний из текста   Загорулько Максим Юрьевич Научный руководитель н.с. ИСИ СО РАН, к.ф.-м.н. Е.А.Сидорова
  • 2.
  • 3.
  • 4.
  • 5.
  • 6.
  • 7.
  • 8.
  • 9.
  • 10.
  • 11. Алгоритм извлечения словосочетаний из текста 0 шаг : (1 обход текста) Составляется словарь терминов. 1 шаг : ( 2 обход текста ) Для каждого слова текста ищем все правила, с таким же морфологическим классом корневого элемента. Запоминаем позиции данных правил и сами правила, составляем из них список гипотез. Примерно под таким девизом в 1977 году начиналась наша лаборатория в Институте естественных наук Бурятского филиала СО АН СССР. Лаборатория создавалась для исследований по технологии вольфрама и молибдена; по академической программе — для претворения в практику физико-химического анализа и результатов Институт – Сущ Правило : Сущ +Прил+Сущ Сущ +Прил+Сущ Позиция : 12 Гипотеза 2 Гипотеза 3
  • 12. 2 шаг : ( 3 обход текста ) Для каждой гипотезы в соответствии с текущей позицией в тексте проверяем соответствие морфологического класса элемента правила и слова в тексте. Если соответствие отсутствует – удаляем гипотезу из списка. 3 шаг : Для каждой гипотезы проверяем согласование заданное в правилах. Если согласование не выполнено – удаляем гипотезу из списка. 4 шаг : На основе оставшихся гипотез формируем новое словосочетание Примерно под таким девизом в 1977 году начиналась наша лаборатория в Институте естественных наук Бурятского филиала СО АН СССР. Лаборатория создавалась для исследований по технологии Сущ +Прил+Сущ Позиция : 12 Гипотеза 2 Гипотеза 3 Институт естественных наук Сущ +Прил+Сущ = ?
  • 13. Извлечение словосочетаний ТАБЛИЦА СОГЛАСОВАНИЙ ТАБЛИЦА ПРАВИЛ СЛОВАРЬ СЛОВОСОЧЕТАНИЙ ЯДРО ПОИСКА ОБРАБАТЫВАЕМЫЙ ТЕКСТ СЛОВАРЬ ТЕРМИНОВ
  • 14. Словарь словосочетаний Таблица правил
  • 18. Результаты обработки текстов Было обработано 3 текста из разных предметных областей . Таблица правил содержала 5 основных правил
  • 19. Результаты обработки текстов Название текста Слов в тексте Гипотезы, прошедшие согласование С+Срд С+Ств С+П П+С С+Прил+Срд Отрывок из учебного пособия по гетерогенному катализу. №1 9 000 37% 539 42 12 357 69 Отрывок из учебного пособия по гетерогенному катализу. №2 19 000 38% 1167 99 39 660 84 Михаил Шолохов "Судьба человека" 7 000 40% 171 58 11 320 13
  • 20.