24. Локализованная выдача: как это
сделано
• Определение локализованности запроса
[день конституции], [жилищная программа], [университет], [города], [официальные курсы
валют], [телепрограмма], [афиша], [турфирмы],
но не
[биография майкла джексона], [подключение телевизора к компьютеру], [фото кошек]
– Слова запроса + Анализ логов (например переформулировки с
прибавлением города, клики на региональные ресурсы etc)
• Регион сайта
– Автоматический классификатор (см напр WWW2006)
• Регион пользователя
– По IP, cookies, etc
• Пул запросов
– 1000 запросов оцененных локальными (Алматинскими)
асессорами
• Казахстанская формула
25. Локализованная выдача: как
реагируют пользователи
Доля
0,46 некликнутых
0,455 запросов за 8
0,45
дней:
0,445 общая формула,
Лучше 0,44
0,435
локализованная
формула
0,43
0,425
0,42
1 2 3 4 5 6 7 8
28. Казахская морфология. Как
сделано
• Проблемы
– нет грамматических словарей
– автоматические методы требуют больших качественных корпусов
текстов и запросов
• Решение
– Описание грамматических правил
– Сбор корпуса уникальных форм по «хорошим» сайтам
– Метод «максимального покрытия»
– Чистка: омонимы и по фонологическим правилам
– Проверка: половина из 40 тыс «лемм» в переводных словарях
• Проверка асессорами «несловарных» слов
– частотного топа (100% точность)
– случайной выборки (почти 100% точность)
31. Словосочетания: как сделано
• Выделить в запросах
– Правило вкладывания в объемлющие запросы
– Встречается в записи с большой буквы
– Встречается в кавычках
• Примерно 1500 фраз
• Проверка
– По корпусу хороших предложений