SlideShare a Scribd company logo
1 of 29
Лексическая статистика в оценке качества
         коммерческих текстов

             Ирина Борисова

                 Wikimart


                18.02.2012
О чем пойдет речь?




    1. Задачи лингвистики в e-commerce: пример Wikimart
    2. Сложности с коммерческими текстами
    3. Лексикостатистические метрики в оценке качества текста и
       уровня спама
    4. Извлечение пользовательских предпочтений для
       улучшения качества текста
Лингвистика в e-commerce
Wikimart в Рунете




    Онлайн торговый центр
         1752 магазина
         собственный ритейл
         6000+ заказов в сутки
    Активность за 14.02.2012:
         652,154 просмотров
         160,027 уникальных посетителей
Лингвистика в e-commerce
Wikimart для лингвиста




    Данные:
    Большой объем текстовых данных (7 миллионов страниц
    моделей и предложений)
    Корпуса коммерческих тематических текстов:
         торговые описания
         информация о производителе
         пользовательский контент
              поисковые запросы
              отзывы
Лингвистика в e-commerce
Wikimart для лингвиста




    Задачи:
      1. Оценка качества текста
      2. Анализ поисковых запросов
          2.1 Определение тематики поискового запроса
          2.2 Оценка коммерческих тенденций в поисковых запросах
      3. Извлечение пользовательских предпочтений из отзывов
Коммерческие тексты: где зарыта собака?




   Текст низкого качества:
       тематически нерелевантный
       стиль
       грамматика
       орфография
       оформление
Пример
Вступление к описанию модели антирадара




    Какой же человек не любит быстрой езды... Но законы
    российской Федерации этого не позволяют. Да лихачество
    приветствовать не стоит, но бывают моменты, когда человек
    опаздывает и может совсем незначительно превысить скорость.
    Ну и последствия всем прекрасно известны, штраф, а может
    дойти и до лишения прав. Но благодаря разработкам ученых,
    всего этого можно избежать.
Коммерческие тексты: где зарыта собака?



   Спамосодержащий (спамный) текст:
       написан исключительно для задач поискового
       продвижения, а не для читателя
       перенасыщен
           поисковыми запросами по теме
           общечастотными словами из коммерческих запросов
           (купить, москва, отзывы, интернет, магазин и др.)
Пример
Вступление к описанию категории wi-fi роутеров

    Wireless считается одним из лучших точек доступа.
    Беспроводной роутер, он же wifi предназначен для
    подключения к сети или Интернету. Часто можно встретить
    объявления роутер купить или куплю роутер, потому что этот
    вид точек доступа очень популярен. К тому же, wimax в москве
    давно не редкость. К особенно надежным точкам доступа
    относят: 3g wifi роутер, adsl роутер, wifi ap solo, wifi роутер с
    usb. В комплект поставки кроме wifi устройства может входить
    usb 2.0 wlan, usb wifi фдаптер с антенной, wifi антенна, wifi
    антенна направленная внешняя и wifi контроллер. В условиях
    постоянного развитяи технического прогресса wifi устройство
    приобретают все большую популярность. В комплекте с wireless
    150 входит wireless lan 802.11 b g, wireless usb адаптер и wireless
    usb hub. Многие потребители часто задаютсмя вопросами
    какой роутер выбрать, какой роутер купить, какой роутер
    лучше.
Что и как оценивать?

     Формат: длина текста, абзаца, предложения, плотность
             знаков пунктуации
    Тематика: доля слов из семантического ядра категории,
              среднее гармоническое между повторами
     Лексика: уникальные и повторяющиеся уни-, би- и
              триграммы, расстояние между повторами,
              соотношение с общечастотной лексикой в корпусе
       Стиль: разнообразие частей речи, вводные слова,
              уникальные стоп-слова
           38 метрик
     Корпусы: Википедия, категории Викимарта, корпус
              тематических текстов очень низкого качества
              (spam_rev)
Пример spam_rev


  Действие данного обогревателя была возможность ощутить в
  подруги. Была зима, и она включила данный обогреватель.
  Практически за несколько минут мы почувствовали должный
  эффект от него. Он очень полезен в те моменты, когда еще не
  включили отопление, но в квартире уже довольно холодно.
  Неоспоримым плюсом данной модели является то, что она не
  издает практически никакого шума. Я задумалась о
  приобретении именно этой модели. Также очень удобным
  является и то, что в обогревателе есть специальный термостат,
  который помогает следить за уровнем температуры и при
  необходимости дает возможность отрегулировать её.
Результаты
Число слов без стоп-слов




    Wikipedia
         ave 775.36
         st.dev. 23.79
    Wikimart
         ave 818.38
         st.dev. 55.94
    Spam reviews
         ave 642.67
         st.dev. 36.67
Результаты
Число предложений




    Wikipedia
        ave 76.06
        st.dev. 11.76
    Wikimart
        ave 86.19
        st.dev. 19.04
    Spam reviews
        ave 67
        st.dev. 6
Результаты
Число слов с заглавной буквы




    Wikipedia
         ave 167.88
         st.dev. 36.03
    Wikimart
         ave 168.18
         st.dev. 47.11
    Spam reviews
         ave 61
         st.dev. 5
Результаты
Число слов на латинице




    Wikipedia
         ave 39.6
         st.dev. 29.52
    Wikimart
         ave 93.38
         st.dev. 73.13
    Spam reviews
         ave 4.83
         st.dev. 3.44
Результаты
Число слов в предложении




    Wikipedia
         ave 13.83
         st.dev. 2.13
    Wikimart
         ave 13.6
         st.dev. 3.6
    Spam reviews
         ave 14.62
         st.dev. 1.26
Результаты
TTR: число уникальных слов к общему числу словоупотреблений




    Wikipedia
         ave 0.41
         st.dev. 0.04
    Wikimart
         ave 0.3
         st.dev. 0.1
    Spam reviews
         ave 0.28
         st.dev.0.02
Результаты
Доля слов из топ-200 самых частотных слов всего корпуса




    Wikipedia
         ave 0.53
         st.dev. 0.05
    Wikimart
         ave 0.38
         st.dev. 0.07
    Spam reviews
         ave 0.74
         st.dev. 0.03
Результаты
Среднее расстояние между повторяющимися словами




    Wikipedia
        ave 113.12
        st.dev. 19.39
    Wikimart
        ave 164.91
        st.dev. 29.68
    Spam reviews
        ave 134.41
        st.dev. 20.33
Результаты
Число словоупотреблений на часть речи




    Wikipedia
         ave 48.41
         st.dev. 5.84
    Wikimart
         ave 39.87
         st.dev. 11.31
    Spam reviews
         ave 35.73
         st.dev. 2.84
Результаты
Число уникальных стоп-слов




    Wikipedia
         ave 0.09
         st.dev. 0.02
    Wikimart
         ave 0.1
         st.dev. 0.04
    Spam reviews
         ave 0.07
         st.dev. 0.01
Спам-санкции!


  Ручная оценка текстов
  Поиск максимально эффективных метрик
  Формат:
      длина текста (более 500 слов)
      название брендов и слов из коммерческих запросов в теге
      strong
      плотность брендов
          корпус названий брендов и производителей
          синонимы
          пословное совпадение (36 000 единиц)
      плотность неуникальных биграмм и триграмм в тексте
Превышение порога плотности биграмм в тексте
Плотность неуникальных биграмм - 0,282
    Козье молоко — бесценный косметический продукт, полностью
    восстанавливающий здоровье и функциональную активность
    клеток кожи. Еще в древние времена люди знали целебную
    силу козьего молока и его омолаживающие свойства. В
    настоящее время ученые полностью подтверждают
    уникальность состава козьего молока: это ценные
    аминокислоты <...> Температура плавления козьего масла
    ниже 37 С, поэтому биостимуляторы и питательные вещества
    легко проникают в глубокие слои кожи, насыщая ее
    натуральными контролерами увлажненности (пантенол,
    мочевина, рибофлавин). Отсюда уникальная результативность
    козьего молока: устранение раздражения, отечности, купероза,
    отбеливание, увлажнение, питание кожи. Лактоантиоксиданты
    козьего молока делают кожу нежной и эластичной,
    предотвращая ее старение.
    Серия «Козье молоко» изготовлена на основе цельного козьего
    молока.
Превышение порога плотности брендов в тексте
Плотность названий брендов - 0, 058

    Впервые Por Larranaga Panetelas была выпущена в 1834 году на
    фабрике La Corona, это одна из старейших марок сигар. В
    разное время производилась на разных фабриках. Табак для
    неё выращивают в провинции Pinar del Rio на знаменитых на
    весь мир плантациях Vuelta Abajo. Своё имя сигары Larranaga
    Por Panetelas получили от основателя бренда испанца Ignacio
    Larranaga (Игнасио Лараньяга), и носят его до сих пор. С
    самых первых дней своего существования, благодаря высокому
    качеству и красоте, эти сигары приобрели широчайшую
    известность. А из-за своей более чем доступной и
    демократичной цены — ещё и огромную популярность.
    Panetelas Por Larranaga относятся к классу Mild-medium, то есть
    мягко-средней крепости. В незажженном состоянии у
    PanetelasLarranaga Por достаточно интенсивный аромат, в
    котором на первый план выходят пряные и животные
    составляющие.
Эффективность в подсчете метрик



  Скорость:
      0, 01-0,15 с/текст (500-1000 символов)
      30% времени - фильтр стоп-слов
  17% описаний
  Точность по выборке - 92%
  Полнота (?) - автоматическая оценка поисковой машины =
  выход из-под санкций
Улучшение качества текстов: коллокации




      Синтактические единицы, представляющие собой
      семантическое целое
      Би- и триграммы
      PMI
      Корпус отзывов (категорийный)
Извлечение пользовательских предпочтений
Основные типы
    Функциональность: регулятор крепости кофе, долго держит
               заряд, лоток для овощей
                Сочетаемость: есть все разъемы, со всеми
                           форматами, со старыми играми
                «Коммуникабельность»: инструкция для сборки,
                           на русском языке, интуитивно
                           понятный интерфейс
       Условия использования: на мокром льду, за МКАДом, при
               недостаточном освещении
         Опыт использования: лежит в руке, приятный на ощупь,
               совсем не шумный, крепится к стеклу
       Личное: это мой первый, по сравнению с, до этого был, на
               мой взгляд
    Экономическое: за эти деньги, соотношение цена-качество
    Эмоциональное: я очень доволен, танцы с бубном, довольна
               как слон
Использование в задачах e-commerce




      Определение специфики категории и покупателя
      Рекомендации к использованию в описаниях модели или
      категории
      SEM / SMM
      Теги в категориях
Заключение и перспективы



      Эффект лексической статистики в оценке качества текста:
      спамный текст = плохо написанный текст
      Интеграция данных в систему модерации на сайте (фидбек
      службе управления контентом)
      Интеграция метрик в ML
      Расширение корпусов коммерческих текстов
      (Wikimart) Mechanical Turk

More Related Content

Similar to Лексическая статистика в оценке качества коммерческих текстов

Сущность библиотеки анализа кода VivaCore
Сущность библиотеки анализа кода VivaCoreСущность библиотеки анализа кода VivaCore
Сущность библиотеки анализа кода VivaCoreTatyanazaxarova
 
Тестирование высоконагруженных облачных веб-сервисов в Amazon - подводные кам...
Тестирование высоконагруженных облачных веб-сервисов в Amazon - подводные кам...Тестирование высоконагруженных облачных веб-сервисов в Amazon - подводные кам...
Тестирование высоконагруженных облачных веб-сервисов в Amazon - подводные кам...SQALab
 
Малобюджетное продвижение товаров в сети интернет Июнь 2009 Петербург
Малобюджетное продвижение товаров в сети интернет Июнь 2009 ПетербургМалобюджетное продвижение товаров в сети интернет Июнь 2009 Петербург
Малобюджетное продвижение товаров в сети интернет Июнь 2009 ПетербургMikhail Kisin
 
Как увеличить трафик интернет-магазина без внешних ссылок - Optimization.com....
Как увеличить трафик интернет-магазина без внешних ссылок - Optimization.com....Как увеличить трафик интернет-магазина без внешних ссылок - Optimization.com....
Как увеличить трафик интернет-магазина без внешних ссылок - Optimization.com....Promodo
 
Забытые проблемы разработки 64-битных программ
Забытые проблемы разработки 64-битных программЗабытые проблемы разработки 64-битных программ
Забытые проблемы разработки 64-битных программTatyanazaxarova
 
Barzer — умная система поиска для интернет-магазинов
Barzer — умная система поиска для интернет-магазиновBarzer — умная система поиска для интернет-магазинов
Barzer — умная система поиска для интернет-магазиновWebProfy.ru
 
От пояса с инструментами к полноценной лаборатории
От пояса с инструментами к полноценной лабораторииОт пояса с инструментами к полноценной лаборатории
От пояса с инструментами к полноценной лабораторииYandex
 
Jquery_tutorial_for-beginners
Jquery_tutorial_for-beginnersJquery_tutorial_for-beginners
Jquery_tutorial_for-beginnersAlena Balakina
 
Euroclimate.org
Euroclimate.orgEuroclimate.org
Euroclimate.orgAuditorr
 
Илья Мельников (Яндекс) "Классификатор коротких текстов с использованием вект...
Илья Мельников (Яндекс) "Классификатор коротких текстов с использованием вект...Илья Мельников (Яндекс) "Классификатор коротких текстов с использованием вект...
Илья Мельников (Яндекс) "Классификатор коротких текстов с использованием вект...AINL Conferences
 
Алексей Лустин. Непрерывная проверка качества кода.
Алексей Лустин. Непрерывная проверка качества кода.Алексей Лустин. Непрерывная проверка качества кода.
Алексей Лустин. Непрерывная проверка качества кода.ScrumTrek
 
Python-технология которую легко продавать!
Python-технология которую легко продавать!Python-технология которую легко продавать!
Python-технология которую легко продавать!Aleksey Nakorenko
 
Ag Systran 2008 04 26
Ag Systran 2008 04 26Ag Systran 2008 04 26
Ag Systran 2008 04 26NLPseminar
 
ASO очень подробно
ASO очень подробноASO очень подробно
ASO очень подробноSergey Sharov
 

Similar to Лексическая статистика в оценке качества коммерческих текстов (20)

Сущность библиотеки анализа кода VivaCore
Сущность библиотеки анализа кода VivaCoreСущность библиотеки анализа кода VivaCore
Сущность библиотеки анализа кода VivaCore
 
Тестирование высоконагруженных облачных веб-сервисов в Amazon - подводные кам...
Тестирование высоконагруженных облачных веб-сервисов в Amazon - подводные кам...Тестирование высоконагруженных облачных веб-сервисов в Amazon - подводные кам...
Тестирование высоконагруженных облачных веб-сервисов в Amazon - подводные кам...
 
Малобюджетное продвижение товаров в сети интернет Июнь 2009 Петербург
Малобюджетное продвижение товаров в сети интернет Июнь 2009 ПетербургМалобюджетное продвижение товаров в сети интернет Июнь 2009 Петербург
Малобюджетное продвижение товаров в сети интернет Июнь 2009 Петербург
 
Maleev
MaleevMaleev
Maleev
 
Как увеличить трафик интернет-магазина без внешних ссылок - Optimization.com....
Как увеличить трафик интернет-магазина без внешних ссылок - Optimization.com....Как увеличить трафик интернет-магазина без внешних ссылок - Optimization.com....
Как увеличить трафик интернет-магазина без внешних ссылок - Optimization.com....
 
Dobronovskyi
DobronovskyiDobronovskyi
Dobronovskyi
 
Забытые проблемы разработки 64-битных программ
Забытые проблемы разработки 64-битных программЗабытые проблемы разработки 64-битных программ
Забытые проблемы разработки 64-битных программ
 
Barzer — умная система поиска для интернет-магазинов
Barzer — умная система поиска для интернет-магазиновBarzer — умная система поиска для интернет-магазинов
Barzer — умная система поиска для интернет-магазинов
 
От пояса с инструментами к полноценной лаборатории
От пояса с инструментами к полноценной лабораторииОт пояса с инструментами к полноценной лаборатории
От пояса с инструментами к полноценной лаборатории
 
Jquery_tutorial_for-beginners
Jquery_tutorial_for-beginnersJquery_tutorial_for-beginners
Jquery_tutorial_for-beginners
 
Euroclimate.org
Euroclimate.orgEuroclimate.org
Euroclimate.org
 
Автоматическое формирование базы знаний для задачи анализа мнений
Автоматическое формирование базы знаний для задачи анализа мненийАвтоматическое формирование базы знаний для задачи анализа мнений
Автоматическое формирование базы знаний для задачи анализа мнений
 
Илья Мельников (Яндекс) "Классификатор коротких текстов с использованием вект...
Илья Мельников (Яндекс) "Классификатор коротких текстов с использованием вект...Илья Мельников (Яндекс) "Классификатор коротких текстов с использованием вект...
Илья Мельников (Яндекс) "Классификатор коротких текстов с использованием вект...
 
Project
ProjectProject
Project
 
запахи кода
запахи кодазапахи кода
запахи кода
 
Алексей Лустин. Непрерывная проверка качества кода.
Алексей Лустин. Непрерывная проверка качества кода.Алексей Лустин. Непрерывная проверка качества кода.
Алексей Лустин. Непрерывная проверка качества кода.
 
J query шевчук
J query шевчукJ query шевчук
J query шевчук
 
Python-технология которую легко продавать!
Python-технология которую легко продавать!Python-технология которую легко продавать!
Python-технология которую легко продавать!
 
Ag Systran 2008 04 26
Ag Systran 2008 04 26Ag Systran 2008 04 26
Ag Systran 2008 04 26
 
ASO очень подробно
ASO очень подробноASO очень подробно
ASO очень подробно
 

Лексическая статистика в оценке качества коммерческих текстов

  • 1. Лексическая статистика в оценке качества коммерческих текстов Ирина Борисова Wikimart 18.02.2012
  • 2. О чем пойдет речь? 1. Задачи лингвистики в e-commerce: пример Wikimart 2. Сложности с коммерческими текстами 3. Лексикостатистические метрики в оценке качества текста и уровня спама 4. Извлечение пользовательских предпочтений для улучшения качества текста
  • 3. Лингвистика в e-commerce Wikimart в Рунете Онлайн торговый центр 1752 магазина собственный ритейл 6000+ заказов в сутки Активность за 14.02.2012: 652,154 просмотров 160,027 уникальных посетителей
  • 4. Лингвистика в e-commerce Wikimart для лингвиста Данные: Большой объем текстовых данных (7 миллионов страниц моделей и предложений) Корпуса коммерческих тематических текстов: торговые описания информация о производителе пользовательский контент поисковые запросы отзывы
  • 5. Лингвистика в e-commerce Wikimart для лингвиста Задачи: 1. Оценка качества текста 2. Анализ поисковых запросов 2.1 Определение тематики поискового запроса 2.2 Оценка коммерческих тенденций в поисковых запросах 3. Извлечение пользовательских предпочтений из отзывов
  • 6. Коммерческие тексты: где зарыта собака? Текст низкого качества: тематически нерелевантный стиль грамматика орфография оформление
  • 7. Пример Вступление к описанию модели антирадара Какой же человек не любит быстрой езды... Но законы российской Федерации этого не позволяют. Да лихачество приветствовать не стоит, но бывают моменты, когда человек опаздывает и может совсем незначительно превысить скорость. Ну и последствия всем прекрасно известны, штраф, а может дойти и до лишения прав. Но благодаря разработкам ученых, всего этого можно избежать.
  • 8. Коммерческие тексты: где зарыта собака? Спамосодержащий (спамный) текст: написан исключительно для задач поискового продвижения, а не для читателя перенасыщен поисковыми запросами по теме общечастотными словами из коммерческих запросов (купить, москва, отзывы, интернет, магазин и др.)
  • 9. Пример Вступление к описанию категории wi-fi роутеров Wireless считается одним из лучших точек доступа. Беспроводной роутер, он же wifi предназначен для подключения к сети или Интернету. Часто можно встретить объявления роутер купить или куплю роутер, потому что этот вид точек доступа очень популярен. К тому же, wimax в москве давно не редкость. К особенно надежным точкам доступа относят: 3g wifi роутер, adsl роутер, wifi ap solo, wifi роутер с usb. В комплект поставки кроме wifi устройства может входить usb 2.0 wlan, usb wifi фдаптер с антенной, wifi антенна, wifi антенна направленная внешняя и wifi контроллер. В условиях постоянного развитяи технического прогресса wifi устройство приобретают все большую популярность. В комплекте с wireless 150 входит wireless lan 802.11 b g, wireless usb адаптер и wireless usb hub. Многие потребители часто задаютсмя вопросами какой роутер выбрать, какой роутер купить, какой роутер лучше.
  • 10. Что и как оценивать? Формат: длина текста, абзаца, предложения, плотность знаков пунктуации Тематика: доля слов из семантического ядра категории, среднее гармоническое между повторами Лексика: уникальные и повторяющиеся уни-, би- и триграммы, расстояние между повторами, соотношение с общечастотной лексикой в корпусе Стиль: разнообразие частей речи, вводные слова, уникальные стоп-слова 38 метрик Корпусы: Википедия, категории Викимарта, корпус тематических текстов очень низкого качества (spam_rev)
  • 11. Пример spam_rev Действие данного обогревателя была возможность ощутить в подруги. Была зима, и она включила данный обогреватель. Практически за несколько минут мы почувствовали должный эффект от него. Он очень полезен в те моменты, когда еще не включили отопление, но в квартире уже довольно холодно. Неоспоримым плюсом данной модели является то, что она не издает практически никакого шума. Я задумалась о приобретении именно этой модели. Также очень удобным является и то, что в обогревателе есть специальный термостат, который помогает следить за уровнем температуры и при необходимости дает возможность отрегулировать её.
  • 12. Результаты Число слов без стоп-слов Wikipedia ave 775.36 st.dev. 23.79 Wikimart ave 818.38 st.dev. 55.94 Spam reviews ave 642.67 st.dev. 36.67
  • 13. Результаты Число предложений Wikipedia ave 76.06 st.dev. 11.76 Wikimart ave 86.19 st.dev. 19.04 Spam reviews ave 67 st.dev. 6
  • 14. Результаты Число слов с заглавной буквы Wikipedia ave 167.88 st.dev. 36.03 Wikimart ave 168.18 st.dev. 47.11 Spam reviews ave 61 st.dev. 5
  • 15. Результаты Число слов на латинице Wikipedia ave 39.6 st.dev. 29.52 Wikimart ave 93.38 st.dev. 73.13 Spam reviews ave 4.83 st.dev. 3.44
  • 16. Результаты Число слов в предложении Wikipedia ave 13.83 st.dev. 2.13 Wikimart ave 13.6 st.dev. 3.6 Spam reviews ave 14.62 st.dev. 1.26
  • 17. Результаты TTR: число уникальных слов к общему числу словоупотреблений Wikipedia ave 0.41 st.dev. 0.04 Wikimart ave 0.3 st.dev. 0.1 Spam reviews ave 0.28 st.dev.0.02
  • 18. Результаты Доля слов из топ-200 самых частотных слов всего корпуса Wikipedia ave 0.53 st.dev. 0.05 Wikimart ave 0.38 st.dev. 0.07 Spam reviews ave 0.74 st.dev. 0.03
  • 19. Результаты Среднее расстояние между повторяющимися словами Wikipedia ave 113.12 st.dev. 19.39 Wikimart ave 164.91 st.dev. 29.68 Spam reviews ave 134.41 st.dev. 20.33
  • 20. Результаты Число словоупотреблений на часть речи Wikipedia ave 48.41 st.dev. 5.84 Wikimart ave 39.87 st.dev. 11.31 Spam reviews ave 35.73 st.dev. 2.84
  • 21. Результаты Число уникальных стоп-слов Wikipedia ave 0.09 st.dev. 0.02 Wikimart ave 0.1 st.dev. 0.04 Spam reviews ave 0.07 st.dev. 0.01
  • 22. Спам-санкции! Ручная оценка текстов Поиск максимально эффективных метрик Формат: длина текста (более 500 слов) название брендов и слов из коммерческих запросов в теге strong плотность брендов корпус названий брендов и производителей синонимы пословное совпадение (36 000 единиц) плотность неуникальных биграмм и триграмм в тексте
  • 23. Превышение порога плотности биграмм в тексте Плотность неуникальных биграмм - 0,282 Козье молоко — бесценный косметический продукт, полностью восстанавливающий здоровье и функциональную активность клеток кожи. Еще в древние времена люди знали целебную силу козьего молока и его омолаживающие свойства. В настоящее время ученые полностью подтверждают уникальность состава козьего молока: это ценные аминокислоты <...> Температура плавления козьего масла ниже 37 С, поэтому биостимуляторы и питательные вещества легко проникают в глубокие слои кожи, насыщая ее натуральными контролерами увлажненности (пантенол, мочевина, рибофлавин). Отсюда уникальная результативность козьего молока: устранение раздражения, отечности, купероза, отбеливание, увлажнение, питание кожи. Лактоантиоксиданты козьего молока делают кожу нежной и эластичной, предотвращая ее старение. Серия «Козье молоко» изготовлена на основе цельного козьего молока.
  • 24. Превышение порога плотности брендов в тексте Плотность названий брендов - 0, 058 Впервые Por Larranaga Panetelas была выпущена в 1834 году на фабрике La Corona, это одна из старейших марок сигар. В разное время производилась на разных фабриках. Табак для неё выращивают в провинции Pinar del Rio на знаменитых на весь мир плантациях Vuelta Abajo. Своё имя сигары Larranaga Por Panetelas получили от основателя бренда испанца Ignacio Larranaga (Игнасио Лараньяга), и носят его до сих пор. С самых первых дней своего существования, благодаря высокому качеству и красоте, эти сигары приобрели широчайшую известность. А из-за своей более чем доступной и демократичной цены — ещё и огромную популярность. Panetelas Por Larranaga относятся к классу Mild-medium, то есть мягко-средней крепости. В незажженном состоянии у PanetelasLarranaga Por достаточно интенсивный аромат, в котором на первый план выходят пряные и животные составляющие.
  • 25. Эффективность в подсчете метрик Скорость: 0, 01-0,15 с/текст (500-1000 символов) 30% времени - фильтр стоп-слов 17% описаний Точность по выборке - 92% Полнота (?) - автоматическая оценка поисковой машины = выход из-под санкций
  • 26. Улучшение качества текстов: коллокации Синтактические единицы, представляющие собой семантическое целое Би- и триграммы PMI Корпус отзывов (категорийный)
  • 27. Извлечение пользовательских предпочтений Основные типы Функциональность: регулятор крепости кофе, долго держит заряд, лоток для овощей Сочетаемость: есть все разъемы, со всеми форматами, со старыми играми «Коммуникабельность»: инструкция для сборки, на русском языке, интуитивно понятный интерфейс Условия использования: на мокром льду, за МКАДом, при недостаточном освещении Опыт использования: лежит в руке, приятный на ощупь, совсем не шумный, крепится к стеклу Личное: это мой первый, по сравнению с, до этого был, на мой взгляд Экономическое: за эти деньги, соотношение цена-качество Эмоциональное: я очень доволен, танцы с бубном, довольна как слон
  • 28. Использование в задачах e-commerce Определение специфики категории и покупателя Рекомендации к использованию в описаниях модели или категории SEM / SMM Теги в категориях
  • 29. Заключение и перспективы Эффект лексической статистики в оценке качества текста: спамный текст = плохо написанный текст Интеграция данных в систему модерации на сайте (фидбек службе управления контентом) Интеграция метрик в ML Расширение корпусов коммерческих текстов (Wikimart) Mechanical Turk