Text clustering v1.1

Методы кластеризации текстовых
данных
Слайды адаптированы из курсов: Christopher D. Manning, Prabhakar
Raghavan, Hinrich Schütze, David M. Blei
Центр Изучения
Интернета и Общества
www.newmediacenter.ru
Сергей Чернов

Слайд 2 из 74
Текст в электронных библиотеках
30 лет назад мы имели дело с тысячами документов
5/24/2013Сергей Чернов, Методы кластеризации текстовых данных,
Центр Изучения Интернета и Общества, РЭШ

Текст в онлайн-медиа
Сегодня публикуется
несколько миллиардов
новых постов в день

Тема семинара
 Кластерный анализ БОЛЬШИХ объемов текстовых
данных
with word counts
http://wordle.net/ Jonathan
Feinberg
5/24/2013Сергей Чернов, Методы кластеризации текстовых
данных, Центр Изучения Интернета и Общества, РЭШ

План семинара
5/24/2013
 Введение в кластерный анализ
 Базовые методы кластерного анализа
 Тематические методы кластерного анализа
 Программные пакеты для кластеризации текстов
 Заключение
Сергей Чернов, Методы кластеризации текстовых данных,

5/24/2013

Информационный поиск и кластеризация
 Информационный поиск (Information retrieval) — процесс
поиска неструктурированной документальной
информации и наука об этом поиске.
 Кластеризация документов — одна из задач
информационного поиска. Кластеризация автоматически
выявляет группы семантически похожих документов.
Группы формируются только на основе попарной схожести
описаний документов, и никакие характеристики этих
групп не задаются заранее, в отличие от классификации
документов, где категории задаются заранее.
 Документы в одном кластере ПОХОЖИ
 Документы в разных кластерах РАЗЛИЧНЫ

Данные с простыми кластерами

Кластеризация для навигации

Кластеризация в медиа-исследованиях
Mapping Russian
Twitter
March 20, 2012
By John Kelly, Vladimir
Barash, Karina
Alexanyan, Bruce
Etling, Robert Faris,
Urs Gasser, and John
Palfrey

Кластеризация для агрегации новостей

Типы кластерных алгоритмов
 Плоские алгоритмы
 Начинают разделять документы по группам случайным образом
 Итеративно улучшают результат
 Главный алгоритм: K-средних
 Иерархические алгоритмы
 Создают иерархию
 Снизу-вверх, агломеративные
 Сверху-вниз, разделяющие
 Жесткая кластеризация
 каждый документ принадлежит строго одному кластеру
 Мягкая кластеризация
 документ может принадлежать нескольким кластерам

Векторная модель представления документов
 Векторная модель (Vector Space Model) представляет
каждый документ в виде вектора, где:
 Измерение = терм (слово в нормальной форме)
 Значение = количество упоминаний в документе (в простом
случае)
 Матрица Терм-Документ
Antony and Cleopatra Julius Caesar The Tempest Hamlet Othello Macbeth
Antony 157 73 0 0 0 0
Brutus 4 157 0 1 0 0
Caesar 232 227 0 2 1 1
Calpurnia 0 10 0 0 0 0
Cleopatra 57 0 0 0 0 0
mercy 2 0 3 5 5 1
worser 2 0 1 1 1 0

Определение близости между документами
 В идеале: семантическая близость
 На практике: близость по статистике
встречаемости термов
 Дистанция – величина обратная близости
 Обычно используется косинусная мера
близости (cosine similarity)
 В примерах мы используем Евклидову
метрику

Этапы обработки текста
Токенизация
Удаление стоп-слов
Стемминг
Создание взвешенной
матрицы терм-документ
Предварительная
обработка
Документы
Кластеризация
документов
Поиск тем
(Topic Discovery)
Маркированные
кластеры
документов
Из J. Jayabharathy, Dr. S. Kanmani, and A. Ayeshaa
Parveen. A Survey of Document Clustering
Algorithms with Topic Discovery. Journal of
Computing, Volume 3, Issue 2, Feb 2011.

5/24/2013
Сергей Чернов, Методы кластеризации текстовых

K-средних (K-means)
 Самый популярный и простой алгоритм кластеризации
 Каждый кластер определяется центроидом.
 Критерий кластеризации: минимизоровать усредненную
квадратичную дистанцию от центроида
 Определение центроида:
 Где w обозначает кластер.
 Мы пытаемся найти минимальную усредненную дистанцию
итеративно применяя два шага алгоритма:
 перераспределение: причисляем каждый вектор (документ) к
ближайшему центроиду
 перерасчет: заново рассчитываем каждый центроид как среднее
векторов отнесенных к кластеру на предыдущем шаге

Пример: кластеризовать набор данных

Пример: случайным образом выбираем
центроиды для двух кластеров (K=2)

Пример: распределяем каждую точку к
ближайшему центроиду

Пример: результат распределения

Пример: пересчитываем центроиды
кластеров

Пример: распределяем точки к ближайшим
центроидам

Пример: пересчитываем центроиды кластеров

кластеров

Пример: центроиды и распределение точек
по окончании работы алгоритма

Вычислительная сложность K-средних
 между двумя документами O(M), где M размерность
векторов (количество различных термов).
 Перераспределение документов между кластерами:
O(KN) вычислений дистанций, то есть O(KNM).
 Вычисление центроидов: каждый документ
единожды причисляется к центроиду O(NM).
 Если у нас I итераций, получаем общую сложность:
O(IKNM).

Проблемы K-средних
 Неустойчив при обработке изолированных
(необычных) документов
 Не поддерживает сложную форму кластеров (только
сферические)

Как определить количество кластеров?
 Число кластеров K должно быть задано заранее
 Эвристика: зная характер документов, предположите
“приемлемое” число кластеров.
 Например, для визуализации результатов поиска
идеальное K заранее неизвестно, но используемый
пользовательский интерфейс и размер экрана может
наложить ограничения на количество кластеров.
 Поиск “правильного” числа кластеров часть проблемы
кластеризации
 Можно задать критерий оптимизации К

Простая целевая функция для K (1)
 Основная идея:
 Начинаем с одного кластера (K = 1)
 Продолжаем добавлять кластеры (= увеличиваем K)
 Начисляем штраф за каждый новый кластер
 Балансируем штрафы за новые кластеры и выгоду от
меньшей средней дистанции от центроидов
 Выбираем K с наилучшим балансом

Простая целевая функция для K (2)
 Для данной кластеризации, определите стоимость штраф
для документа как квадрат расстояния до центроида
 Общий штраф для кластера рассчитайте как сумму штрафов
всех документов в кластере RSS(K) (Residual Sum of
Squares)
 Каждый кластер дополнительно штрафуется
фиксированным параметром λ
 Для кластеризации из K кластеров общий фиксированный
штраф Kλ
 Целевая функция – минимизировать RSS(K) + Kλ
 Остается проблемой как найти оптимальное значение λ . . .

Поиск “колена” на кривой
Выберите количество
кластеров, при котором
кривая становится более
«плоской»
В данном случае: 4 or 9.

Иерархическая кластеризация
 Задача иерархической кластеризации построить
иерархию кластеров
 Иерархия строится автоматически, сверху-вниз
или снизу-вверх.
 Самый известный метод построения снизу-вверх:
иерархическая агломеративная кластеризация.
animal
vertebrate
fish reptile amphib. mammal worm insect crustacean
invertebrate

Иерархическая Агломеративная Кластеризация
(ИАК)
 Строит иерархию в виде двоичного дерева
 Использует меру близости для определения
сходства двух кластеров
 Алгоритм:
 Вначале каждый документ это отдельный кластер
 Поочередно объединяем два наиболее похожих кластера
 До тех пор пока не останется один кластер
 История объединений формирует дерево иерархии
 Такая история изображается дендограммой

Дендограмма
Мы можем отсечь
дендограмму на
любом шаге для
получения плоской

Основной вопрос: как вычислить близость
кластеров?
 Одиночная связь: Максимальная близость
 Максимальная близость любых двух документов
 Полная связь: Минимальная близость
 Минимальная близость любых двух документов
 Центроид: Средняя межкластерная близость
 Средняя близость всех пар документов (исключая пары
документов внутри кластеров)
 Равносильно близости центроидов.
 Групповое-среднее: Средняя внутрикластерная близость
 Средняя близость всех пар документов, включая пары внутри
кластеров.

Близость кластеров: пример

Одиночная связь: Максимальная близость

Полная связь: Минимальная близость

Центроид: Средняя межкластерная близость
 Межкластерная близость = близость двух
документов в разных кластерах

Групповое-среднее: Средняя внутрикластерная
близость
 Внутрикластерная близость = близость всех пар,
включая документы внутри кластеров

Вычислительная сложность
неоптимизированного алгоритма ИАК
 Сначала, вычисляем близость всех N × N пар документов.
 Затем, на каждой итерации:
 Сканируем O(N × N) близостей для нахождения
максимальной.
 Объединяем два кластера.
 Вычисляем близость между созданным кластером и всеми
оставшимися.
 Всего O(N) итераций, каждая требует O(N × N)
сканирований.
 Общая сложностьO(N3).
 Существуют более рациональная модификация алгоритма
со сложностью O(N2).

Плоская или иерархическая
кластеризация?
 Плоская кластеризация значительно быстрее, хорошо
подходит для больших объемов данных
 Для стабильного предсказуемого результата используют
ИАК
 Иерархическая кластеризация также требуется там, где
нужны структура кластеров
 Иногда иерархическая кластеризация используется для
определения K, и последующего использования плоской

Одна из главных проблем кластерного
анализа – маркировка кластеров
 Когда кластеры созданы, их необходимо маркировать (описать в
нескольких словах или фразах)
 Селективная маркировка – анализирует все кластеры и выбирает
наиболее специфичные термы, отличая кластер от остальных
 Неселективная маркировка – выбирает термы и фразы исходя
только из содержимого кластера, обычно самые частые слова
 Маркировка по заголовкам документов кластера
 Каждый из методов может быть эффективен, все зависит от
конкретных данных

Как определить качество кластеризации?
 Внутренние критерии
 Например: Сумма квадратов отклонений в K-средних
 Но внутренние критерии часто не оценивают практическую
полезность кластеризации
 Альтернатива: Внешние критерии
 Сравните с классификацией составленной человеком

Внешние критерии для оценки кластеризации
 Основаны на «золотом стандарте», например известной
коллекции документов, используемой для классификации
 Цель: кластеризация должна воспроизвести классы
«золотого стандарта»
 Оговорка: мы лишь пытаемся оценить распределение
документов по классам, игнорируя маркировку классов
(class labels)
 Простая метрика для оценки: Чистота (purity)

Внешние критерий: Чистота
 Простая метрика: чистота (purity), отношение
доминирующего класса в кластере πi к размеру
кластера ωi
 Метрика смещена, поскольку имея n кластеров
мы ее максимизируем
 Другие меры включают энтропию, взаимную
информацию, индекс ранда, f-метрику,
точность, полноту
Cjn
n
Чистота ijj
i
i )(max
1
)(

Пример вычисления Чистоты
Кластер 1 Кластер 2 Кластер 3
Кластер 1: Чистота = 1/6 (max(5, 1, 0)) = 5/6

5/24/2013

Тематические Модели
 Тематические Модели основаны на следующих
принципах:
 Внутри коллекции документов присутствую латентные
(скрытые) темы
 Мы можем описать каждый документ с помощью тем
 Такое описание позволяет легко кластеризовать
документы

Формальное описание
 Тяжело уместить в пару слайдов
 Попробуем описать общую идею, избегая формул

Два слова о Латентном Семантическом Анализе
(Deerwester et al., 1990)
 Латентный Семантический Анализ (LSA)
 Популярный метод последнего десятилетия
 Использует декомпозицию по собственным значениям для
выделения латентных тем
 Эффективно решает проблему синонимии и полисемии
 Главный минус: медленный и требовательный к ресурсам
 Побочный минус: не имеет четкой вероятностной модели

Как ускорить вычисления?
 Параллелизация алгоритмов
 Для многих алгоритмов, включая LSA, существуют версии,
обрабатывающие части матрицы терм-документ на разных
процессорах
 Онлайн-алгоритмы
 Базовая модель вычисляется на части данных, оставшиеся
данные разбиваются на небольшие части и поочередно
используются для обновления модели
 Приблизительные алгоритмы
 Точность результата незначительно уменьшается, время
работы сокращается в десятки раз

Латентное размещение Дирихле (LDA)
 LDA основан на генеративной (порождающей)
вероятностой модели. Мы предполагаем, что
документы могут быть представлены распределением
латентных тем, каждая из которых представлена
распределением термов.
 Примеры тем:
Человек
Геном
ДНК
генетика
Эволюция
Вид
Организм
жизнь
Заболевание
Бактерия
штамм
Компьютер
Модель
Информация
данные

Генеративная модель LDA
 Каждая тема характеризуется распределение термов
 Каждый документ характеризуется распределение тем
 Каждый терм выбран из распределения в одной из тем
Темы Документы Пропорции тем и
распределение термов

Сколько тем использовать?
 Количество тем зависит от задачи. Значение по
умолчанию 10-30 дает общее представление о
содержимом коллекции документов.
 Чем больше документов, тем больше тем может
понадобиться.
 Интервал от 200 до 400 позволяет добиться
детализированной кластеризации.

5/24/2013
 Введение в кластерны анализ

Приложения для кластеризации текстов
Веб-
приложения
Приложения в
командной
строке
Приложения с
пользовательским
интерфейсом
Программные
интерфейсы
приложений
(API)

Используемые языки программирования
 На чем запрограммировано основное ПО?
 Perl
 Классический скриптовый язык для обработки текстов с
удобными механизмами регулярных выражений
 Python
 Более современный скриптовый язык, используется в одной из
лучших по качеству документации систем обработки текстов
NLTK.
 Java
 Самый распространенный язык для средств обработки текстов,
хорошая поддержка регулярных выражений, Юникод, и т.д.

Популярные пакеты кластеризации текстов
 GATE – General Architecture for Text Engineering
 http://gate.ac.uk/
 Java, «все что вы хотели сделать с текстом», самый большой
функционал, активно развивается и поддерживается, содержит
огромное количество компонентов
 Mahout
 http://mahout.apache.org/
 Java, новая профессиональная платформа для алгоритмов
машинного обучения, фокус на масштабируемости вычислений
 Stanford Topic Modeling Toolbox
 http://nlp.stanford.edu/software/tmt/tmt-0.4/
 Java, небольшой пакет с ограниченным функционалом, разработан
специально для LDA
 Mallet
 http://mallet.cs.umass.edu/
 Java, еще один пакет, больше чем Stanford TMT, но меньше
Mahout или GATE

GATE

Stanford Topic Modeling Toolkit

TMT on PubMed Data

Media Cloud (www.mediacloud.org)

Media Cloud – Twitter vs LiveJournal

(экономика)

(цензура)

Слайд 84 из 74 5/24/2013Сергей Чернов, Методы кластеризации текстовых данных,

Russian Media Cloud

Russian Media Cloud (2)

Другие пакеты (1)
 UIMA – Unstructured Information Management
Architecture
 http://uima.apache.org/
 Профессиональное, масштабируемое, и т.д.
 Требует хороших навыков работы с Xml, Eclipse, Java or C++. Не
очень подходит для новичков.
 NLTK – Natural Language Toolkit
 http://www.nltk.org/
 Python, большое количество разработчиков; много дополнительных
модулей
 Содержит в основном программные модули и API, без
пользовательского интерфейса или командной строки
 LingPipe
 http://alias-i.com/lingpipe/
 RapidMiner
 http://rapid-i.com/
 Вычисление близости документов и кластеризация в RapidMiner

Другие пакеты (2)
 Carrot2
 http://project.carrot2.org/
 Weka
 http://www.cs.waikato.ac.nz/ml/weka/
 gCluto
 http://nhttp://glaros.dtc.umn.edu/gkhome/cluto/gcluto/over
view
 The Lemur Toolkit
 http://www.lemurproject.org/
 А также
 The Semantic Engine, The Semantic Vectors Package,
Terrier IR Platform, и другие.

Практика обработки текста
1. Большинство пакетов работает с кодировкой
Юникод, так что кириллица поддерживается
корректно
2. Большинство пакетов работают с обработанным
текстом, без HTML или XML тегов
3. По умолчанию, все классификаторы натренированы
на корпусах англоязычных новостей

Какое «железо» необходимо?
 Софт для кластеризации часто требует много
оперативной памяти и мощности процессора
 Но современные ноутбуки мощнее многих серверов
десятилетней давности
 Для коллекций в десятки тысяч документов подойдет
любой ПК
 Сотни тысяч документов лучше обрабатывать с
оперативной памятью в 4GB
 Десятки миллионов документов кластеризуйте на
серверах с 16 GB RAM и несколькими процессорами
 Кластеризация больших коллекций может занимать
несколько дней…

5/24/2013

Заключение
 Кластеризация текстовых данных необходима для
многих приложений
 Основные алгоритмы включают K-средних,
иерархические алгоритмы, LSA и LDA
 Один из главных критериев при выборе алгоритма это
его скорость и маштабируемость
 Вы можете использовать для кластеризации один из
готовых программных пакетов, выбор конкретного
средства зависит от ваших данных и общих
предпочтений

Время для вопросов
Спасибо за внимание!

Text clustering v1.1

Recommended

Recommended

More Related Content

Featured

Featured (20)

Text clustering v1.1