SlideShare a Scribd company logo
1 of 24
Download to read offline
Харьковский национальный университет имени В. Н. Каразина 
Факультет компьютерных наук 
ИНТЕЛЛЕКТУАЛЬНЫЙ 
АНАЛИЗ ДАННЫХ 
Data Mining 
Подготовил: 
доцент каф. искусственного интеллекта и программного обеспечения, 
к.ф.-м. н. Гахов Андрей Владимирович 
2014/2015 уч. год
ЛЕКЦИЯ 4 
Подготовка данных (preprocessing). Часть 1
ОЧИСТКА ДАННЫХ
! 
К задачам анализа данных применим принцип GIGO 
(Garbage In, Garbage Out) - “мусор на входе - мусор 
на выходе”, поэтому предварительная обработка и 
очистка данных является одним из важнейших 
этапов 
Очистка данных включает в себя: 
• исправление несоответствий в данных 
• заполнение недостающих значений 
• сглаживание шумов и выделение аномалий
ОБНАРУЖЕНИЕ НЕСООТВЕТСТВИЙ 
Несоответствия могут быть вызваны такими факторами как 
человеческие ошибки, использование одинаковых кодов для 
различных данных, ошибок при интеграции данных, умышленно 
неверными значениями или просто устаревшими данными 
Этапы обнаружения несоответствий в данных: 
• узнать больше о данных, определить типы, возможные 
значения и характеристики атрибутов. 
• поиск несоответствий в представлении данных (например, в 
Европе используется 2014/09/14, а в США 2014/14/09) 
• поиск перегрузки полей, когда вместо определения нового 
атрибута, был расширен уже существующий атрибут за счет 
заполнения неиспользуемых в нем значений 
• проверка данных по правилам валидации данных
Правила валидации данных: 
• Правило уникальности 
Каждое возможное значение данного атрибута должно 
отличаться от всех других значений этого атрибута 
• Правило последовательности 
Не должно быть отсутствующих возможных значений между 
минимальным и максимальным значениями данного атрибута и 
все такие значения должны быть уникальными 
• Правило для пустых значений 
Пустые значения могут принимать разную форму - пробел, 
знак(и) вопроса, специальные символы и т.п. Правило для пустых 
значений требует наличия единого подхода к обозначению таких 
значений (например, 0 для числовых значений, пустая строка - для 
текстовых)
РАБОТА С НЕДОСТАЮЩИМИ ЗНАЧЕНИЯМИ 
• Исключение (игнорирование) набора данных 
В данном случае теряется информация, которую несут значения 
остальных атрибутов исключаемого набора данных. Метод применим 
когда в наборе большое количество атрибутов с недостающими 
данными или когда общее количество данных достаточно велико 
• Заполнение недостающих значений вручную 
Как правило, может применяться при очень малом количестве 
пропущенных данных 
• Использование глобальной константы 
В данном случае все недостающие значения заменяются на NA или 
-∞. Обрабатывающая программа должна уметь отличать данные 
значения от реальных значений, которые принимает атрибут
! 
• Использование мер центральной тенденции 
Для симметричного (нормального) распределения данных 
п р о п уще н ные з н а ч е н и я мо г у т з аме н я т ь с я с р е д н им 
арифметическим, а для асимметрического целесообразно 
использовать медиану. Значительным усовершенствованием 
данного метода может быть вычисление среднего (или медианы) 
не по всему набору данных, а по подмножеству данных одного 
класса или входящих в один кластер 
• Использование наиболее вероятного значения 
Для нахождения наиболее вероятного значения может 
использоваться регресионный анализ, Байесовские методы, деревья 
принятия решения и др.
• Как правило, предпочтение должно отдаваться методу, 
который позволит получить в будущем максимально 
точный анализ за приемлемое время 
! 
• Некоторые атрибуты не оказывают существенного влияния на 
результаты анализа, поэтому замена недостающих значений 
константой NA будет более предпочтительна, чем вычисление 
наиболее вероятного значение методом линейной регресии 
! 
• Не всегда отсутствующие значения являются недостающими. 
Отсутствие значения для атрибута может означать отсутствие 
данного атрибута (например, пустой ответ в анкете на вопрос 
“Кличка вашей собаки”, если у вас нет собаки)
РАБОТА С ЗАШУМЛЕННЫМИ ДАННЫМИ 
Шум - случайная ошибка или отклонение значений в 
анализируемых данных. Для борьбы с шумом применяются 
различные методы сглаживания данных, например: 
• Биннинг данных 
Диапазон значений атрибута разбивается на некоторое 
количество интервалов (называемых, бинами или bins) где 
применяется один из методов сглаживания данных, заменяя 
все попавшие в интервал значения на некоторую общую 
характеристику или значение. В качестве такой 
характеристики может выступать одна из мер центральной 
тенденции (например, среднее) или одно из крайних значений 
интервала. Как правило, чем шире интервалы, тем больше 
эффект от сглаживания данных, но и больше потеря данных.
РАБОТА С ЗАШУМЛЕННЫМИ ДАННЫМИ 
• Регрессионный анализ 
На основе зашумленных значений атрибута строится регресионная 
кривая (при линейной регрессии - прямая) и все значения 
заменяются на соответствующие значения на регресионной кривой 
! 
18 
! 
14 
! 
10 
! 
6 
! 
2 
! 
2 4,25 6,5 8,75 11 
• Анализ аномалий 
Аномалии могут быть найдены, например, путем кластеризации 
данных, когда значения не попавшие в кластеры считаются 
аномальными
ПРИМЕР: 
Пример: пусть атрибут зарплата принимает следующие 
значения (тыс. грн): 3.0, 3.6, 4.7, 5.0, 5.2, 5.2, 5.6, 6.0, 6.3, 7.0, 
7.0, 11.0 
Проведем биннинг данных с 3-я бинами и в качестве 
общего значения для данных, попавших в бин, выберем их 
среднее арифметическое: 
Bin1: 3.0, 3.6, 4.7, 5.0 (среднее 4.075) 
Bin2: 5.2, 5.2, 5.6, 6.0 (среднее 5.5) 
Bin3: 6.3, 7.0, 7.0, 11.0 (среднее 7.825) 
В итоге значения атрибута зарплата будут (тыс. грн): 
4.075, 4.075, 4.075, 4.075, 5.5, 5.5, 5.5, 5.5, 7.825, 7.825, 7.825, 
7.825
ИНТЕГРАЦИЯ ДАННЫХ
• Очень часто задачи анализа данных требуют 
интеграции данных - объединения данных из 
различных источников данных (например, из 
баз данных, тестовых файлов и т.п. разных 
подразделений компании) 
• Качественная интеграция поможет уменьшить 
или избежать повторений и несоответствий в 
данных
ПРОБЛЕМА ИДЕНТИФИКАЦИИ ОБЪЕКТА 
“Как идентифицировать объекты в разных наборах данных, 
представляющие одни и те же объекты во внешнем мире?” 
• Использование эквивалентности характеристик атрибутов 
Предполагается, что атрибуты с одинаковыми характеристиками (имя, тип, 
диапазон значений и т.п.) представляют одинаковые объекты. Иногда 
вместо требования полной эквивалентности, допускается совпадение 
некоторого случайно выбраного подмножества характеристик 
• Использование эквивалентности, заданной пользователем 
Данный подход требует, чтобы пользователь предоставил таблицы 
эквивалентности атрибутов (что не всегда возможно) 
• Использование эвристического подхода 
Данный подход применяется когда нет другой информации, позволяющей 
принять решение об эквивалентности объектов. Как правило, 
подразумевается применение методов статистического анализа
КОНФЛИКТ ЗНАЧЕНИЙ 
• Несмотря на правильную идентификацию объекта, при 
интеграции данных могут возникать конфликты 
значений их атрибутов 
• Например, в качестве значений для атрибута 
температура в одном наборе данных используется 
шкала Цельсия, а в другом - Фаренгейта 
• Поэтому, при идентификации объектов необходимо 
следить и за характеристиками объединяемых 
атрибутов, иначе интеграция данных приведет к 
несоответствию данных
ИЗБЫТОЧНОСТЬ ДАННЫХ 
• Атрибут является избыточным, если он может быть 
получен из одного или нескольких других атрибутов 
• Неправильная идентификация объекта или 
непоследовательность в именовании атрибутов 
могут служить источником избыточности данных 
• Избыточность данных может быть обнаружена 
путем проведения корреляционного анализа. 
Корреляционный анализ помогает измерять 
насколько сильно один атрибут влияет на другой
НОМИНАТИВНЫЕ АТРИБУТЫ 
χ 2 КРИТЕРИЙ 
• Рассмотрим задачу определения корреляции между двумя 
номинативными атрибутами x и y 
• Пусть атрибут x принимает N различных значений x1, x2, … xN, а 
атрибут y принимает M различных значений y1, y2, … yM 
• Наблюдаемые частоты пар значений атрибутов (xk, yk) могут 
быть представлены следующей таблицей сопряжённости: 
… 
x1 
x2 
… … … … … 
xN 
y1 y2 yM 
f1,1 f1,2 f1,M f1,• 
f2,1 f2,2 f2,M f2,• 
fN,1 fN,2 fN, M fN,• 
f•,1 f•,2 f•,M
χ 2 
Критерия согласия Пирсона проверяет гипотезу, что x и y являются 
независимыми (0-гипотеза) и следовательно корреляция отсутствует. Тест 
основан на уровне значимости с (N-1)x(M-1) степенями свободы, который 
может быть определен из статистических таблиц. 
Статистика критерия согласия Пирсона определяется соотношением: 
χ 2 = 
fij − gij ( )2 
2 
gij 
χ 2 
MΣ 
j=1 
NΣ 
i=1 
где fij - наблюдаемые частоты, а gij - ожидаемые частоты 
gij = 
fi, • + f•, j 
n 
NΣ 
, n = fi, • 
i=1 
MΣ 
= f •, j 
j=1 
Как видно, наибольший вклад в статистику вносят пары с 
наблюдаемой частотой наиболее отличающейся от ожидаемой.
Пример: был проведен опрос среди 1500 владельцев животных. У 
каждого человека спросили: Кто им больше нравится - собаки или кошки? 
Неоходимо оценить корреляцию между двумя атрибутами: пол и 
любимое животное. Наблюдаемые частоты: 
собаки кошки 
мужчины 250 200 450 
женщины 50 1000 1050 
300 1200 
g12 = 450 ⋅1200 
Ожидаемые частоты вычисляются по формулам, например, = 360 
, 
тогда статистика равна 
1500 
χ 2 = (250 − 90)2 
90 
+ (50 − 210)2 
210 
+ (200 − 360)2 
360 
+ (1000 − 840)2 
840 
= 507.93 
Задача имеет (2-1)x(2-1)=1 степень свободы и согласно статистической 
таблице для отклонения 0-гипотезы на уровне значимости 0.1% 
необходимо, чтобы статистика превысила уровень 10.828. Следовательно, 
наши величины (сильно) зависимы для данной группы людей
ЧИСЛЕННЫЕ АТРИБУТЫ 
Для численных атрибутов зависимость может быть 
определена через коэффициент корреляции Пирсона 
rx,y = 
(xk − x ) y( k − y ) 
nΣ 
k=1 
n ⋅σ x ⋅σ y 
= 
xk ⋅ yk 
nΣ 
k=1 
n ⋅σ x ⋅σ y 
− x ⋅ y 
σ x ⋅σ y 
где n - число пар (xk 
, yk) в рассматриваемом наборе данных 
Очевидно, что −1 ≤ r≤ +1 
x,y Два атрибута положительно коррелируют между собой, если 
r > 0 и отрицательно коррелируют, если r< 0 
x,y x,y Если r= 0 
, тогда атрибуты независимы и корреляция 
x,y отсутствует
Другой важной мерой линейной зависимости двух 
численных атрибутов является ковариация 
(ковариационный момент): 
nΣ Ковариация и коэффициент корреляции связаны 
Cov(x, y) = 1n 
(xk − x ) y( k − y ) 
k=1 
между собой: rx,y = Cov(x, y) 
σ ⋅σ У двух атрибутов x y наблюдается положительная 
корреляция, если Cov(x, y) > 0 
и отрицательная 
корреляция, если 
Cov(x, y) < 0 
Если ковариация равна нулю, то атрибуты являются 
независимыми (обратно утверждение не верно).
Пример: для двух различных товаров в течении 
нескольких недель измерялась цена (в евро). 
Товар1 Товар2 
неделя 1 12 30 
неделя 2 15 10 
неделя 3 8 20 
неделя 4 4 6 
неделя 5 6 9 
Необходимо оценить возможную 
зависимость цен на данные товары 
в рассматриваемый период. 
x = 12 +15 + 8 + 4 + 6 
5 
= 45 
5 
= 9 
y = 30 +10 + 20 + 6 + 9 
5 
= 75 
5 
= 15 
Cov(x, y) = 12 ⋅ 30 +15 ⋅10 + 8 ⋅20 + 4 ⋅6 + 6 ⋅9 
5 
− 9 ⋅15 = 748 
5 
−135 = 14.6 
Таким образом, ковариация положительная, поэтому мы 
можем сделать заключение о наличие зависимости между 
ценами на данные два товара в рассматриваемый период.
ЗАДАНИЯ 
• Значения атрибутов рост (см) и вес (кг) для студентов группы 
представлены в таблице: 
рост вес рост вес рост вес рост вес рост вес 
185 77 163 68 173 82 193 - 175 83 
170 188 82 180 84 183 79 165 66 
183 75 185 74 178 NA 175 77 178 67 
183 77 165 61 183 84 183 70 не знаю 95 
175 76 185 77 84 188 185 76 178 63 
! 
! 
! 
• Необходимо: 
• выявить несоответствия в данных и исправить их 
• заполнить недостающие значение одним из известных методов 
• сгладить данные при помощи биннинга данных с 4 бинами 
• вычислить коэффициент корреляции и корреляционный момент 
• оценить наличие или отсутствие линейной зависимости между 
данными атрибутами

More Related Content

What's hot

Моделирование ТПиПП
Моделирование ТПиППМоделирование ТПиПП
Моделирование ТПиППAndrey Urusov
 
Прогнозирование - Лекция 1. Компьютерные инструменты прогнозирования
Прогнозирование - Лекция 1. Компьютерные инструменты прогнозированияПрогнозирование - Лекция 1. Компьютерные инструменты прогнозирования
Прогнозирование - Лекция 1. Компьютерные инструменты прогнозированияGleb Zakhodiakin
 
Визуализация данных. Аналитическая платформа Tableau.
Визуализация данных. Аналитическая платформа Tableau.Визуализация данных. Аналитическая платформа Tableau.
Визуализация данных. Аналитическая платформа Tableau.Gleb Zakhodiakin
 
Введение в машинное обучение. Кластеризация (Bitworks Software, Кирилл Жданов)
Введение в машинное обучение. Кластеризация (Bitworks Software, Кирилл Жданов)Введение в машинное обучение. Кластеризация (Bitworks Software, Кирилл Жданов)
Введение в машинное обучение. Кластеризация (Bitworks Software, Кирилл Жданов)Dmitry Kornev
 
Практический курс «Основы Data Mining для всех»
Практический курс «Основы Data Mining для всех»Практический курс «Основы Data Mining для всех»
Практический курс «Основы Data Mining для всех»ScienceHunter1
 
Введение в машинное обучение
Введение в машинное обучение Введение в машинное обучение
Введение в машинное обучение Anton Anokhin
 
Оценивание параметров
Оценивание параметровОценивание параметров
Оценивание параметровKurbatskiy Alexey
 
Лекция 2. Описательная статистика
Лекция 2. Описательная статистикаЛекция 2. Описательная статистика
Лекция 2. Описательная статистикаKurbatskiy Alexey
 
машинное обучение и анализ данных
машинное обучение и анализ данныхмашинное обучение и анализ данных
машинное обучение и анализ данныхYandex
 
Прогнозирование - Лекция 3. Множественная регрессия
Прогнозирование - Лекция 3. Множественная регрессияПрогнозирование - Лекция 3. Множественная регрессия
Прогнозирование - Лекция 3. Множественная регрессияGleb Zakhodiakin
 
Разведочный анализ данных
Разведочный анализ данныхРазведочный анализ данных
Разведочный анализ данныхDEVTYPE
 
Сглаживание временных рядов
Сглаживание временных рядовСглаживание временных рядов
Сглаживание временных рядовDEVTYPE
 
Матстатистика для HR
Матстатистика для HRМатстатистика для HR
Матстатистика для HRAnna Nesmeeva
 
Изучение распространения болезней. Эпидемиология и SAS. С. Плавинский
Изучение распространения болезней. Эпидемиология и SAS. С. ПлавинскийИзучение распространения болезней. Эпидемиология и SAS. С. Плавинский
Изучение распространения болезней. Эпидемиология и SAS. С. ПлавинскийSergey Soshnikov
 
L1 Вводная лекция. Обзор основных задач Data Science (Лекция №1)
L1 Вводная лекция. Обзор основных задач Data Science (Лекция №1)L1 Вводная лекция. Обзор основных задач Data Science (Лекция №1)
L1 Вводная лекция. Обзор основных задач Data Science (Лекция №1)Technosphere1
 

What's hot (19)

Моделирование ТПиПП
Моделирование ТПиППМоделирование ТПиПП
Моделирование ТПиПП
 
Прогнозирование - Лекция 1. Компьютерные инструменты прогнозирования
Прогнозирование - Лекция 1. Компьютерные инструменты прогнозированияПрогнозирование - Лекция 1. Компьютерные инструменты прогнозирования
Прогнозирование - Лекция 1. Компьютерные инструменты прогнозирования
 
Алгоритмы сортировки
Алгоритмы сортировкиАлгоритмы сортировки
Алгоритмы сортировки
 
Алгоритмы поиска
Алгоритмы поискаАлгоритмы поиска
Алгоритмы поиска
 
Визуализация данных. Аналитическая платформа Tableau.
Визуализация данных. Аналитическая платформа Tableau.Визуализация данных. Аналитическая платформа Tableau.
Визуализация данных. Аналитическая платформа Tableau.
 
Введение в машинное обучение. Кластеризация (Bitworks Software, Кирилл Жданов)
Введение в машинное обучение. Кластеризация (Bitworks Software, Кирилл Жданов)Введение в машинное обучение. Кластеризация (Bitworks Software, Кирилл Жданов)
Введение в машинное обучение. Кластеризация (Bitworks Software, Кирилл Жданов)
 
4 azure 24 04
4 azure 24 044 azure 24 04
4 azure 24 04
 
Практический курс «Основы Data Mining для всех»
Практический курс «Основы Data Mining для всех»Практический курс «Основы Data Mining для всех»
Практический курс «Основы Data Mining для всех»
 
Введение в машинное обучение
Введение в машинное обучение Введение в машинное обучение
Введение в машинное обучение
 
Оценивание параметров
Оценивание параметровОценивание параметров
Оценивание параметров
 
Лекция 2. Описательная статистика
Лекция 2. Описательная статистикаЛекция 2. Описательная статистика
Лекция 2. Описательная статистика
 
машинное обучение и анализ данных
машинное обучение и анализ данныхмашинное обучение и анализ данных
машинное обучение и анализ данных
 
Прогнозирование - Лекция 3. Множественная регрессия
Прогнозирование - Лекция 3. Множественная регрессияПрогнозирование - Лекция 3. Множественная регрессия
Прогнозирование - Лекция 3. Множественная регрессия
 
Разведочный анализ данных
Разведочный анализ данныхРазведочный анализ данных
Разведочный анализ данных
 
Сглаживание временных рядов
Сглаживание временных рядовСглаживание временных рядов
Сглаживание временных рядов
 
Матстатистика для HR
Матстатистика для HRМатстатистика для HR
Матстатистика для HR
 
Изучение распространения болезней. Эпидемиология и SAS. С. Плавинский
Изучение распространения болезней. Эпидемиология и SAS. С. ПлавинскийИзучение распространения болезней. Эпидемиология и SAS. С. Плавинский
Изучение распространения болезней. Эпидемиология и SAS. С. Плавинский
 
Использование поисковых машин и ресурсов Интернет для отбора терминов предмет...
Использование поисковых машин и ресурсов Интернет для отбора терминов предмет...Использование поисковых машин и ресурсов Интернет для отбора терминов предмет...
Использование поисковых машин и ресурсов Интернет для отбора терминов предмет...
 
L1 Вводная лекция. Обзор основных задач Data Science (Лекция №1)
L1 Вводная лекция. Обзор основных задач Data Science (Лекция №1)L1 Вводная лекция. Обзор основных задач Data Science (Лекция №1)
L1 Вводная лекция. Обзор основных задач Data Science (Лекция №1)
 

Viewers also liked

Erwin Vanderkoogh The science behind self-organisation
Erwin Vanderkoogh  The science behind self-organisationErwin Vanderkoogh  The science behind self-organisation
Erwin Vanderkoogh The science behind self-organisationScrum Australia Pty Ltd
 
Olmeda origenes Catalogue 2015
Olmeda origenes Catalogue 2015Olmeda origenes Catalogue 2015
Olmeda origenes Catalogue 2015Olmeda Orígenes
 
Dj Growthtown Feb09
Dj Growthtown Feb09Dj Growthtown Feb09
Dj Growthtown Feb09David Jones
 
Slideshare for Journalists by @ross
Slideshare for Journalists by @rossSlideshare for Journalists by @ross
Slideshare for Journalists by @rossRoss Mayfield
 
Pulse Terms of Service
Pulse Terms of ServicePulse Terms of Service
Pulse Terms of Servicepulseweb
 
Webinar employer brand_slideshare
Webinar employer brand_slideshareWebinar employer brand_slideshare
Webinar employer brand_slideshareRebecca Feldman
 
Making Mobile the Default
Making Mobile the DefaultMaking Mobile the Default
Making Mobile the Defaultgvwebteam
 
New Norms @Work - Brasil
New Norms @Work - BrasilNew Norms @Work - Brasil
New Norms @Work - BrasilLinkedIn
 
Infographic: Millennials vs Boomers at Work – Generational Showdown
Infographic: Millennials vs Boomers at Work – Generational ShowdownInfographic: Millennials vs Boomers at Work – Generational Showdown
Infographic: Millennials vs Boomers at Work – Generational Showdowndomain .ME
 
Mozapps installがなくなったことへの不平不満
Mozapps installがなくなったことへの不平不満Mozapps installがなくなったことへの不平不満
Mozapps installがなくなったことへの不平不満Masakazu Muraoka
 
Influencer strategy
Influencer strategyInfluencer strategy
Influencer strategyAndy Lammers
 
Bacterias
BacteriasBacterias
BacteriasUEA
 
Renewable energy 3_of_3
Renewable energy 3_of_3Renewable energy 3_of_3
Renewable energy 3_of_3Laura Smith
 
Introduction to Chemoinfornatics
Introduction to ChemoinfornaticsIntroduction to Chemoinfornatics
Introduction to ChemoinfornaticsSSA KPI
 
ADAARAN CLUB RANNALHI 5 DAYS & 4 NIGHTS FOR USD 806 PER PERSON
ADAARAN CLUB RANNALHI 5 DAYS & 4 NIGHTS FOR USD 806 PER PERSONADAARAN CLUB RANNALHI 5 DAYS & 4 NIGHTS FOR USD 806 PER PERSON
ADAARAN CLUB RANNALHI 5 DAYS & 4 NIGHTS FOR USD 806 PER PERSONShahrukh Hussain
 
ゼーガペイン ファン活動の記録
ゼーガペイン ファン活動の記録ゼーガペイン ファン活動の記録
ゼーガペイン ファン活動の記録Youichiro Miyake
 

Viewers also liked (19)

Erwin Vanderkoogh The science behind self-organisation
Erwin Vanderkoogh  The science behind self-organisationErwin Vanderkoogh  The science behind self-organisation
Erwin Vanderkoogh The science behind self-organisation
 
00 introduccion
00 introduccion00 introduccion
00 introduccion
 
Olmeda origenes Catalogue 2015
Olmeda origenes Catalogue 2015Olmeda origenes Catalogue 2015
Olmeda origenes Catalogue 2015
 
FrontinFortaleza 2015
FrontinFortaleza 2015FrontinFortaleza 2015
FrontinFortaleza 2015
 
Dj Growthtown Feb09
Dj Growthtown Feb09Dj Growthtown Feb09
Dj Growthtown Feb09
 
Slideshare for Journalists by @ross
Slideshare for Journalists by @rossSlideshare for Journalists by @ross
Slideshare for Journalists by @ross
 
Pulse Terms of Service
Pulse Terms of ServicePulse Terms of Service
Pulse Terms of Service
 
Webinar employer brand_slideshare
Webinar employer brand_slideshareWebinar employer brand_slideshare
Webinar employer brand_slideshare
 
SociologyExchange.co.uk Shared Resource
SociologyExchange.co.uk Shared ResourceSociologyExchange.co.uk Shared Resource
SociologyExchange.co.uk Shared Resource
 
Making Mobile the Default
Making Mobile the DefaultMaking Mobile the Default
Making Mobile the Default
 
New Norms @Work - Brasil
New Norms @Work - BrasilNew Norms @Work - Brasil
New Norms @Work - Brasil
 
Infographic: Millennials vs Boomers at Work – Generational Showdown
Infographic: Millennials vs Boomers at Work – Generational ShowdownInfographic: Millennials vs Boomers at Work – Generational Showdown
Infographic: Millennials vs Boomers at Work – Generational Showdown
 
Mozapps installがなくなったことへの不平不満
Mozapps installがなくなったことへの不平不満Mozapps installがなくなったことへの不平不満
Mozapps installがなくなったことへの不平不満
 
Influencer strategy
Influencer strategyInfluencer strategy
Influencer strategy
 
Bacterias
BacteriasBacterias
Bacterias
 
Renewable energy 3_of_3
Renewable energy 3_of_3Renewable energy 3_of_3
Renewable energy 3_of_3
 
Introduction to Chemoinfornatics
Introduction to ChemoinfornaticsIntroduction to Chemoinfornatics
Introduction to Chemoinfornatics
 
ADAARAN CLUB RANNALHI 5 DAYS & 4 NIGHTS FOR USD 806 PER PERSON
ADAARAN CLUB RANNALHI 5 DAYS & 4 NIGHTS FOR USD 806 PER PERSONADAARAN CLUB RANNALHI 5 DAYS & 4 NIGHTS FOR USD 806 PER PERSON
ADAARAN CLUB RANNALHI 5 DAYS & 4 NIGHTS FOR USD 806 PER PERSON
 
ゼーガペイン ファン活動の記録
ゼーガペイン ファン活動の記録ゼーガペイン ファン活動の記録
ゼーガペイン ファン活動の記録
 

Similar to Data Mining - lecture 5 - 2014

Presentation at the conference
Presentation at the conferencePresentation at the conference
Presentation at the conferenceVitaly Grigoriev
 
10 Critical Mistakes in Data Analysis
10 Critical Mistakes in Data Analysis 10 Critical Mistakes in Data Analysis
10 Critical Mistakes in Data Analysis CleverDATA
 
Введение в машинное обучение
Введение в машинное обучениеВведение в машинное обучение
Введение в машинное обучениеGrigory Sapunov
 
Universal Schemas
Universal SchemasUniversal Schemas
Universal SchemasSergey
 
BigData Week Moscow 2013 - Case: Personalization
BigData Week Moscow 2013 - Case: PersonalizationBigData Week Moscow 2013 - Case: Personalization
BigData Week Moscow 2013 - Case: PersonalizationAnton Gorokhov
 
интелектуальный анализ экономических данных в системе каркас
интелектуальный анализ экономических данных в системе каркасинтелектуальный анализ экономических данных в системе каркас
интелектуальный анализ экономических данных в системе каркасVladimir Burdaev
 
презентация3
презентация3презентация3
презентация3Suchkov
 
Перечитывая Лео Бреймана
Перечитывая Лео БрейманаПеречитывая Лео Бреймана
Перечитывая Лео БрейманаSerge Terekhov
 
Региональный мастер-индекс пациентов
Региональный мастер-индекс пациентовРегиональный мастер-индекс пациентов
Региональный мастер-индекс пациентовSQALab
 
SAP _ presentation about Machine learning
SAP _ presentation about Machine learningSAP _ presentation about Machine learning
SAP _ presentation about Machine learningAlexey Lutokhin
 
Мастер класс по алгоритмам. Часть 1
Мастер класс по алгоритмам. Часть 1Мастер класс по алгоритмам. Часть 1
Мастер класс по алгоритмам. Часть 1Pavel Egorov
 
Big data и bi в медицине 5 волна
Big data и bi в медицине 5 волнаBig data и bi в медицине 5 волна
Big data и bi в медицине 5 волнаSerge Dobridnjuk
 
Искусственный интеллект и Big Data в бизнесе
Искусственный интеллект и Big Data в бизнесеИскусственный интеллект и Big Data в бизнесе
Искусственный интеллект и Big Data в бизнесеExpasoft
 
Рекомендательная система: быстрый старт
Рекомендательная система: быстрый стартРекомендательная система: быстрый старт
Рекомендательная система: быстрый стартAndrey Danilchenko
 
Современные методы анализа данных
Современные методы анализа данныхСовременные методы анализа данных
Современные методы анализа данныхDEVTYPE
 

Similar to Data Mining - lecture 5 - 2014 (20)

Presentation at the conference
Presentation at the conferencePresentation at the conference
Presentation at the conference
 
10 Critical Mistakes in Data Analysis
10 Critical Mistakes in Data Analysis 10 Critical Mistakes in Data Analysis
10 Critical Mistakes in Data Analysis
 
Введение в машинное обучение
Введение в машинное обучениеВведение в машинное обучение
Введение в машинное обучение
 
01 введение 2012
01 введение 201201 введение 2012
01 введение 2012
 
Universal Schemas
Universal SchemasUniversal Schemas
Universal Schemas
 
BigData Week Moscow 2013 - Case: Personalization
BigData Week Moscow 2013 - Case: PersonalizationBigData Week Moscow 2013 - Case: Personalization
BigData Week Moscow 2013 - Case: Personalization
 
интелектуальный анализ экономических данных в системе каркас
интелектуальный анализ экономических данных в системе каркасинтелектуальный анализ экономических данных в системе каркас
интелектуальный анализ экономических данных в системе каркас
 
презентация3
презентация3презентация3
презентация3
 
Перечитывая Лео Бреймана
Перечитывая Лео БрейманаПеречитывая Лео Бреймана
Перечитывая Лео Бреймана
 
Stat 4 alpha
Stat 4 alphaStat 4 alpha
Stat 4 alpha
 
Региональный мастер-индекс пациентов
Региональный мастер-индекс пациентовРегиональный мастер-индекс пациентов
Региональный мастер-индекс пациентов
 
SAP _ presentation about Machine learning
SAP _ presentation about Machine learningSAP _ presentation about Machine learning
SAP _ presentation about Machine learning
 
Мастер класс по алгоритмам. Часть 1
Мастер класс по алгоритмам. Часть 1Мастер класс по алгоритмам. Часть 1
Мастер класс по алгоритмам. Часть 1
 
Big data и bi в медицине 5 волна
Big data и bi в медицине 5 волнаBig data и bi в медицине 5 волна
Big data и bi в медицине 5 волна
 
1 тема
1 тема1 тема
1 тема
 
1
11
1
 
Искусственный интеллект и Big Data в бизнесе
Искусственный интеллект и Big Data в бизнесеИскусственный интеллект и Big Data в бизнесе
Искусственный интеллект и Big Data в бизнесе
 
Введение в алгоритмы и структуры данных
Введение в алгоритмы и структуры данныхВведение в алгоритмы и структуры данных
Введение в алгоритмы и структуры данных
 
Рекомендательная система: быстрый старт
Рекомендательная система: быстрый стартРекомендательная система: быстрый старт
Рекомендательная система: быстрый старт
 
Современные методы анализа данных
Современные методы анализа данныхСовременные методы анализа данных
Современные методы анализа данных
 

More from Andrii Gakhov

Let's start GraphQL: structure, behavior, and architecture
Let's start GraphQL: structure, behavior, and architectureLet's start GraphQL: structure, behavior, and architecture
Let's start GraphQL: structure, behavior, and architectureAndrii Gakhov
 
Exceeding Classical: Probabilistic Data Structures in Data Intensive Applicat...
Exceeding Classical: Probabilistic Data Structures in Data Intensive Applicat...Exceeding Classical: Probabilistic Data Structures in Data Intensive Applicat...
Exceeding Classical: Probabilistic Data Structures in Data Intensive Applicat...Andrii Gakhov
 
Too Much Data? - Just Sample, Just Hash, ...
Too Much Data? - Just Sample, Just Hash, ...Too Much Data? - Just Sample, Just Hash, ...
Too Much Data? - Just Sample, Just Hash, ...Andrii Gakhov
 
Implementing a Fileserver with Nginx and Lua
Implementing a Fileserver with Nginx and LuaImplementing a Fileserver with Nginx and Lua
Implementing a Fileserver with Nginx and LuaAndrii Gakhov
 
Pecha Kucha: Ukrainian Food Traditions
Pecha Kucha: Ukrainian Food TraditionsPecha Kucha: Ukrainian Food Traditions
Pecha Kucha: Ukrainian Food TraditionsAndrii Gakhov
 
Probabilistic data structures. Part 4. Similarity
Probabilistic data structures. Part 4. SimilarityProbabilistic data structures. Part 4. Similarity
Probabilistic data structures. Part 4. SimilarityAndrii Gakhov
 
Probabilistic data structures. Part 3. Frequency
Probabilistic data structures. Part 3. FrequencyProbabilistic data structures. Part 3. Frequency
Probabilistic data structures. Part 3. FrequencyAndrii Gakhov
 
Probabilistic data structures. Part 2. Cardinality
Probabilistic data structures. Part 2. CardinalityProbabilistic data structures. Part 2. Cardinality
Probabilistic data structures. Part 2. CardinalityAndrii Gakhov
 
Вероятностные структуры данных
Вероятностные структуры данныхВероятностные структуры данных
Вероятностные структуры данныхAndrii Gakhov
 
Recurrent Neural Networks. Part 1: Theory
Recurrent Neural Networks. Part 1: TheoryRecurrent Neural Networks. Part 1: Theory
Recurrent Neural Networks. Part 1: TheoryAndrii Gakhov
 
Apache Big Data Europe 2015: Selected Talks
Apache Big Data Europe 2015: Selected TalksApache Big Data Europe 2015: Selected Talks
Apache Big Data Europe 2015: Selected TalksAndrii Gakhov
 
Swagger / Quick Start Guide
Swagger / Quick Start GuideSwagger / Quick Start Guide
Swagger / Quick Start GuideAndrii Gakhov
 
API Days Berlin highlights
API Days Berlin highlightsAPI Days Berlin highlights
API Days Berlin highlightsAndrii Gakhov
 
ELK - What's new and showcases
ELK - What's new and showcasesELK - What's new and showcases
ELK - What's new and showcasesAndrii Gakhov
 
Apache Spark Overview @ ferret
Apache Spark Overview @ ferretApache Spark Overview @ ferret
Apache Spark Overview @ ferretAndrii Gakhov
 
Decision Theory - lecture 1 (introduction)
Decision Theory - lecture 1 (introduction)Decision Theory - lecture 1 (introduction)
Decision Theory - lecture 1 (introduction)Andrii Gakhov
 
Buzzwords 2014 / Overview / part2
Buzzwords 2014 / Overview / part2Buzzwords 2014 / Overview / part2
Buzzwords 2014 / Overview / part2Andrii Gakhov
 
Buzzwords 2014 / Overview / part1
Buzzwords 2014 / Overview / part1Buzzwords 2014 / Overview / part1
Buzzwords 2014 / Overview / part1Andrii Gakhov
 

More from Andrii Gakhov (20)

Let's start GraphQL: structure, behavior, and architecture
Let's start GraphQL: structure, behavior, and architectureLet's start GraphQL: structure, behavior, and architecture
Let's start GraphQL: structure, behavior, and architecture
 
Exceeding Classical: Probabilistic Data Structures in Data Intensive Applicat...
Exceeding Classical: Probabilistic Data Structures in Data Intensive Applicat...Exceeding Classical: Probabilistic Data Structures in Data Intensive Applicat...
Exceeding Classical: Probabilistic Data Structures in Data Intensive Applicat...
 
Too Much Data? - Just Sample, Just Hash, ...
Too Much Data? - Just Sample, Just Hash, ...Too Much Data? - Just Sample, Just Hash, ...
Too Much Data? - Just Sample, Just Hash, ...
 
DNS Delegation
DNS DelegationDNS Delegation
DNS Delegation
 
Implementing a Fileserver with Nginx and Lua
Implementing a Fileserver with Nginx and LuaImplementing a Fileserver with Nginx and Lua
Implementing a Fileserver with Nginx and Lua
 
Pecha Kucha: Ukrainian Food Traditions
Pecha Kucha: Ukrainian Food TraditionsPecha Kucha: Ukrainian Food Traditions
Pecha Kucha: Ukrainian Food Traditions
 
Probabilistic data structures. Part 4. Similarity
Probabilistic data structures. Part 4. SimilarityProbabilistic data structures. Part 4. Similarity
Probabilistic data structures. Part 4. Similarity
 
Probabilistic data structures. Part 3. Frequency
Probabilistic data structures. Part 3. FrequencyProbabilistic data structures. Part 3. Frequency
Probabilistic data structures. Part 3. Frequency
 
Probabilistic data structures. Part 2. Cardinality
Probabilistic data structures. Part 2. CardinalityProbabilistic data structures. Part 2. Cardinality
Probabilistic data structures. Part 2. Cardinality
 
Вероятностные структуры данных
Вероятностные структуры данныхВероятностные структуры данных
Вероятностные структуры данных
 
Recurrent Neural Networks. Part 1: Theory
Recurrent Neural Networks. Part 1: TheoryRecurrent Neural Networks. Part 1: Theory
Recurrent Neural Networks. Part 1: Theory
 
Apache Big Data Europe 2015: Selected Talks
Apache Big Data Europe 2015: Selected TalksApache Big Data Europe 2015: Selected Talks
Apache Big Data Europe 2015: Selected Talks
 
Swagger / Quick Start Guide
Swagger / Quick Start GuideSwagger / Quick Start Guide
Swagger / Quick Start Guide
 
API Days Berlin highlights
API Days Berlin highlightsAPI Days Berlin highlights
API Days Berlin highlights
 
ELK - What's new and showcases
ELK - What's new and showcasesELK - What's new and showcases
ELK - What's new and showcases
 
Apache Spark Overview @ ferret
Apache Spark Overview @ ferretApache Spark Overview @ ferret
Apache Spark Overview @ ferret
 
Decision Theory - lecture 1 (introduction)
Decision Theory - lecture 1 (introduction)Decision Theory - lecture 1 (introduction)
Decision Theory - lecture 1 (introduction)
 
Buzzwords 2014 / Overview / part2
Buzzwords 2014 / Overview / part2Buzzwords 2014 / Overview / part2
Buzzwords 2014 / Overview / part2
 
Buzzwords 2014 / Overview / part1
Buzzwords 2014 / Overview / part1Buzzwords 2014 / Overview / part1
Buzzwords 2014 / Overview / part1
 
Elasticsearch
ElasticsearchElasticsearch
Elasticsearch
 

Data Mining - lecture 5 - 2014

  • 1. Харьковский национальный университет имени В. Н. Каразина Факультет компьютерных наук ИНТЕЛЛЕКТУАЛЬНЫЙ АНАЛИЗ ДАННЫХ Data Mining Подготовил: доцент каф. искусственного интеллекта и программного обеспечения, к.ф.-м. н. Гахов Андрей Владимирович 2014/2015 уч. год
  • 2. ЛЕКЦИЯ 4 Подготовка данных (preprocessing). Часть 1
  • 4. ! К задачам анализа данных применим принцип GIGO (Garbage In, Garbage Out) - “мусор на входе - мусор на выходе”, поэтому предварительная обработка и очистка данных является одним из важнейших этапов Очистка данных включает в себя: • исправление несоответствий в данных • заполнение недостающих значений • сглаживание шумов и выделение аномалий
  • 5. ОБНАРУЖЕНИЕ НЕСООТВЕТСТВИЙ Несоответствия могут быть вызваны такими факторами как человеческие ошибки, использование одинаковых кодов для различных данных, ошибок при интеграции данных, умышленно неверными значениями или просто устаревшими данными Этапы обнаружения несоответствий в данных: • узнать больше о данных, определить типы, возможные значения и характеристики атрибутов. • поиск несоответствий в представлении данных (например, в Европе используется 2014/09/14, а в США 2014/14/09) • поиск перегрузки полей, когда вместо определения нового атрибута, был расширен уже существующий атрибут за счет заполнения неиспользуемых в нем значений • проверка данных по правилам валидации данных
  • 6. Правила валидации данных: • Правило уникальности Каждое возможное значение данного атрибута должно отличаться от всех других значений этого атрибута • Правило последовательности Не должно быть отсутствующих возможных значений между минимальным и максимальным значениями данного атрибута и все такие значения должны быть уникальными • Правило для пустых значений Пустые значения могут принимать разную форму - пробел, знак(и) вопроса, специальные символы и т.п. Правило для пустых значений требует наличия единого подхода к обозначению таких значений (например, 0 для числовых значений, пустая строка - для текстовых)
  • 7. РАБОТА С НЕДОСТАЮЩИМИ ЗНАЧЕНИЯМИ • Исключение (игнорирование) набора данных В данном случае теряется информация, которую несут значения остальных атрибутов исключаемого набора данных. Метод применим когда в наборе большое количество атрибутов с недостающими данными или когда общее количество данных достаточно велико • Заполнение недостающих значений вручную Как правило, может применяться при очень малом количестве пропущенных данных • Использование глобальной константы В данном случае все недостающие значения заменяются на NA или -∞. Обрабатывающая программа должна уметь отличать данные значения от реальных значений, которые принимает атрибут
  • 8. ! • Использование мер центральной тенденции Для симметричного (нормального) распределения данных п р о п уще н ные з н а ч е н и я мо г у т з аме н я т ь с я с р е д н им арифметическим, а для асимметрического целесообразно использовать медиану. Значительным усовершенствованием данного метода может быть вычисление среднего (или медианы) не по всему набору данных, а по подмножеству данных одного класса или входящих в один кластер • Использование наиболее вероятного значения Для нахождения наиболее вероятного значения может использоваться регресионный анализ, Байесовские методы, деревья принятия решения и др.
  • 9. • Как правило, предпочтение должно отдаваться методу, который позволит получить в будущем максимально точный анализ за приемлемое время ! • Некоторые атрибуты не оказывают существенного влияния на результаты анализа, поэтому замена недостающих значений константой NA будет более предпочтительна, чем вычисление наиболее вероятного значение методом линейной регресии ! • Не всегда отсутствующие значения являются недостающими. Отсутствие значения для атрибута может означать отсутствие данного атрибута (например, пустой ответ в анкете на вопрос “Кличка вашей собаки”, если у вас нет собаки)
  • 10. РАБОТА С ЗАШУМЛЕННЫМИ ДАННЫМИ Шум - случайная ошибка или отклонение значений в анализируемых данных. Для борьбы с шумом применяются различные методы сглаживания данных, например: • Биннинг данных Диапазон значений атрибута разбивается на некоторое количество интервалов (называемых, бинами или bins) где применяется один из методов сглаживания данных, заменяя все попавшие в интервал значения на некоторую общую характеристику или значение. В качестве такой характеристики может выступать одна из мер центральной тенденции (например, среднее) или одно из крайних значений интервала. Как правило, чем шире интервалы, тем больше эффект от сглаживания данных, но и больше потеря данных.
  • 11. РАБОТА С ЗАШУМЛЕННЫМИ ДАННЫМИ • Регрессионный анализ На основе зашумленных значений атрибута строится регресионная кривая (при линейной регрессии - прямая) и все значения заменяются на соответствующие значения на регресионной кривой ! 18 ! 14 ! 10 ! 6 ! 2 ! 2 4,25 6,5 8,75 11 • Анализ аномалий Аномалии могут быть найдены, например, путем кластеризации данных, когда значения не попавшие в кластеры считаются аномальными
  • 12. ПРИМЕР: Пример: пусть атрибут зарплата принимает следующие значения (тыс. грн): 3.0, 3.6, 4.7, 5.0, 5.2, 5.2, 5.6, 6.0, 6.3, 7.0, 7.0, 11.0 Проведем биннинг данных с 3-я бинами и в качестве общего значения для данных, попавших в бин, выберем их среднее арифметическое: Bin1: 3.0, 3.6, 4.7, 5.0 (среднее 4.075) Bin2: 5.2, 5.2, 5.6, 6.0 (среднее 5.5) Bin3: 6.3, 7.0, 7.0, 11.0 (среднее 7.825) В итоге значения атрибута зарплата будут (тыс. грн): 4.075, 4.075, 4.075, 4.075, 5.5, 5.5, 5.5, 5.5, 7.825, 7.825, 7.825, 7.825
  • 14. • Очень часто задачи анализа данных требуют интеграции данных - объединения данных из различных источников данных (например, из баз данных, тестовых файлов и т.п. разных подразделений компании) • Качественная интеграция поможет уменьшить или избежать повторений и несоответствий в данных
  • 15. ПРОБЛЕМА ИДЕНТИФИКАЦИИ ОБЪЕКТА “Как идентифицировать объекты в разных наборах данных, представляющие одни и те же объекты во внешнем мире?” • Использование эквивалентности характеристик атрибутов Предполагается, что атрибуты с одинаковыми характеристиками (имя, тип, диапазон значений и т.п.) представляют одинаковые объекты. Иногда вместо требования полной эквивалентности, допускается совпадение некоторого случайно выбраного подмножества характеристик • Использование эквивалентности, заданной пользователем Данный подход требует, чтобы пользователь предоставил таблицы эквивалентности атрибутов (что не всегда возможно) • Использование эвристического подхода Данный подход применяется когда нет другой информации, позволяющей принять решение об эквивалентности объектов. Как правило, подразумевается применение методов статистического анализа
  • 16. КОНФЛИКТ ЗНАЧЕНИЙ • Несмотря на правильную идентификацию объекта, при интеграции данных могут возникать конфликты значений их атрибутов • Например, в качестве значений для атрибута температура в одном наборе данных используется шкала Цельсия, а в другом - Фаренгейта • Поэтому, при идентификации объектов необходимо следить и за характеристиками объединяемых атрибутов, иначе интеграция данных приведет к несоответствию данных
  • 17. ИЗБЫТОЧНОСТЬ ДАННЫХ • Атрибут является избыточным, если он может быть получен из одного или нескольких других атрибутов • Неправильная идентификация объекта или непоследовательность в именовании атрибутов могут служить источником избыточности данных • Избыточность данных может быть обнаружена путем проведения корреляционного анализа. Корреляционный анализ помогает измерять насколько сильно один атрибут влияет на другой
  • 18. НОМИНАТИВНЫЕ АТРИБУТЫ χ 2 КРИТЕРИЙ • Рассмотрим задачу определения корреляции между двумя номинативными атрибутами x и y • Пусть атрибут x принимает N различных значений x1, x2, … xN, а атрибут y принимает M различных значений y1, y2, … yM • Наблюдаемые частоты пар значений атрибутов (xk, yk) могут быть представлены следующей таблицей сопряжённости: … x1 x2 … … … … … xN y1 y2 yM f1,1 f1,2 f1,M f1,• f2,1 f2,2 f2,M f2,• fN,1 fN,2 fN, M fN,• f•,1 f•,2 f•,M
  • 19. χ 2 Критерия согласия Пирсона проверяет гипотезу, что x и y являются независимыми (0-гипотеза) и следовательно корреляция отсутствует. Тест основан на уровне значимости с (N-1)x(M-1) степенями свободы, который может быть определен из статистических таблиц. Статистика критерия согласия Пирсона определяется соотношением: χ 2 = fij − gij ( )2 2 gij χ 2 MΣ j=1 NΣ i=1 где fij - наблюдаемые частоты, а gij - ожидаемые частоты gij = fi, • + f•, j n NΣ , n = fi, • i=1 MΣ = f •, j j=1 Как видно, наибольший вклад в статистику вносят пары с наблюдаемой частотой наиболее отличающейся от ожидаемой.
  • 20. Пример: был проведен опрос среди 1500 владельцев животных. У каждого человека спросили: Кто им больше нравится - собаки или кошки? Неоходимо оценить корреляцию между двумя атрибутами: пол и любимое животное. Наблюдаемые частоты: собаки кошки мужчины 250 200 450 женщины 50 1000 1050 300 1200 g12 = 450 ⋅1200 Ожидаемые частоты вычисляются по формулам, например, = 360 , тогда статистика равна 1500 χ 2 = (250 − 90)2 90 + (50 − 210)2 210 + (200 − 360)2 360 + (1000 − 840)2 840 = 507.93 Задача имеет (2-1)x(2-1)=1 степень свободы и согласно статистической таблице для отклонения 0-гипотезы на уровне значимости 0.1% необходимо, чтобы статистика превысила уровень 10.828. Следовательно, наши величины (сильно) зависимы для данной группы людей
  • 21. ЧИСЛЕННЫЕ АТРИБУТЫ Для численных атрибутов зависимость может быть определена через коэффициент корреляции Пирсона rx,y = (xk − x ) y( k − y ) nΣ k=1 n ⋅σ x ⋅σ y = xk ⋅ yk nΣ k=1 n ⋅σ x ⋅σ y − x ⋅ y σ x ⋅σ y где n - число пар (xk , yk) в рассматриваемом наборе данных Очевидно, что −1 ≤ r≤ +1 x,y Два атрибута положительно коррелируют между собой, если r > 0 и отрицательно коррелируют, если r< 0 x,y x,y Если r= 0 , тогда атрибуты независимы и корреляция x,y отсутствует
  • 22. Другой важной мерой линейной зависимости двух численных атрибутов является ковариация (ковариационный момент): nΣ Ковариация и коэффициент корреляции связаны Cov(x, y) = 1n (xk − x ) y( k − y ) k=1 между собой: rx,y = Cov(x, y) σ ⋅σ У двух атрибутов x y наблюдается положительная корреляция, если Cov(x, y) > 0 и отрицательная корреляция, если Cov(x, y) < 0 Если ковариация равна нулю, то атрибуты являются независимыми (обратно утверждение не верно).
  • 23. Пример: для двух различных товаров в течении нескольких недель измерялась цена (в евро). Товар1 Товар2 неделя 1 12 30 неделя 2 15 10 неделя 3 8 20 неделя 4 4 6 неделя 5 6 9 Необходимо оценить возможную зависимость цен на данные товары в рассматриваемый период. x = 12 +15 + 8 + 4 + 6 5 = 45 5 = 9 y = 30 +10 + 20 + 6 + 9 5 = 75 5 = 15 Cov(x, y) = 12 ⋅ 30 +15 ⋅10 + 8 ⋅20 + 4 ⋅6 + 6 ⋅9 5 − 9 ⋅15 = 748 5 −135 = 14.6 Таким образом, ковариация положительная, поэтому мы можем сделать заключение о наличие зависимости между ценами на данные два товара в рассматриваемый период.
  • 24. ЗАДАНИЯ • Значения атрибутов рост (см) и вес (кг) для студентов группы представлены в таблице: рост вес рост вес рост вес рост вес рост вес 185 77 163 68 173 82 193 - 175 83 170 188 82 180 84 183 79 165 66 183 75 185 74 178 NA 175 77 178 67 183 77 165 61 183 84 183 70 не знаю 95 175 76 185 77 84 188 185 76 178 63 ! ! ! • Необходимо: • выявить несоответствия в данных и исправить их • заполнить недостающие значение одним из известных методов • сгладить данные при помощи биннинга данных с 4 бинами • вычислить коэффициент корреляции и корреляционный момент • оценить наличие или отсутствие линейной зависимости между данными атрибутами