1. ptsecurity.com
Григорьев Виталий
Специалист отдела безопасности сетевых приложений Positive Technologies,
Аспирант кафедры «Информационная безопасность» Финансового университета при
Правительстве РФ
Проблемы распознавания
зашифрованного трафика в канале связи
Научно-практическая конференция
«Информационная безопасность в банковско-финансовой сфере»
2. Есть ли необходимость в анализе скрытого трафика?
Проблемы:
• 67% утечек конфиденциальной информации происходит из-за преднамеренных действий сотрудников
компаний*
• более половины всех утечек информации происходит с использованием сети Интернет**
• злоумышленник (человек или вредоносное ПО) пытается скрыть факт передачи информации и
маскируется под легальный трафик
• злоумышленник маскирует содержимое передаваемой информации, как правило, используя шифрование
или методы кодирования
Задача исследования: создание эффективного алгоритма распознавания зашифрованных данных,
передающихся в канале связи, для предотвращения скрытых утечек конфиденциальной информации
Предмет исследования: исследование алгоритмов анализа сетевого трафика для DLP-, IDS-, IPS- и DPI-
систем
* - по результатам исследований аналитического центра InfoWatch.
** - по результатам исследований Positive Research 2016.
3. Немного истории и теории
1945 (1949) год. Рассекречена работа К. Шеннона
«Теория связи в секретных системах».
1948 год. К. Шеннон в работе «Математическая
теория связи» изложил идеи передачи и хранения
информации, ввел понятие информационной
энтропии.
Информационная энтропия
𝐻 𝑥 = −
𝑖=1
𝑛
𝑝 𝑖 𝑙𝑜𝑔2 𝑝 𝑖 ,
𝑖=1
𝑛
𝑝 𝑖 = 1
Утверждение
Шифр называется совершенным, если ни один шифртекст не
раскрывает никаких сведений о соответствующем ему открытом
тексте.
𝑃 𝑌(𝑙)/𝑋(𝑙) ( 𝑦/ 𝑥) = 𝑃 𝑌 𝑙 ( 𝑦),
где ∀ 𝑦 ∈ 𝑌(𝑙), ∀ 𝑥 ∈ 𝑋(𝑙) , ∀𝑙 ∈ 𝑁
5. Метод, основанный на вычислении энтропии
Подсчитываем символьное*
рассеивание анализируемых
данных
Первый этап
Вычисляем вероятности
появления символов в
рассматриваемых данных
* - количество байт информации для анализа выбирается из предположения о кодировке, в которой представлены эти данные.
Выдвигаем гипотезу
относительно используемого
языка
Вычисляем энтропию
информации, исходя из
полученных вероятностей
Делаем вывод о
подтверждении гипотезы,
основываясь на известной
энтропии для языка
Результат
Второй этап
Если энтропия попала в
доверительный интервал
относительно табличной
энтропии для языка – гипотеза
подтвердилась
Гипотеза не подтвердилась –
сравниваем полученный
результат относительно
табличных значений энтропий
для других языков и стилей
речи
6. От теории к практике
Русский язык 1 – “A” 2 – “E” 3 – “И” 4 – “О”
Табличное значение 6,4 % 7,4 % 6,0 % 9,6 %
Полученное значение 6,2 % 7,3 % 4,9 % 11,0 %
Английский язык 1 – “A” 2 – “E” 3 – “O” 4 – “T”
Табличное значение 8,1 % 13,0 % 7,9 % 10,5 %
Полученное значение 7,5 % 12,6 % 7,7 % 10,8 %
русский язык английский язык
Таблица 1: Вероятность появления букв в тексте на русском языке Таблица 2: Вероятность появления букв в тексте на английском языке
Энтропия информации Русский язык Английский язык
Табличное значение 4,56 ± 0,05 4,27 ± 0,03
Полученное значение 4,52 4,28
Таблица 3: теоретическая и полученная энтропия для языка
8. Недостатки энтропийного подхода
• Нужно анализировать большой объем трафика (~200 Кб и больше)
• Результат получается на основе вероятностей появления символов в данных
• Нужно хранить большие объемы информации об энтропии каждого языка и о стилях
текста
• Нужно поддерживать различные кодировки данных
• Метод не дает точный ответ о характере передаваемых данных, отличных от
осмысленного текста
• Энтропия – постоянно меняющаяся величина (изменения в лексике, семантике
языка и др.)
• Необходима оценка погрешности полученных результатов
10. Разностная характеристика бит структурированных данных
Английский текстРусский текст Бинарные данные JPEG-изображение
Тип Исходный AES IDEA GOST TwoFish
Английский текст 0,7539 0,9997 0,9999 1,036 1,0
Русский текст 1,4927 0,9981 1,0 0,9973 1,0042
Бинарный файл 0,3942 0,9999 0,9998 0,9999 0,9997
JPEG-изображение 0,813 1,0 1,012 1,025 0,9987
Таблица 4: Отношение единичных бит к нулевым битам (на 1 Мб данных)
11. Разностная характеристика бит зашифрованных данных
ГОСТ 28147-89AES-256 IDEA TwoFish
Тип 64 128 256 1024 2048 4096 8192
Исходные данные 100 148 197 537 978 1695 2788
Зашифрованные 47 64 93 150 246 270 358
Таблица 5: Зависимость значений отклонения от математического ожидания
от длины рассматриваемого блока данных (байт)
12. Алгоритм
Первый этап
Выбираем данные из сетевого
трафика, которые не удалось
идентифицировать на предыдущих
этапах анализа (не менее 1 Кб)
Делим данные на блоки
одинакового размера B (важный
фактор – большое кол-во блоков)
Считаем количество единичных
(нулевых) бит в каждом блоке
данных
Составляем массив, размера B,
где каждый элемент 𝑿𝒊 – кол-во
блоков, в которых число
единичных бит совпадает
Полученное распределение должно
быть подчинено нормальному
закону распределения с 𝑴 𝑿 ,
равным половине длины блока
𝑵(𝑩/2, 𝜹2
)
Ищем максимальный элемент в
массиве. Необходимый признак, что
данные зашифрованы – индекс 𝑿𝒊
равняется половине размера блока
𝑿𝒊 = 𝑩/𝟐
Вычисляем математическое
ожидание 𝑴 𝑿 , дисперсию
𝑫 𝑿 и третий центральный
момент 𝝁 𝟑 распределения.
Критерии: 𝑴 𝑿 ≈ 𝑩/𝟐, 𝝁 𝟑 ≈ 𝟎
Аппроксимируем полученные данные функцией плотности вероятностей нормального
распределения относительно 𝑴 𝑿 и 𝑫 𝑿 = 𝜹2
. Полученное в результате аппроксимации
распределение должно быть подчинено нормальному закону распределения 𝑵(𝑩/2, 𝜹2
).
Используем критерий согласования Пирсона для проверки гипотезы о виде распределения
полученных результатов в соответствии с нормальным законом распределения 𝑵(𝑩/2, 𝜹2
).
≡
Второй этап
13. Выводы и результаты тестирования
Результаты экспериментов
VPN
соединения
Бинарные
данные
Зашифрованные
данные
Осмысленные
тексты
Архивы
Правильное распознавание 97 83 100 98 15
Ошибка распознавания 3 17 0 2 85
Таблица 6: Результаты проведенных экспериментов
Достоинства метода
• Определяет незашифрованные данные вне
зависимости от кодировки, в которой они представлены
• Требуется небольшой объем данных для анализа
(согласно экспериментам, не менее 1 Кб)
• Математически обоснованный и эффективный метод
оценки полученных результатов
• Дает точный результат при анализе зашифрованной
информации
• Не нужно хранить большое количество дополнительной
информации
Недостатки метода
• При анализе бинарных данных может давать
положительный результат на наличие
зашифрованных данных, но вероятность
таких исходов минимальна
• Если данные закодированы, например,
используется архивация, метод будет всегда
давать положительный результат на наличие
зашифрованного контента
14. ptsecurity.com
Григорьев Виталий
Специалист отдела безопасности сетевых приложений Positive Technologies,
Аспирант кафедры «Информационная безопасность» Финансовый университет при
Правительстве РФ
Научно-практическая конференция
«Информационная безопасность в банковско-финансовой сфере»
Спасибо за внимание!
vit.link420@gmail.com
vgrigoriev@ptsecurity.ru