Kryminalistyczne apskety wykorzystania technologii data mining w walce z cyberprzestępczością
1. 1
Ataki Sieciowe 2016 / Cyber Attacks 2016
VI edycja konferencji naukowej Ataki Sieciowe / VIth edition of scientific conference Cyber Attacks
Uniwersytet im. M. Kopernika / Nicolaus Copernicus University
Toruń
2. Plan wystąpienia
• Zakres znaczeniowy data mininig
• Cele zastosowania DM
• Typowe obszary zastosowań komercyjnych
• Aspekty kryminalistyczna
• Taktyka przestępcza
• Przeciwdziałanie przestępczości
• Wykrywanie znanych schematów postępowania
• Przewidywanie nowych schematów
• Podsumowanie
2
3. Zakres znaczeniowy DM
• The American Heritage® Dictionary of the English Language – „ekstrakcja
użytecznych, często wcześniej nie znanych informacji z dużych baz lub
zestawów danych”
• The Collins English Dictionary – „zbieranie informacji z istniejących
wcześniej zbiorów danych, takich jak np. dane o klientach supermarketu o ich
zwyczajach zakupowych”
• The WordNet – „przetwarzanie danych używając zaawansowanych
możliwości przeszukiwania danych oraz algorytmów statystycznych w celu
odkrycia wzorów oraz relacji w istniejących wcześniej bazach danych;
sposób na odkrywanie nowego znaczenia danych”
3
4. DM wg The TwoCrows Consulting
• Aktywność polegająca na ekstrakcji informacji, której to celem jest
ujawnienie ukrytych faktów znajdujących się w bazach danych
• wykorzystuje ona kombinację
• technologii uczenia maszynowego,
• analiz statystycznych,
• technik modelowania oraz
• technologii bazodanowych,
• data mining
• odnajduje wzory i
• ledwo dostrzegalne relacje w danych oraz
• wyprowadza zasady, na podstawie których można prognozować przyszłe wyniki
4
5. DM wg The Gartner Group
• DM jest procesem
• odkrywania znaczących nowych zależności, wzorców oraz trendów
• w dużej ilości danych zgromadzonych w stosownych repozytoriach
• poprzez wykorzystanie technologii rozpoznawania wzorców, jak również
• poprzez metody statystyczne i matematyczne
5
6. Cele zastosowania DM
• Opis zbiorów danych :
• Podsumowuje ich właściwości, parametry
• Pozwala na ich analizę poprzez wykresy i grafy,
• Pozwala wyszukiwać potencjalne istotne związki między zmiennymi
• Budowa modeli predykcyjnych bazujących na wzorcach ze znanych
wyników (danych), a następnie testowanie ich na nowej próbce danych
• Empiryczna weryfikacja modelu
6
7. 7
Dane Informacje
• Opis danych
• Podsumowanie ich
właściwości,
parametrów
• Ich analiza
• Poszukiwanie
związków
Wiedza
• Budowanie
modeli
• Testowanie
modeli
Mądrość
• Podejmowanie
decyzji
• Wdrażanie
modeli do
praktyki
8. Typowe obszary zastosowania komercyjnych
• Zarządzanie relacjami z klientami – (Customer Relationship Management - CRM)
• Profilowanie klientów przez przedsiębiorców (np. klasteryzacja, klasyfikacja i predykcja)
• Kierowanie ofert handlowych
• Badanie sentymentu w wypowiedziach internautów
• Wywiad (kontrwywiad) gospodarczy (Corporate Surveillance, Business
Intelligence – BI)
• Profilowanie pracowników pod kątem ich dalszej kariery, bezpieczeństwa podmiotu,
możliwości przekupstwa
• Zastosowanie w walce z przestępstwami finansowymi
• Profilowanie klientów (wg ryzyka, PEP)
• Wyszukiwanie znanych wzorców np. oszustw, prania pieniędzy (modele eksperckie)
• Typowanie transakcji podejrzanych (wg kryteriów ustawowych) w ramach walki z praniem
pieniędzy 8
10. Taktyka przestępcza
• Analizowanie sposobu popełniania incydentów oraz czynów zabronionych w
sieci lokalnej, jak i rozległej. To jest nic innego jak znana w kryminalistyce
analiza modus operandi sprawców
• Każdy z użytkowników sieci pozostawia po swojej aktywności ślady
cyfrowe, które są podstawą analiz pozwalających na ich kategoryzację,
klasteryzację
• Za zachowanie, które może być podstawą analiz, należy uznać np.
• logowanie się na określone strony z określonego adresu IP lub domeny
• czas przebywania na stronie
• sekwencja odwiedzanych podstron
• nieudane próby logowania,
• generowane raporty o błędach, itp.
10
11. Wybrane kwestie szczegółowe:
• System jest w stanie analizować te zachowania i wykrywać tzw. anomalie - zachowania
odbiegające od innych, statystycznie typowych zachowań
• Jeżeli dany użytkownik zachowuje się jak typowy przestępca, to nie może być to
jednoznacznie utożsamiane z faktem popełnienia przestępstwa
• Systemy mają charakter wspomagający proces analizy dużych ilości danych,
pozyskiwanie z nich wiedzy i podejmowania decyzji
• Administratora:
• ocenia zagrożenia płynące ze strony konkretnych zbiorów zachowań
• może stworzyć modele postępowań o różnym poziomie potencjalnego zagrożenia na podstawie
dotychczas zaistniałych incydentów czy ataków
• testuje modele na danych historycznych pochodzących ze znanych przypadków incydentów lub
ataków
• testuje modele „na żywo”
• Cyfrowy ślad behawioralny – odpowiednio przygotowane systemy mogą rozpoznawać
osobę „przy klawiaturze” po jej swoistym zachowaniu będącym jej tak jakby
indywidualnym podpisem, to samo dotyczy np. botnetów, programów hakerskich, itp.11
13. Wykrywanie znanych schematów postępowania
• Są one opracowane na podstawie wiedzy uzyskanej z wcześniejszych analiz
• Technologia w sposób efektywny pozwala na wyszukiwanie takich wzorców
w dużych ilościach danych
• Zależnie od rodzaju wzorca można częściowo zautomatyzować proces
reakcji administratora (dokładnie takie samo zachowanie jak wcześniej)
• Data mining pozwalana zautomatyzowane przyporządkowywanie
zachowania do najbardziej pasującego schematu ataku (nie dokładnie takie
samo zachowanie jak wcześniej, ale najbardziej podobne)
13
14. Przewidywanie nowych schematów
• Porównując cechy bieżącego ruchu w sieci z poszczególnych adresów IP,
przez zasoby lub konta użytkowników ze znanymi modus operandi ataków,
system może wygenerować sygnał ostrzegawczy, że istnieje
prawdopodobieństwo zachowania, które już w najbliższej przyszłości może
przerodzić się w atak.
• Daje to szanse na przygotowanie sieci i jej poszczególnych elementów przez
administratora.
• Innymi słowy analiza zbiorcza danych pochodzących z wielu źródeł z
użyciem technologii data mining w tej najbardziej zaawansowanej odmianie
może stanowić element systemu wczesnego ostrzegania o potencjalnych
zdarzeniach w sieci. 14
15. Podsumowanie
• Z punktu widzenia kryminalistyki technologia te realizuje dwie jej funkcje:
• wykrywczą oraz
• prewencyjną.
• W szczególności jest to realizowane poprzez:
• monitorowanie ruchu w sieciach
• profilowanie użytkowników na podstawie ich zachowania
• wykrywanie anomalii
• wsparcie procesu decyzyjnego
• prewencja bazująca na przewidywaniu
15
16. Problemy prawne
• dostęp do określonych danych telekomunikacyjnych przez poszczególne
podmioty sektora publicznego, w tym organy ścigania i służby specjalne
• możliwość przetwarzania danych osobowych przez podmioty z sektora
prywatnego
• wymianie danych z zagranicznymi podmiotami o użytkownikach sieci
16
17. Zbyt duża wiara w możliwości tej technologii
w połączeniu z poszukiwaniem rozwiązań całkowicie
zautomatyzowanych (ze względu na koszty osobowe)
do przetwarzania ogromnych ilości danych (BigData),
które mają często różną jakość (w tym także wiarygodność)
może prowadzić do znaczącej ilości wyników fałszywie dodatnich
oraz tworzenia systemów nadzoru o gargantuicznych rozmiarach.
17
18. Powoduje to powstanie także pytań o kwestie konieczności i
proporcjonalności stosowania tego typu rozwiązań
w celu zapewnienia bezpieczeństwa,
a które to naruszają prawo do prywatności.
18
19. Dziękuję za uwagę
dr hab. Wojciech Filipkowski, prof. UwB
w.filipkowski@uwb.edu.pl
@fwojtek
Pełen tekst wystąpienia ukarze się w języku angielskim
w kolejnym wydaniu pracy zbiorowej pod redakcją Prof. E. W. Pływaczewskiego
pt. The Current Problem of Criminal Law and Criminology
19
20. Bibliografia
• D. Barbara, S. Jajodia (red.), Application of Data Mining in Computer Security, Kluwer Academic
Publishers, Boston-Dordrecht-London 2002
• H. Chen, E. Reid, J. Sinai, A. Silke, B. Ganor (red.), Terrorism Informatics, Knowledge
Management and Data Mining for Homeland Security, Springer, New York 2008
• H. Chen, Intelligence and Security Informatics for International Security, Information Sharing and
Data Mining, Springer, New York 2006
• W. Filipkowski, E. W. Pływaczewski, Z. Rau (red.), Przestępczość w XXI wieku, Zapobieganie i
zwalczanie, t. II, Problemy technologiczno-informatyczne, Wolters Kluwer, Warszawa 2015
• C. McCue, Data Mining and Predictive Analysis, Intelligence Gathering and Crime Analysis,
Butterworth Heindemann, Amsterdam 2006
• J. Mena, Investigative Data Mining for Security and Criminal Detection, Butterworth Heinemann,
Amsterdam 2003
• E. Nawarecki, G. Dobrowolski, M. Kisiel-Dorohinicki (red.), Metody sztucznej inteligencji w
działaniach na rzecz bezpieczeństwa, AGH, Kraków 2009
• E. W. Pływaczewski (red.), The Current Problem of Criminal Law and Criminology, C. H. Beck,
Warszawa 2014 20