1. SPOT 1.0
Scoring suspicious Profiles On Twitter
MLI 1.0
Multi-Layer Imbrication for data leakage prevention
Charles PEREZ (UTT, ICD/ERA, UMR STMR)
2012 – Projet CPER CyNIC – Charles PEREZ
2. SPOT 1.0 : Analyse de Twitter
Motivations
Plus de 200 millions d’utilisateurs
Facilement accessible depuis un smartphone
Importante quantité de données accessibles et publiques
Diffusion d’information rapide
Réseaux sociaux numériques :
nouveau vecteur de propagation d’URL malveillantes ?
Perez, C., Lemercier, M., Birregah, B., & Corpel, A. (2011). SPOT 1.0: Scoring Suspicious Profiles On Twitter. In I. C.
Society (Ed.), (pp. 377–381). Presented at the Advances in Social Networks Analysis and Mining (ASONAM).
Projet CPER CA CyNIC – Charles PEREZ– 25 mai 2012 2
3. SPOT 1.0 : Analyse de Twitter
Approches existantes
Détection de profils actifs (Wang 2010)
Détection de spam à partir d’URLs (Benevenuto 2010)
Analyse d’un profil malveillant (Yardi 2010)
Conseils de configuration des profils (Gharibi 2011)
Objectifs
Mettre en œuvre des stratégies de collecte
Mise en évidence de comportements suspects
Mise en place d’un outil de détection de malveillance
Wang, A. (2010). Don't follow me: Spam detection in twitter. Presented at the Int'l Conference on Security and Cryptography .
Gharibi, W., & Shaabi, M. (2011). Cyber threats in social networking websites. arXiv.org.
Yardi, S., Romero, D., Schoenebeck, G., & Boyd, D. M. (2010). Detecting spam in a Twitter network. First Monday, 15(1).
Benevenuto, F., Magno, G., Rodrigues, T., & Almeida, V. (2010). Detecting spammers on Twitter. Presented at the Proceedings
of the 7th Annual Collaboration, Electronic messaging, Anti-Abuse and Spam Conference (CEAS).
Projet CPER CA CyNIC – Charles PEREZ– 25 mai 2012 3
4. SPOT 1.0 : Scoring Suspicious Profiles On Twitter
Fonctionnalités
Détection de profils suspects
Détection de profils malveillants
Outil d’aide à la décision
Projet CPER CA CyNIC – Charles PEREZ– 25 mai 2012 4
5. SPOT 1.0 : étape 1 (la collecte)
Les flux de données
Méthode
Connexion aux flux RSS par l’API
Données
Tweets + profils utilisateurs
Quantité
1 million de profils
1.2 millions de tweets
Contraintes
Quantité de données accessibles
Durée
3 jours
Projet CPER CA CyNIC – Charles PEREZ– 25 mai 2012 5
6. SPOT 1.0 : étape 2 - La génération d’indicateurs
Indicateurs reflétant le comportement d’un utilisateur
de Twitter…
Quantité d’amis
Quantité de suiveurs
Quantité totale de tweets
Fréquence de Tweets
Quantité de références dans les tweets
Quantité de hashtags dans les tweets
Quantité d’URLs dans les tweets
Fréquence de création de liens
Distance entre les tweets
Age du profil
Etc
Projet CPER CA CyNIC – Charles PEREZ– 25 mai 2012 6
7. SPOT 1.0 : étape 3- La classification
Outils mathématiques permettant de classifier des entités
en fonction de leurs caractéristiques et de données
d’apprentissage
Techniques
Classification naïve bayésienne
K-plus proches voisins
Machines à vecteurs de support
Réseaux de neurones
Objectifs
Identifier les profils suspects et profils non suspects
Analyser plus précisément les individus suspects
Projet CPER CA CyNIC – Charles PEREZ– 25 mai 2012 7
8. SPOT 1.0 : étape 4 - Analyse des URLs
Analyse des URLs issues de profils anormaux
Motivations
Les services de raccourcissement d’URLs sont très largement utilisés
Les URLs malveillantes peuvent être masquées
Objectifs
Identifier les URLS malveillantes
Approches
Classification des URLs par les techniques existantes
Se baser sur les bases de données d’URLS malveillantes (e.g. Phishtank)
Projet CPER CA CyNIC – Charles PEREZ– 25 mai 2012 8
9. SPOT 1.0 : étape 5 - Représentation 3D
Visualisation de la virulence des profils
Projet CPER CA CyNIC – Charles PEREZ– 25 mai 2012 9
10. SPOT 1.0 : étape 5 - Démonstration
Visualisation de la virulence des profils
Projet CPER CA CyNIC – Charles PEREZ– 25 mai 2012 10
11. MLI 1.0 : Analyse d’un réseaux social egocentrique sur Facebook
Motivations
Données stratégiques sont publiées sur les RSN
L’audience d’un utilisateur est grande
Le cercle de contact pas nécessairement de confiance et pourtant…
Les règles de confidentialité sont souvent basées sur le principe suivant :
« les amis sont des personnes de confiance »
Objectifs
Rendre au plus juste l’hypothèse précédente
Élaborer une stratégie de détection de contacts non légitimes
Limiter les fuites d’information par ce moyen (phishing, espionnage
numérique, etc. )
Projet CPER CA CyNIC – Charles PEREZ– 25 mai 2012 11
12. MLI 1.0 : Prédiction de liens sur les RSN
Approches existantes (Link prediction problem)
Common Neighbors index (CN)
Salton Index
Jaccard Index
Sorensen Index
Hub Promoted Index (HPI)
Hub Depressed Index (HDI)
Leicht-Holme-Newman Index (LHN)
Preferential Attachment Index (PA)
Adamic Adar Index (AA)
Resource Allocation Index (RA). Réseau égocentrique d’ordre 2 sur
Facebook
Projet CPER CA CyNIC – Charles PEREZ– 25 mai 2012 12
13. MLI 1.0 : Approche locale pour la prédiction de liens
Approche Locale (smartphone)
Utiliser les différents media de communication
Construire un indicateur de confiance
Enrichir les indicateurs existant
Méthode
Retrouver les contacts redondants
Évaluer leur importance
Réseaux sociaux analysés
Twitter, Facebook
Carnet d’adresse, Google+
Projet CPER CA CyNIC – Charles PEREZ– 25 mai 2012 13
14. MLI 1.0 : Identification de profils redondants
Modèle multi couche
BDD SQLite extraites d’un iPhone 3GS
Firmware 4.3.5
Projet CPER CA CyNIC – Charles PEREZ– 25 mai 2012 14
15. MLI 1.0 : Identification de profils redondants
Projet CPER CA CyNIC – Charles PEREZ– 25 mai 2012 15
16. MLI 1.0 : Formulation mathématique
Un ensemble de graphes :
Fonction d’identification :
Imbrication d’un nœud dans une couche
Imbrication d’un nœud dans un ensemble de couches
Projet CPER CA CyNIC – Charles PEREZ– 25 mai 2012 16
17. MLI 1.0 : Exemple de proposition
Indicateur d’allocation de ressources (RA):
Fonction des voisins communs
Fonction du nombre de contacts des voisins communs
Allocation pondéré de ressource
Fonction des voisins communs
Fonction du nombre de contacts de ces voisins communs
Fonction de l’imbrication des voisins communs
Projet CPER CA CyNIC – Charles PEREZ– 25 mai 2012 17
18. MLI 1.0 : Résultats (AUC)
Indices DataSet 1 DataSet 2
CN 0.908 0.892
Salton 0.910 0.889
Jaccard 0.907 0.897
Sorensen 0.907 0.892
HPI 0.905 0.891
HDI 0.918 0.886
LHN 0.913 0.878
PA 0.535 0.559
AA 0.901 0.833
RA 0.886 0.843
WRA 0.983 0.921
Projet CPER CA CyNIC – Charles PEREZ– 25 mai 2012 18
19. MLI 1.0 : Conclusion
Résultats
Les données locales au smartphone peuvent être utiles pour la prévention de
fuite d’information liée à nos contacts
Le modèle multi couche s’adapte très bien aux données d’un smartphone
L’indicateur d’imbrication met en évidence des aspects intéressant du
comportement des utilisateurs
Perspectives
Développer une application smartphone permettant d’effectuer le traitement
des contacts
Intégrer les échanges par sms, mail dans le modèle.
Ajouter le critère spatio-temporel
Pondérer les interactions sur chacune des couches
Projet CPER CA CyNIC – Charles PEREZ– 25 mai 2012 19