Graphes et détection de fraude : exemple de l'assurance
1. Détection de fraude à l'assurance
avec Neo4j et Linkurious
SAS founded in 2013 in Paris | http://linkurio.us | @linkurious
2. CEO
Fondateur de Gephi
Phd en Informatique et
Systèmes Complexes
CMO
>5 ans dans le conseil
Sciences-Po et Intelligence
Economique
HELLO WORLD
Linkurious est une startup fondée en 2013
Jean Seb Romain
CTO
Ingénieur (Microsoft, Spotify)
Machine Learning (Georgia
Tech)
3. QU’EST CE QU’UN GRAPHE?
Father Of
Father Of
Siblings
Ceci est un graphe
4. QU’EST CE QU’UN GRAPHE : NOEUDS ET RELATIONS
Un graphe est un ensemble de noeuds liés par
des relations
Father Of
Father Of
Siblings
Ceci est un noeud
Ceci est une
relation
5. Antennes, serveurs,
téléphones, clients
Dépanner plus rapidement
des réseaux
Noms, adresses, téléphones,
transactions
Identifier des transactions et
individus suspects
Fournisseurs, routes,
entrepôts, produits
Diminuer le temps et coût de
transport
Quelques domaines dans lesquels nos clients
utilisent les graphes
CAS D’UTILISATION
Logistique Sécurité Telco
6. La compagnie d’assurance
analyse les déclaration et
indemnise ses clients. Les
fraudeurs n’ont qu’à toucher
l’argent !
Sur la base du scénario, les
fraudeurs remplissent leurs
déclarations d’assurance
(blessures et dégâts
matériels).
Quelques fraudeurs se
réunissent. Ils définissent un
scénario d’accident et le
réalise.
Organiser de faux accidents pour recevoir de
vraies indemnités
COMMENT FONCTIONNE LA FRAUDE A L’ASSURANCE AUTOMOBILE
Organiser un
faux accident
Encaisser de l’
argent
Faire appel à
son assureur
7. $80 milliards par an de coûts liées à la fraude
pour les compagnies d'assurances
$144 de coût supplémentaire par conducteur au
RU
LE COUT DE LA FRAUDE
Source : http://www.insurancefraud.org/80-billion.htm#.U4iTFxV9SuY
8. Mais pourquoi est-il si difficile de détécter les
fraudeurs?
POURQUOI EST IL DIFFICILE D’IDENTIFIER LES FRAUDEURS
9. Les criminels demandent des sommes
modestes, coordonnent leurs déclarations et ont
des “blessures” impossibles à vérifier
PROBLEME 1 : LES CRIMINELS SAVENT ETRE DISCRETS
10. PROBLEME 2 : DIFFICILE DE VOIR UNE ANOMALIE DANS UN GRAND VOLUME DE DONNEES
D’un accident à l’autre, le véhicule, les
personnes, and leurs rôles changent : difficile de
voir un schéma émerger
12. Un accident unique n’a pas l’air suspect
UN MODELE DE DONNEES POUR UN ACCIDENT UNIQUE
IS_LAWYER
IS_DOCTOR
Udo
(Person)
Monroe
(Person)
Robrectch
(Person)
Skyler
(Person)
Euanthe
(Person)
Jasmine
(Person)
Chelle
(Person)
Sousanna
(Person)
Focus
(Car)
Corolla
(Car)
Accident 1
(Accident)
IS_INVOLVEDIS_INVOLVE
D
PASSENGER
DRIVER
DRIVER PASSENGER PASSENGER
PASSENGER
13. 3 accidents séparés (en haut) implique 8 personnes différents (en bas) qui sont
connectées entres elles : suspect?
En regardant les déclarations sous forme de
graphes, on voit les groupes de fraudeurs
A QUOI RESSEMBLE UN GROUPE DE FRAUDEURS
14. En tant qu’analyste fraude, nous utiliserons Neo4j pour analyser les déclarations
d’assurance et voir si nous pouvons identifier quelque chose de suspect
COMMENT DEMASQUER UN GROUPE DE FRAUDEURS : POINT DE DEPART
L’enquête commence par un accident...
15. 1. Est-ce que les personnes impliquées dans l’
accident sont aussi dans d’autres accidents?
2. S’ils le sont, avec qui sont-ils impliqués? Ces
personnes sont-elles connectées à d’autres
accidents?
3. Est-il possible de détecter la fraude
automatiquement?
COMMENT DEMASQUER UN GROUPE DE FRAUDEURS : QUESTIONS
16. QUESTION 1 : EST CE QUE LES PERSONNES IMPLIQUES DANS L’ACCIDENT SONT DANS D’AUTRES ACCIDENTS
MATCH (accident)<-[]-(cars)<-[]-people-[]->(othercars)-[]->(otheraccidents:Accident)
WHERE accident.location = 'New Jersey'
RETURN DISTINCT otheraccidents.location as location, otheraccidents.date as date
Une simple requête Cypher pour Neo4j
17. location date
Florida 23/05/2014
Florida 27/05/2014
QUESTION 1 : EST CE QUE LES PERSONNES IMPLIQUES DANS L’ACCIDENT SONT DANS D’AUTRES ACCIDENTS
Nos suspects sont impliqués dans 2 autres
accidents
18. Avec un simple “*” on élargit la recherche à tout
le graphe
QUESTION 2 : AVEC QUI SONT-ILS IMPLIQUES
MATCH (accident)<-[*]-(potentialfraudtser:Person)
WHERE accident.location = 'New Jersey'
RETURN DISTINCT potentialfraudtser.first_name as first_name, potentialfraudtser.
last_name as last_name
19. first_name last_name
Udo Halstein
Robrecht Miloslav
Monroe Maksymilian
Skyler Gavril
Euanthe Rossana
Jasmine Rhea
Sousanna Pinar
Chelle Jessie
QUESTION 2 : AVEC QUI SONT-ILS IMPLIQUES
On a 8 personnes impliquées dans 3 accidents
21. Rechercher en temps réel des “victimes”
suspectes
QUESTION 3 : EST IL POSSIBLE DE DETECTER LA FRAUDE
MATCH (person1:Person)-[*..2]->(accident1:Accident)<-[*..2]-(person2:Person)-[*..2]->
(accident2:Accident)<-[*..2]-(person3:Person)-[*..2]->(accident3:Accident)
RETURN DISTINCT person1, person2, person3
22. Une requête Neo4j est
utilisée pour vérifier un
pattern de fraude
Identifier des comportements suspects à grande
échelle
QUESTION 3 : EST IL POSSIBLE DE DETECTER LA FRAUDE
Nouveau client
Nouvelle voiture
enregistrée
Nouvel accident
On identifie les
fraudeurs éventuels
Un événement
déclenche une
vérification
23. Les équipes de fraude sont
plus rapides et les pertes
peuvent être limitées.
Linkurious aide les équipes
de fraude à étudier les
données et enquêter sur les
cas suspects.
Linkurious aide à verifier les
alertes pour s’assurer que les
vrais clients ne sont pas
traités comme des criminels.
Enquêter sur
les cas sérieux
Traiter les faux
positifs
En cas d’alerte, un analyste peut utiliser
Linkurious pour rapidement évaluer la situation
CE QU’APPORTE LINKURIOUS
Economiser de l’
argent
28. Presentation on fraud and whiplash for cash by Philip Rathle and Gorka Sadowski (the
inspiration for this presentation) : https://vimeo.com/91743128
Article on whiplash for cash :
- the article : http://linkurio.us/whiplash-for-cash-using-graphs-for-fraud-detection/
- the dataset : https://www.dropbox.com/s/6ipfn4paaggughv/Whiplash%20for%20cash.zip
GraphGist on whiplash for cash :
- the article : http://gist.neo4j.org/?6bae1e799484267e3c60
Whitepaper on fraud detection by Philip Rathle and Gorka Sadowski :
- the whitepaper : http://www.neotechnology.com/fraud-detection/
SOME ADDITIONAL RESOURCES TO CONSIDER