SlideShare a Scribd company logo
1 of 26
DBSCAN multiview:
implementation and
analysis
GINO FARISANO
DBSCAN single view: concetti di base
Idea di base:
◦ I cluster sono regioni ad alta densità
◦ I cluster sono separati da regioni a bassa densità
Perché clustering basato su densità?
◦ Algoritmo k-means e varianti inadeguati con clusters strutturati diversamente
DBSCAN single view: concetti di base [2]
Idea
◦ Ogni punto in un cluster è caratterizzato da una densità locale
◦ L’insieme dei punti in un cluster è connesso spazialmente
Densità locale
◦ Intorno 
◦ MinPoints
◦ Numero minimo di punti richiesti in N(x)
Un oggetto q è un core-object se, dati  e MinPts,
   ),(|)( yxdistDyxN
MinPtsN q )(
MinPts=5
DBSCAN single view: concetti di base [2]
p è raggiungibile da q
se
◦ q è un core-object
◦ p N(q)
Chiusura transitiva p connesso a q se
◦ Esiste o
◦ p e q sono raggiungibili da o
DBSCAN single view: concetti di base [3]
Clustering
◦ Partizione di D = [S1;…,Sn;N]
◦ S1;…,Sn clusters
◦ N outliers
Core
Bordo
Outlier
 = 1cm
MinPts = 5
DBSCAN single view: concetti di base [4]
◦ Ogni oggetto in un cluster S è raggiungibile da un qualsiasi core-object
◦ Gli outliers non sono raggiungibili dai core-objects
◦ Passo 4: gli y raccolti tramite una serie di queries di neighborhood
1.FOR EACH xD
2. IF x non appartiene a nessun cluster
3. IF x è un core-object
4. Sx = {y| y raggiungibile da x}
ELSE
5. N = N {x}
DBSCAN multiview
Motivazioni
◦ Più viste dello stesso oggetto
◦ Restringere l’analisi su una singola vista 
◦ Features spaces combinati sono difficile da costruire
Approccio [Clustering Multi-Represented Objects with Noise, Kailing et al]
◦ Utilizzare features spaces distinti per ogni vista
◦ Viste differenti possono utilizzare indici differenti
◦ Combinare i risultati delle diverse viste
◦ Unione
◦ Intersezione
DBSCAN multiview (“formalmente”)
Sia DB un database di n oggetti
◦ Ogni o ∈ DB ha m differenti viste, {R1(o), R2(o), ..., Rm(o)}
Per ogni vista esiste un local εi-neighborhood
◦ Viste differenti possono avere ε e funzioni distanza differenti
◦ MinPts è globale
DBSCAN multiview: unione
Utile per dati sparsi
◦ Molti cluster piccoli e tanto rumore
◦ In contesti single view rilassando ε “si risolve il problema”ma…BAD CLUSTERING!
Assegna gli oggetti allo stesso cluster se essi sono simili in almeno una vista
◦ È tutelata la separazione dei cluster ma si supera il problema sparsità
◦ Vincolo debole: area densa in almeno una vista
Union core object
◦ unire tutti i local εi-neighborhoods e verificare se ci sono abbastanza oggetti nel global
neighborhood (minPts globale)
DBSCAN multiview: intersezione
Utile per dati che contengono viste inaffidabili (cattive misurazioni)
Assegna gli oggetti allo stesso cluster se essi sono simili in tutte le vista
◦ Il clustering risultante è “puro” in tutte le viste
◦ Nessuna contaminazione da parte di altre viste (vedi unione)
Intersection core object
◦ Un oggetto deve essere un core object in tutte le viste
◦ ε locale, minPts globale
DBSCAN multiview: implementazione
Implementazione C++* (≈400 linee di codice implemetate)
◦ Interfaccia per implementare proprie funzioni distanza e similarità
◦ Import di matrici distanze o similarità (CSV file)
◦ Utilizzabile con un arbitrario numero di viste
◦ Unione e intersezione
◦ Veloce?: 70.644 test, 2 view 151^2 in circa 2 ore
Modifiche alla versione single viewhttp://codingplayground.blogspot.it/2009/11/dbscan-clustering-algorithm.html
https://github.com/ginofarisano/DBScanMultiview
Multiview versus singleview: datasets
Input
◦ Un dataset genomico di 151 soggetti con il cancro
◦ Due views: miRNA e miRNASeq
◦ 4 classi di pazienti note (Her2, Basal, LumA, LumB)
◦ Dati altamente correlati: media 0.84, sd 0.1
Purpose
◦ Identificare sottoclassi significative
◦ Più accurate strategie diagnostiche e terapeutiche
Multiview versus singleview: input
parameters
Funzione similarità utilizzata
◦ Correlazione di Pearson
Scelta dei parametri  e MinPts
◦ Singleview: dataGrid con 0.4 =<  <=0.98 (delta 0.01) e 4=<minPts<=25
◦ 1218 test
◦ Multiview: dataGrid con 0.4 =< 1, 2* <=0.98 (delta 0.01) e 4=<minPts<=25
◦ 70.644 test
Multiview versus singleview: result
analysis (post-processing)
Eliminazione dei cluster cattivi
◦ Vincoli imposti
◦ No cluster molto grandi (70%)
◦ No molto rumore (30%)
Multiview versus singleview: result
analysis (post-processing) [2]
Multiview versus singleview: result
analysis (post-processing) [3]
Multiview versus singleview: result
analysis (post-processing) [4]
Multiview versus singleview: result
analysis (post-processing) [4]
Multiview versus singleview: result
analysis (Angela’s and Gino’s index)
Metriche utilizzate
◦ Numero di cluster
◦ Correlazione intracluster
◦ Correlazione intercluster
◦ Rumore
Purpose
◦ Poco rumore
◦ tanti (>4) cluster
◦ compatti e poco correlati tra loro
Index=intra+(1-inter)+(#cluster/#cluster massimo osservazione)+(1-noise)
Multiview versus singleview: result
analysis (Angela’s and Gino’s index)
Union Versus Intersection
Più cluster per l’intersezione (unione: ottimi locali diventano ottimi globali)
• Il post-processing livella la qualità del clustering
Multiview versus singleview: result
analysis (Angela’s and Gino’s index)
Union Versus Intersection
MinPts bassi ottengono i risultati migliori (minPts alti->”poco supporto”->molto rumore)
Multiview versus singleview: result
analysis (Angela’s and Gino’s index)
BoxPlot Intersection
(minPts alti non sono sintetizzabili)
Multiview versus singleview: result
analysis (DB index)
Risultatati
◦ Andamento simile al nostro indice per eps e minPts
◦ Non esalta molto il numero di cluster come il nostro indice
◦ Variabile ma in genere migliore per cluster più grandi
Ulteriori considerazioni
◦ Sia per il nostro in indice che per DB risultati single view leggermente
migliori del multiview
Multiview versus singleview: result
analysis (Plot 3D)
LIVE VIEW
Matrice di confusione per DB index
Risultato migliore per l’unione (miRNASeq)
◦ È il medesimo del single view! -> ottimo locale diventa ottimo globale 
Conclusioni
Datasets non idonei per esaltare le qualità del DBScan multiview
Dati sparsi? NO
Cattive misurazioni? (NO?)
FINE

More Related Content

Featured

2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by HubspotMarius Sescu
 
Everything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTEverything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTExpeed Software
 
Product Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsProduct Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsPixeldarts
 
How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthThinkNow
 
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfmarketingartwork
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024Neil Kimberley
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)contently
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024Albert Qian
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsKurio // The Social Media Age(ncy)
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Search Engine Journal
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summarySpeakerHub
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next Tessa Mero
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentLily Ray
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best PracticesVit Horky
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project managementMindGenius
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...RachelPearson36
 

Featured (20)

2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot
 
Everything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTEverything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPT
 
Product Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsProduct Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage Engineerings
 
How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental Health
 
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
 
Skeleton Culture Code
Skeleton Culture CodeSkeleton Culture Code
Skeleton Culture Code
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
 
How to have difficult conversations
How to have difficult conversations How to have difficult conversations
How to have difficult conversations
 
Introduction to Data Science
Introduction to Data ScienceIntroduction to Data Science
Introduction to Data Science
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best Practices
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project management
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
 

Db scan multiview

  • 2. DBSCAN single view: concetti di base Idea di base: ◦ I cluster sono regioni ad alta densità ◦ I cluster sono separati da regioni a bassa densità Perché clustering basato su densità? ◦ Algoritmo k-means e varianti inadeguati con clusters strutturati diversamente
  • 3. DBSCAN single view: concetti di base [2] Idea ◦ Ogni punto in un cluster è caratterizzato da una densità locale ◦ L’insieme dei punti in un cluster è connesso spazialmente Densità locale ◦ Intorno  ◦ MinPoints ◦ Numero minimo di punti richiesti in N(x) Un oggetto q è un core-object se, dati  e MinPts,    ),(|)( yxdistDyxN MinPtsN q )( MinPts=5
  • 4. DBSCAN single view: concetti di base [2] p è raggiungibile da q se ◦ q è un core-object ◦ p N(q) Chiusura transitiva p connesso a q se ◦ Esiste o ◦ p e q sono raggiungibili da o
  • 5. DBSCAN single view: concetti di base [3] Clustering ◦ Partizione di D = [S1;…,Sn;N] ◦ S1;…,Sn clusters ◦ N outliers Core Bordo Outlier  = 1cm MinPts = 5
  • 6. DBSCAN single view: concetti di base [4] ◦ Ogni oggetto in un cluster S è raggiungibile da un qualsiasi core-object ◦ Gli outliers non sono raggiungibili dai core-objects ◦ Passo 4: gli y raccolti tramite una serie di queries di neighborhood 1.FOR EACH xD 2. IF x non appartiene a nessun cluster 3. IF x è un core-object 4. Sx = {y| y raggiungibile da x} ELSE 5. N = N {x}
  • 7. DBSCAN multiview Motivazioni ◦ Più viste dello stesso oggetto ◦ Restringere l’analisi su una singola vista  ◦ Features spaces combinati sono difficile da costruire Approccio [Clustering Multi-Represented Objects with Noise, Kailing et al] ◦ Utilizzare features spaces distinti per ogni vista ◦ Viste differenti possono utilizzare indici differenti ◦ Combinare i risultati delle diverse viste ◦ Unione ◦ Intersezione
  • 8. DBSCAN multiview (“formalmente”) Sia DB un database di n oggetti ◦ Ogni o ∈ DB ha m differenti viste, {R1(o), R2(o), ..., Rm(o)} Per ogni vista esiste un local εi-neighborhood ◦ Viste differenti possono avere ε e funzioni distanza differenti ◦ MinPts è globale
  • 9. DBSCAN multiview: unione Utile per dati sparsi ◦ Molti cluster piccoli e tanto rumore ◦ In contesti single view rilassando ε “si risolve il problema”ma…BAD CLUSTERING! Assegna gli oggetti allo stesso cluster se essi sono simili in almeno una vista ◦ È tutelata la separazione dei cluster ma si supera il problema sparsità ◦ Vincolo debole: area densa in almeno una vista Union core object ◦ unire tutti i local εi-neighborhoods e verificare se ci sono abbastanza oggetti nel global neighborhood (minPts globale)
  • 10. DBSCAN multiview: intersezione Utile per dati che contengono viste inaffidabili (cattive misurazioni) Assegna gli oggetti allo stesso cluster se essi sono simili in tutte le vista ◦ Il clustering risultante è “puro” in tutte le viste ◦ Nessuna contaminazione da parte di altre viste (vedi unione) Intersection core object ◦ Un oggetto deve essere un core object in tutte le viste ◦ ε locale, minPts globale
  • 11. DBSCAN multiview: implementazione Implementazione C++* (≈400 linee di codice implemetate) ◦ Interfaccia per implementare proprie funzioni distanza e similarità ◦ Import di matrici distanze o similarità (CSV file) ◦ Utilizzabile con un arbitrario numero di viste ◦ Unione e intersezione ◦ Veloce?: 70.644 test, 2 view 151^2 in circa 2 ore Modifiche alla versione single viewhttp://codingplayground.blogspot.it/2009/11/dbscan-clustering-algorithm.html https://github.com/ginofarisano/DBScanMultiview
  • 12. Multiview versus singleview: datasets Input ◦ Un dataset genomico di 151 soggetti con il cancro ◦ Due views: miRNA e miRNASeq ◦ 4 classi di pazienti note (Her2, Basal, LumA, LumB) ◦ Dati altamente correlati: media 0.84, sd 0.1 Purpose ◦ Identificare sottoclassi significative ◦ Più accurate strategie diagnostiche e terapeutiche
  • 13. Multiview versus singleview: input parameters Funzione similarità utilizzata ◦ Correlazione di Pearson Scelta dei parametri  e MinPts ◦ Singleview: dataGrid con 0.4 =<  <=0.98 (delta 0.01) e 4=<minPts<=25 ◦ 1218 test ◦ Multiview: dataGrid con 0.4 =< 1, 2* <=0.98 (delta 0.01) e 4=<minPts<=25 ◦ 70.644 test
  • 14. Multiview versus singleview: result analysis (post-processing) Eliminazione dei cluster cattivi ◦ Vincoli imposti ◦ No cluster molto grandi (70%) ◦ No molto rumore (30%)
  • 15. Multiview versus singleview: result analysis (post-processing) [2]
  • 16. Multiview versus singleview: result analysis (post-processing) [3]
  • 17. Multiview versus singleview: result analysis (post-processing) [4]
  • 18. Multiview versus singleview: result analysis (post-processing) [4]
  • 19. Multiview versus singleview: result analysis (Angela’s and Gino’s index) Metriche utilizzate ◦ Numero di cluster ◦ Correlazione intracluster ◦ Correlazione intercluster ◦ Rumore Purpose ◦ Poco rumore ◦ tanti (>4) cluster ◦ compatti e poco correlati tra loro Index=intra+(1-inter)+(#cluster/#cluster massimo osservazione)+(1-noise)
  • 20. Multiview versus singleview: result analysis (Angela’s and Gino’s index) Union Versus Intersection Più cluster per l’intersezione (unione: ottimi locali diventano ottimi globali) • Il post-processing livella la qualità del clustering
  • 21. Multiview versus singleview: result analysis (Angela’s and Gino’s index) Union Versus Intersection MinPts bassi ottengono i risultati migliori (minPts alti->”poco supporto”->molto rumore)
  • 22. Multiview versus singleview: result analysis (Angela’s and Gino’s index) BoxPlot Intersection (minPts alti non sono sintetizzabili)
  • 23. Multiview versus singleview: result analysis (DB index) Risultatati ◦ Andamento simile al nostro indice per eps e minPts ◦ Non esalta molto il numero di cluster come il nostro indice ◦ Variabile ma in genere migliore per cluster più grandi Ulteriori considerazioni ◦ Sia per il nostro in indice che per DB risultati single view leggermente migliori del multiview
  • 24. Multiview versus singleview: result analysis (Plot 3D) LIVE VIEW
  • 25. Matrice di confusione per DB index Risultato migliore per l’unione (miRNASeq) ◦ È il medesimo del single view! -> ottimo locale diventa ottimo globale 
  • 26. Conclusioni Datasets non idonei per esaltare le qualità del DBScan multiview Dati sparsi? NO Cattive misurazioni? (NO?) FINE