Una presentazione tecnica dedicata al real time marketing e alle sfide che offre in termini di gestione e indicizzazione, con il caso pratico dello strumento Blogmeter Now dedicato a Twitter.
Slides raccontate da Vittorio Di Tomaso a Codemotion Milano (novembre 2014).
2. Chi siamo
Leader in Italia nella social media intelligence
500+
progetti realizzati
100+
clienti
3
sedi: Milano,
Roma e Torino
Tecnologie d’avanguardia per la social intelligence
4 miliardi
post e interazioni
social misurate l’anno
20 mila
topic di classificazione
configurati
7 mila
profili aziendali social
analizzati giornalmente
15 mila
entrate lessicali x
sentiment automatico
Blogmeter 2014 | www.blogmeter.it 2
3. Misura l’impatto delle
trasmissioni televisive
su Facebook e Twitter
ACADEMY
Formazione direzionale relativa
Gestisci il tuo social
customer care e crm
all’introduzione dei social in azienda,
best practice da seguire, fino alla
strutturazione di
un’attività di monitoraggio
3
Offerta
Blogmeter Social Toolbox per l’analisi e la gestione dei social media
Analizza la tua
reputazione
sui social media
Analizza le performance
dei profili aziendali su
Analisi dati e formazione
Facebook e Twitter.
ANALISI & REPORTING
Servizio di analisi e reportistica quali-quantitativa
sulla reputazione online
e/o di tracking dell’efficacia delle
campagne di marketing
INFOGRAFICHE
Una sintesi grafica delle attività social
relative a una trasmissione tv o
iniziativa di marketing
Blogmeter 2014 | www.blogmeter.it 3
4. Agenda
COSA FACCIAMO PERCHE’ LO FACCIAMO COME LO FACCIAMO
Blogmeter 2014 | www.blogmeter.it 4
6. Cosa facciamo
Analizziamo in real time conversazioni e
interazioni sui media sociali
Ingestion
Content
Analysis
Sentiment
Analysis
Indexing Delivery
Blogmeter 2014 | www.blogmeter.it 6
7. Data Acquisition
Circa 25k “item” al minuto (post e interazioni) da tutte le
fonti sociali, acquisiti 24x7 utilizzando scraper specifici,
API pubbliche e servizi commerciali
Ingestion
Content
Analysis
Sentiment
Analysis
Indexing Delivery
Blogmeter 2014 | www.blogmeter.it 7
8. Data Analysis
Analisi semantica (Ontology Based Natural Language
Processing) per la classificazione dei documenti in
topic di interesse e per la sentiment analysis
[4k/minuto circa contengono testo]
Ingestion
Content
Analysis
Sentiment
Analysis
Indexing Delivery
Blogmeter 2014 | www.blogmeter.it 8
9. Indicizzazione
Utilizzo congiunto di tecnologie relazionali
(PostreSQL) e non relazionali (Redis, Lucene) per lo
storage e l’indicizzazione dei documenti
Ingestion
Content
Analysis
Sentiment
Analysis
Indexing Delivery
Blogmeter 2014 | www.blogmeter.it 9
10. Delivery
Applicazioni di analisi dei dati, di discovery e di alerting
Ingestion
Content
Analysis
Sentiment
Analysis
Indexing Delivery
Blogmeter 2014 | www.blogmeter.it 10
12. Cos’è il Real Time Marketing?
«Il Real Time Marketing è un approccio al mercato
che fa leva sulla capacità aziendale di rispondere
tempestivamente ad eventi e stimoli esterni, siano
essi prevedibili o meno»
Blogmeter 2014 | www.blogmeter.it 12
13. Cos’è il Real Time Marketing?
Blogmeter 2014 | www.blogmeter.it 13
17. Planned – Reactive (4/4): Predictive Analytics
Software per prevedere un bisogno del consumatore, sulla base dell’analisi di dati relativi
ai suoi comportamenti o a quelli di categorie similari di persone.
Blogmeter 2014 | www.blogmeter.it 17
21. Come prepararsi al
Real Time Marketing
Blogmeter 2014 | www.blogmeter.it 21
22. Il flusso: organizzazione e tool
Obiettivi e
KPI RTM
Preparare
contenuti
Definire i
ruoli
Tool
Definire i
processi
Tool
Tool
Prevedere il
peggio
Live
Testare il
Tool
Blogmeter 2014 | www.blogmeter.it 22
23. BlogmeterNow abilita il monitoraggio costante e in tempo reale delle conversazioni online presenti su
Twitter al fine di scoprire nuovi contenuti rilevanti, utili sia ai fini di protezione aziendale che per attività
di real time marketing e communication.
Conversation
Trend with
sentiment
Conversation
Blogmeter 2014 | www.blogmeter.it 23
KPIs
Most
Engaging
Tweets with
sentiment &
emotions
Most
Mentioned
Hashtag
Most
mentioned
Accounts
All tweets
Blogmeter Now
25. Come lo facciamo (1)
1
Ingest
Normalization
Unique Indentifier
3
Index
Full Text Indexing
Semantic
Annotation
Indexing
Metadata
Extraction
2
Enrich
Semantic
Annotation
Sentiment
Analysis
Language Detection
User & Location
Ontology Based Natural
Language Processing
Components
Named Entities
Topics
Polarity
Emotions
Blogmeter 2014 | www.blogmeter.it 25
26. Come lo facciamo (2)
User Services
Business Layer
Processing Layer
Data Storage
Scheduling
& Config
Security
Kestrel
• 300 core
• 1.2T RAM
• 29T Disk
Physical
Layer
Blogmeter 2014 | www.blogmeter.it 26
27. Architettura semantica
Processing layer
Analysis pipeline
Primary
index
Risorse
linguistiche
Metadata
extractor
Dipendono dalla
Blogmeter 2014 | www.blogmeter.it 27
• Item
full text
analyzer
• Item
• Metadata
Linguist
analyzer
Semantic
Analyzer
Primary
index
• Item
• Metadata
• Token
• Item
• Metadata
• Token
• El. linguistici
• Item
• Metadata
• Token
• El. Linguistici
• Sentiment
(opinioni)
• Classificazione
• Vocabolario Morfologico
• Gazetteer ( liste di nomi,
persone, sigle, etc…)
Configurazione del
dominio di conoscenza
(regole semantiche )
Regole di identificazione
e isolamento dei token
lingua
Dipendono dalla lingua e
dal dominio applicativo
Regole di estrazione
dei metadati
( dipendenti dalla struttura dei
dati in analisi)
Possibili
configurazioni
Full text search
Intelligent search
Semantic search Metriche
Staging
area
29. Cosa stiamo imparando
Da una architettura di ingestion, analisi e
delivery che aggiorna i dati nel corso delle 6/12
ore successive a una architettura di ingestion,
analisi e delivery real time
Blogmeter 2014 | www.blogmeter.it 29
30. Impatti
La modifica architetturale non è stata indolore.
Analizzare linguaggio naturale è
computazionalmente complesso, farlo in real
time lo è ancora di più
Blogmeter 2014 | www.blogmeter.it 30
31. Perché complesso
1. Analisi diverse su ontologie di classificazione
diverse
2. Non possiamo prevedere come un item dovrà
essere classificato e con quale set di componenti
linguistici (lessici, regole di sentiment, ontologie)
3. Lavoriamo su uno stream real time che non si
ferma ad aspettarci…
Blogmeter 2014 | www.blogmeter.it 31
32. Obiettivi
1. Evitare di fare due volte lo stesso lavoro (gli
stream contengono molti item duplicati, non
possiamo analizzarli più volte)
2. Evitare di applicare processori
computazionalmente complessi quando non
sono richiesti
Blogmeter 2014 | www.blogmeter.it 32
33. Soluzione: eliminare duplicati in maniera efficiente
Abbiamo dedicato particolare attenzione a
definire un approccio per limitare la quantità di
duplicati e per garantire una identificabilità
univoca di tutti i documenti
Blogmeter 2014 | www.blogmeter.it 33
34. Soluzione: eliminare duplicati in maniera efficiente
Stream
(API)
Stream
(Provider)
Search
Dupicate
Detector -
Unique ID
Dupicate
Detector -
Unique ID
Analysis
Analysis
Storage
Blogmeter 2014 | www.blogmeter.it 34
35. Soluzione: routing intelligente dei documenti
Semantic routing su un’architettura in cui il flusso
delle informazioni tra i processori può essere descritto
come un grafo aciclico direzionato
Blogmeter 2014 | www.blogmeter.it 35
36. Data Processing Network (esempio)
Attivazione intelligente dei
processori: si adatta
all’informazione disponibile
azzerando il lavoro inutile
NLP
telco_it
NLP
auto_it
data stream lang lang reco
domain
classifier
author
gender
reco
loc reco
topic
reco
NE Reco
lang
NLP
mood IT
NLP
mood
EN
NLP
mood es
domain
NLP
fashion_en
persister
Blogmeter 2014 | www.blogmeter.it 36
37. Vantaggi e risultati raggiunti
Il lavoro su documenti duplicati è ridotto a 0, con conseguente
risparmio di cicli di CPU e di spazio sullo storage
La pipeline di analisi semantica si autoconfigura attivando il
flusso giusto per classificare correttamente il documento a
seconda dell’obiettivo
Il troughput è molto elevato e ci consente di catturare i picchi
prevedibili (e anche molti non prevedibili)
La scabilità orizzontale è garantita da un meccanismo che
consente di deployare in maniera “semplice” nuovi nodi di
analisi
Blogmeter 2014 | www.blogmeter.it 37
39. Virus – Rai 2
VIRUS il contagio delle idee
Seconda edizione del talk show politico di RAI 2
condotto da Nicola Porro.
Blogmeter Now
Durante la trasmissione Blogmeter Now rileva in
tempo reale le conversazioni su Twitter relative
alla trasmissione. In particolare:
• i temi del dibattito
• gli ospiti
• i tweet più virali
• l‘uso degli hashtag lanciati a inizio trasmissione per
schierarsi con uno degli ospiti (es:
#haragionedemagistris #haragionesallusti)
Social Listening
Durante la settimana aiutiamo gli autori di VIRUS
a comprendere le opinioni della rete sui temi della
puntata:
• volume delle conversazioni
• sentiment sui politici
• viralità dei messaggi
Blogmeter 2014 | www.blogmeter.it 39
40. Italia MTV Awards
Italian MTV Awards 2014
L’evento live più importante di MTV Italia con la
premiazione dei migliori artisti dell’anno
Blogmeter Now
Durante la trasmissione Blogmeter Now è
servito a:
• Real Time Polling per individuare l’artista
più votato dal pubblico su Twitter (due
categorie: Best Live Performance e Best
Dance Crew) con un effetto diretto sullo
show: dopo un minuto dalla votazione i
vincitori sono stati premiati sul palco
• Monitoraggio in real time dei tweet dedicati
all’evento per capire i momenti più caldi
• Raccolta di tutte informazioni necessarie a
creare un’infografica utile per la successiva
comunicazione esterna
Blogmeter 2014 | www.blogmeter.it 40
41. TIM Stadium
TIM Stadium
E’ il portale di TIM per vivere le partite della
Serie A con il supporto di dati numerici.
Si tratta di dati che provengono sia dai
campi di gioco (tiri, gol, tattica, ecc…) che
dal web: questi ultimi sono forniti da
Blogmeter Now.
Blogmeter Now
Tutti i flussi di tweet relativi alle partite di
calcio sono elaborati da Blogmeter Now. La
delivery verso la piattaforma TIM Strudium è
attraverso API. TIM Stadium che rende
disponibili nella sua interfaccia:
• i volumi di tweet
• il sentiment (positivo/negativo) dei tweet
• il flusso dei tweet
• i tweet più retwittati
• gli hashtag più usati
• i profili Twitter più citati
Blogmeter 2014 | www.blogmeter.it 41
42. ProActive
PROtezione del territorio con infrAttrutture ICT avanzate, cittadinanza attiVa, e rEti sociali
PROPONENTI
• WebRatio - MPMI (coord)
• Polimi - OdR
• Cefriel - OdR
• Vodafone - GI
• Gulliver MPMI
• Blogmeter - MPMI
• Pipetech - MPMI
• LSI-Lastem- MPMI
• MM - Utilities
• TEA - Utilities
PA COINVOLTE
• ARPA Lombardia
• Protezione Civile
• Comune di Bergamo, Milano, Como e Mantova (pending)
Obiettivo: Comprendere in real-time come si
muovono i cittadini nel territorio e ad individuare
attraverso l'analisi dei contenuti che arrivano
dalle rete sociali eventuali problemi
Bando Smart Cities;
Programma Operativo Regionale (POR) per la Competitività;
Fondo europeo di sviluppo regionale (FESR).
AMBITO
a. Sostenibilità ambientale
Blogmeter 2014 | www.blogmeter.it 42
SETTORI
a.1 sicurezza del territorio
a.2 mobilità urbana
a.4 gestione risorse idriche
SPESE AMMISSIBILI
RI & SS 5.000.000,00 euro
CONTRIBUTO BANDO SC
RI & SS 2.000.000,00 euro
44. Eventi su twitter
Abbiamo dati con sufficiente
ampiezza e profondità
storica
Siamo in grado di studiare la
forma delle curve di
conversazioni che possono
nascere in relazione ad un
certo evento
http://blog.wolframalpha.com/2013/06/10/using-formulas-for-everything-from-a-complex-analysis-
class-to-political-cartoons-to-music-album-covers/
Blogmeter 2014 | www.blogmeter.it 44
45. Che cosa ci dicono i dati?
1. A parità di volume, le serie temporali di post
possono avere forme molto diverse, suggerendo
atteggiamenti profondamente differenti da parte
degli utenti Twitter.
2. Diversamente dal semplice conteggio dei volumi,
l’analisi della forma ci fornisce delle misure più
significative del fenomeno.
3. Oltre a essere un’analisi interessante, ci fornisce
gli strumenti per il nostro capacity planning
Blogmeter 2014 | www.blogmeter.it 45
46. Alluvione di Genova, andamento tweet
9 ottobre
Post totali: 807k
Post negativi: 140k
Comportamento: picchi
10 ottobre
Post totali: 863k
Post negativi: 147k
Comportamento: piatto
15 novembre
Post totali: 751k
Post negativi: 116k
Comportamento: piatto
16 novembre
Post totali: 738k
Post negativi: 128k
Comportamento: picchi
Blogmeter 2014 | www.blogmeter.it 46
47. Diverse trasmissioni di intrattenimento
22 novembre:
Lazio – Juventus (#)
23 novembre:
Milan – Inter (#)
23 ottobre:
X Factor (#)
22 novembre:
Che Tempo Che Fa (#)
Blogmeter 2014 | www.blogmeter.it 47
48. Recap: una tassonomia delle curve di reazione
Serie di Tweet
Uniformi Picchi
Notizie/aggiornamenti Intrattentimento/episodi
Maggiore
coinvolgimento iniziale
Coinvolgimento
continuativo
Blogmeter 2014 | www.blogmeter.it 48
49. Dal 2007 Blogmeter ha supportato 100+ aziende e agenzie nell'ascolto del web
e nell'analisi delle performance sui social media, realizzando più di 500
+39 0249526400
marketing@blogmeter.it
www.blogmeter.it
Milano | Roma | Torino
Grazie per
l’attenzione!
progetti.
Contattaci per una
demo di Blogmeter Now
@Blogmeter facebook.com/Blogmeter Consulta le nostre ricerche Guarda le nostre infografiche
Blogmeter 2014 | www.blogmeter.it 49
Editor's Notes
Redis: cache per identifcare duplicari e generatore di ID univoci.
- veloce (sta in memoria)
- resiliente (salva su disco)
X-factor: prima puntata live
Che tempo fa:
primo picco: Marco Mengoni (con problemi di audio)
secondo picco: gramellini parla dei pediatri che hanno costretto a usare latte artificiale
terzo picco: dopo la trasmissione colegato allo speciale su Samatha Cristoforetti (lanciato in trasmissione)
Lazio – Juventus (0-3)
scontri prima dell’inizio
i gol: 24 pt, 10ST, 19ST, + espulsione e ammonizioni varie nella parte finale
Milan Inter (1-1)
gol milan: 23PT
gol inter: 16ST