Spunti per capire come usare dati strutturati e dati non strutturati nel lavoro del Data Journalist, attraverso Dandelion API - https://dandelion.eu - e Atoka - https://atoka.io.
Lezione tenuta al corso "Media digitali e Data Journalism", il 19/11/2015 -http://www.coris.uniroma1.it/node/9152.
Daniele Lunassi, CEO & Head of Design @Eye Studios – “Creare prodotti e servi...
Dandelion API e Atoka: due strumenti utili al Data Journalism
1. Usare al meglio strumenti
come Dandelion API e
Atoka
per estrarre informazioni utili al proprio lavoro
Matteo Brunati - Community Manager SpazioDati - @dagoneye
Corso “Media digitali e Data Journalism” 19 novembre 2015
9. Ed invece no: siamo tutti nella stessa barca.
Il Web crea innovazione distruttiva in tutti gli ambiti,
e serve una nuova disciplina per capirne le dinamiche
Web Science
http://en.wikipedia.org/wiki/Web_Science_Trust
19. Il Web in un paper nel 1989, ed
aveva già molto oltre semplici link
ai documenti
20. Il web come spazio di
condivisione delle
informazioni, che PERMANE, e
decentralizzato
a chi devo chiedere di
inserire un link?
avevo l’email e gli
allegati: cosa mi offre in
più?
26. [paragrafo] Paperino è a casa a Milano. [fine paragrafo]
questo testo è all’interno di un documento,
nel mio disco fisso.
se lo pubblico online, avrà una forma
ed un indirizzo per essere trovato
URI
HTML
27. Il problema è che la “macchina” capisce che ad un certo
indirizzo c'è un contenuto in HTML, ma non
comprende di cosa parla quel contenuto,
è cieca
32. Linked Data è una delle sintesi migliori del
vecchio nome “Semantic Web”
Linked Data è già OGGI una delle fonti,
ed è quella più complessa, perché
pensata per le macchine
39. Così un po' abbiamo digerito
l'idea del Semantic Web: rendere
la macchina capace di tracciare LINK
e RELAZIONI con il contenuto,
andando oltre alla pagina come
elemento atomico del contenuto...
41. …relazioni che creano percorsi pensati
per essere visti dalle macchine:
ovviamente come non pensare
alla SEO? :)
42. SEO = Search Engine Optimization,
ovvero come farsi trovare
dai motori di ricerca:
che sono di nuovo “macchine”
:)
43. e questo Web di Dati oggi è già dentro
le pagine tradizionali, in forme ibride...
per farti trovare quel contenuto che...
Facebook
OpenGraph
Google Rich Snippets
via Google Knowledge
Graph
Open Data
( Community e
gov )
Google Cards
sulle SERP
44. Ci sono alcuni determinati formati nelle pagine,
tutti col nome “dati strutturati”
http://webdatacommons.org/structureddata/
index.html#results-2013-1
45. BestBuy con i dati strutturati nella pagina
http://www.stateofdigital.com/semantic-web-business-models-marketing-perspective/
46. per provare a vedere
questi strati di
informazione strutturata
https://developers.google.com/structured-data/testing-tool/
Google structured data
testing tool
47. ma io “giornalista”, con questi Linked Data,
perchè devo averci a che fare?
stimolare i programmatori
ed i tecnici a darmi una
mano, consapevole che
esistono quei dati e
quelle fonti
chiedere lumi a chi li ha
pubblicati, come con quelli
Open Data
+ semplici: stimolare
feedback e miglioramento
continuo
54. “What I do is text analysis, which covers the
aggregation of texts, machine learning, natural
language processing, applied to text files to
understand the context.
There is a specific set of skills for data journalists
to learn, as it is more and more becoming
common place to find information in text files,
ranging from material published by governments
to corporations.
And if you can learn those skills you can start to
find meaningful patterns in these documents.”
http://blogs.dw.de/innovation/data-science-the-software-that-is-out-there-is-getting-easier-to-use/
55. ed ora proviamo a capire come funziona
il text mining con uno strumento
che ci dirà “qualcosa” su un testo...
65. Text analytics su GDrive usando Dandelion API
Demo RASFF - http://bit.ly/RASFF_data
Web
di dati
Contenuto
non strutturato
https://dandelion.eu/semantic-text/entity-extraction-demo/
https://developers.google.com/structured-data/testing-tool/
https://developers.facebook.com/tools/debug/og/object/
Ovvero confrontare le testate dei giornali nel modo in cui
fanno parte del Web dei dati / non strutturato
66. Alcuni link veloci condivisi in un pirate pad
http://
piratepad.net/
K3WHEAqwlJ