3. Dades de recerca
Les dades de recerca estan
començant a reconèixer com una
font de coneixement propia i
independent de les publicacions
que poden ser usades en la validació
dels resultats d’investigació publicats
en articles, per generar nou
coneixent i per ser explotats de
manera interdisciplinar.
Font: http://www.cesca.cat/sites/default/files/docs/informe_de_datos__cientificos_en_espana.pdf
4. 4
Open Acces i Research Data
4
Font: Consulta a Google Trends (24-04-13)
5. 5
Big Data is a collection of data sets so large and complex that it
becomes dificult to process using on-hand database management
tools or traditional data processing applications (wikipedia)
Velocitat
• Sistemes de distribució de processos
• (MapReduce, Hadoop, Solr...)
Volum
• Sistemes de fitxers distribuits
• (cabines de discs...)
Varietat
• BBDD no relacionals
Exemples
• 340 M de tuits/dia
• 1.000 M de consultes/dia a Google
• Large Hadron Collider (LHC)
• European Bioinformatics Institute
Big data
5
Font: http://assets.outliers.es/bdw13/bigdata/BDW_BigData.pdf
6. 6
Research data
80.000 estructures en 3D de molècules
69 persones
Aprox. 150 GB
6
Font: http://www.slideshare.net/gigaom/the-3vs-of-big-data-variety-velocity-and-volume-from-structuredata-2012
Worldwide Protein Data Bank Archive
Patrimoni Digital de Catalunya
300K captures de 60K webs
380M fitxers en aprox. 20 TB
www.padicat.cat
7. 7
Requisits (Strategy for a European Data Infrastructure):
• Accés a les dades (cicle de vida, seguretat, data curation) i capacitat de
càlcul (data mining, data processing...)
• Preservació de les dades a llarg termini (mecanismes autenticitat,
qualitat...)
• Distribució de les dades (x preservació i optimització accés)
• Compatició (data share, data citation)
HW: Sistemes d’emmagatzematge, Sistemes de distribució de processos,
balancejadors de càrrega, ample de banda, redundància...
SW: DSpace (Dryad...), Invenio (Eudat Simple Store), Dataverse (Juan
March...), altres...
Arquitectura
7
Difusió Gestió Preservació
Font: http://www.csc.fi/english/pages/parade/whitepaper
8. 8
Sostenibilitat
Costos elevats tant d’adquisició com de manteniment de les
infraestructures (1 ordre de magnitud més que les de publicacions)
El cost del disc cada vegada és més barat, i el de la preservació?
(sempre incremental, diverses còpies, migracions de formats i de
suports, etc...) Necessitat de finançament a llarg termini, doncs les
dades són acumulatives i es preserven més enllà dels cicles
tecnològics
En les propostes de finançament de projectes, s’hauria
de detallar un pla de gestió de les dades incloent la
seva viabilitat econòmica
Selecció de dades (curation) i economies d’escala
(compartició de costos + augment sinergies entre investigadors i disciplines)
8
Font: http://www.jisc.ac.uk/media/documents/publications/keepingresearchdatasafe0408.pdf
9. 9
Ecosistema de les dades de recerca
9
Font: http://www.leru.org/files/general/Boulton%20LERU%20presentation.pdf