SlideShare une entreprise Scribd logo
1  sur  21
Télécharger pour lire hors ligne
Le « lac de données » de l'Ina, un projet
pour placer la donnée au cœur de l’organisation
Séminaire « Nouveaux paradigmes de l’Archive »,
15 décembre 2020
Gautier Poupeau
gpoupeau@ina.fr
@lespetitescases
http://www.lespetitescases.net
Constats généraux
En guise d’introduction ou de préambule…
Démultiplication des données
L’objet
Structure physique
Structure numérique
1ère question : Quel est ce livre ?
Métadonnées descriptives
3ème question : Quels sont les formats des fichiers ?
Métadonnées techniques
2ème question : Quels sont tous les fichiers qui résultent
de la numérisation ?
Structure numérique
4ème question : l’organisation maîtrise-t-elle
ces formats ?
Référentiel de formats
Formats
5ème question : Quand a eu lieu
la numérisation et quel est le nom
du scanner ?
Métadonnées de provenance
6ème question : A quelle page
correspond chaque fichier ?
Métadonnées de structure
7ème question : Qui, quand et comment un
usager a consulté ce livre ?
Données d’usage 8ème question : Que contient exactement ce livre ?
Contenu exploitable
Un exemple : les métadonnées d’un livre dans une collection de bibliothèques
9ème question : Comment valoriser ce
livre sur notre site Web et les réseaux
sociaux ?
Données éditoriales
10ème question : comment réagit-on
sur les réseaux sociaux ?
Données des utilisateurs
11ème question : que dit-on de ce
livre ou de son auteur dans les
autres collections ou
Wikipedia/Wikidata ?
Données interopérables
Du document à la donnée, un changement de granularité
En permettant le traitement informatisé du contenu lui-même, la numérisation a peu à peu provoqué une
modification dans l’appréhension des choses : du document à la donnée et a rendue poreuse la frontière entre
données et métadonnées.
La description
est numérique
Le document/support est
accessible via une notice
qui en décrit la globalité
Le document est numérisé
ou nativement numérique
Le moteur de recherche
permet d’accéder au
contenu du document
Le document est un ensemble
de données exploitables
Le document lui-même devient
une source de données, il n’existe
plus de dichotomie entre les
métadonnées et les données
La donnée, au centre de l’attention
En 15 ans, de par les évolutions technologiques, de par la montée en puissance du numérique, et avec elle
de la donnée, dans nos vies, de par la prise de conscience politique et citoyenne, la donnée est peu à peu
devenue le centre de toutes les attentions.
Traiter et stocker les
données en masse
Big data Data mining Linked data
Exploiter automatiquement
les contenus et les données
Open Data
Rendre accessible les
données
Permettre l’interopérabilité
des données
Les processus : la partie émergée de l’iceberg
• Besoins primaires : production, stockage et restitution
• Modélisation des processus-métiers
• Réponse directe aux besoins des utilisateurs
• Entraîne une multiplication des applications
• A chaque application, sa logique propre, son format de données, ses
propres mécanismes d’accès
Les données : la partie immergée de l’iceberg
• Les données du SI dépendent de la modélisation des processus
• Les données sont enfermées dans chaque application formant des silos de
données
• Absence de cohérence technique et sémantique entre les silos
• Le modèle physique de stockage des données peut être très éloigné du
modèle logique ce qui rend difficile la migration, la maintenance et la
compréhension du modèle
Et pourtant….
Dans la plupart de nos SI, les données restent enfermées, redondées dans des silos applicatifs pensés en
fonction de leurs usages et non de leurs logiques….
Alors que…
les attentes d’un SI documentaire évoluent pour répondre à tous les constats précédents…
Permettre l’accès à la collection
Assurer la maîtrise sur le long terme d’une
collection de plus en plus hétérogène et
de moins en moins physique
Permettre aux usagers de trouver la réponse à leur question et
plus simplement de trouver le document qui pourrait
éventuellement répondre à leur question
Replacer la collection elle-même et les données contenues dans les
documents de nos collections dans l’ensemble de l’écosystème des données
de l’organisation
Naviguer et rechercher au sein de collections de différentes
organisations composées de documents hétérogènes
Assurer la cohérence et la fluidité entre données et
métadonnées, entre le contenu et sa (ses) description(s)
Enrichir les (méta)données à partir de
données d’origines et de natures diverses
Permettre l’analyse et l’exploitation en masse des
documents eux-mêmes et des métadonnées
Comment répondre à ces constats?
Quelques propositions de solutions mises en place à l’Ina ces dernières années
Les constats à l’Ina
Des données
éparpillées et silotées
Un (des ?) SI à repenser pour accompagner les
transformations
Des nouvelles technologies
à intégrer
Globalement, nous dressons à partir de 2014 les mêmes constats au sein de l’Ina….
Conclusion : il est nécessaire de repenser globalement tout notre système d’information, mais plutôt que
conduire le projet uniquement en fonction des processus métiers, on décide de placer la donnée au cœur de
notre réflexion !
Les objectifs
Mette en cohérence les
différents ensembles de données
Assurer l’exploitation, la supervision et l’évolution
des systèmes de traitement et de stockage des données
Partager une connaissance des données et
déployer une gouvernance des données
Séparer techniquement et
logiquement les données des usages
Maîtriser les données et les placer au cœur du SI, de nos usages et de notre organisation
Ingénieurs, chefs de projet, professionnels de l’information, juristes, chercheurs, rédacteurs et journalistes
intègrent peu à peu la question de la donnée à leur pratique et à leur réflexion
Les acteurs de la transformation
Les « métiers » de la donnée
Data scientist
Architecte
de données
Ingénieur
de la donnée
Analyste de la donnée
Professionnels de l’information
Data ops/DBA
Les réalisations : un nouveau modèle conceptuel de données
La mise au point d’un nouveau modèle conceptuel de données co-construit avec les professionnels de la donnée
de la DSI et les professionnels de l’information de la Direction des collections pour décrire toutes les données
autour des collections.
Cartographie des grands ensembles de données de l’Ina
Schéma représentant le cœur du nouveau modèle de l’Ina
organisé autour de 3 entités principales :
le contenu, l’événement et le support
Les réalisations : une infrastructure technique
• Disposer des différentes familles de bases de données
pour répondre aux différents cas d’usage pour stocker
et interroger les données
• Penser un système global intégrant à la fois les
systèmes de stockage, de traitement, de
synchronisation et d’accès aux données
• Abstraire la complexité sous-jacente aux autres
applications et leur offrir une infrastructure sécurisée
et clé en main de stockage et de traitement de
données
L’infrastructure technique, le « lac de données » en lui-même, une architecture hybride qui assure la séparation
entre les données et les usages, stocke les différentes natures de données, centralise les traitements et répond
aux différents cas d’usage.
Les réalisations : une reprise de l’ensemble des données existantes
Le dépôt légal
Constituer le reflet du flux diffusé depuis 1995
Les archives professionnelles
Constituer une banque de programmes
depuis l’ORTF
Récupération, restructuration, fusion, nettoyage et mise en relation d’une vingtaine de bases de données
documentaires, matérielles, juridiques au sein d’une seule base de données suivant le modèle conceptuel.
Les réalisations : une reprise de l’ensemble des données existantes
Récupération, restructuration, fusion, nettoyage et mise en relation d’une vingtaine de bases de données
documentaires, matérielles, juridiques au sein d’une seule base de données suivant le modèle conceptuel.
Les réalisations : une reprise de l’ensemble des données existantes
Récupération, restructuration, fusion, nettoyage et mise en relation d’une vingtaine de bases de données
documentaires, matérielles, juridiques au sein d’une seule base de données suivant le modèle conceptuel.
Les données à la fin de l’année 2020
• Données pour le moteur de recherche d’ina.fr
• Données de Madelen issues de totem + les
enrichissements éditoriaux
• Données migrées depuis les bases actuelles pour
Notilus (jusqu’en 2017)
• Données pour le moteur de recherche
d’InaMediaPro issues de Totem
• Données du moteur de recherche Mediaclip issues
du Magento PAV
• Données de la transcription effectuée par Vocapia +
extractions d’entités nommées (personnes, lieux,
organisation)
• Données des sous-titres issues des bases DL +
extraction d’entités nommées
• Données migrées depuis les bases actuelles
documentaires et juridiques pour Notilus
• Données issues de Wikidata liées à nos bases
• Données de la transcription effectuée par Vocapia
pour des besoins de recherche + extractions d’entités
nommées
• Données issues des études menées par David
Doukhan sur l’analyse du temps de paroles des
hommes et des femmes
• Données liées aux droits d’exploitation des
contenus vidéos (contributions + droits
associés)
• Données pour le moteur de recherche du hub
issues des bases totem/OGP du lac et du CMS Hub
• Données de Madelen issues de totem + les
enrichissements éditoriaux
• Données migrées depuis les bases actuelles pour
Notilus (jusqu’en 2018)
• Données migrées en différentiel depuis Totem
• Données pour le moteur de recherche
d’InaMediaPro issues de Totem et de la Sonuma
• Données du moteur de recherche Mediaclip issues
du Magento PAV
• Données de la transcription effectuée par Vocapia +
extractions d’entités nommées (personnes, lieux,
organisation)
• Données des sous-titres issues des bases DL +
extraction d’entités nommées
• Données nécessaires pour l’analyse des journées de
programme des chaînes d’info en continu (classif
images, OCR, reconnaissance images, analyse de
visages)
• Données issues de l’analyse du son sur les chaînes de
l’Audiovisuel public
• Données migrées depuis les bases actuelles
documentaires et juridiques pour Notilus
• Données issues de Wikidata liées à nos bases
• Données d’usage (SVOD/Hub)
• Données de la transcription effectuée par Vocapia
pour des besoins de recherche + extractions d’entités
nommées
• Données issues des études menées par David
Doukhan sur l’analyse du temps de paroles des
hommes et des femmes
• Données liées aux droits d’exploitation des
contenus vidéos (contributions + droits
associés)
• Données sur les dossiers de production
Les données à la fin de l’année 2021
Les réalisations : déploiement du TDM
Mise au point et déploiement d’un ensemble d’outils de Text et data
mining pour répondre à des cas d’usages métiers et dont toutes les
données sont stockées et interrogeables dans le lac de données selon le
modèle conceptuel de l’Ina.
Transcription et extraction d’entités nommées
Analyse des visages
Analyse du son
Basée sur les travaux menés par
David Doukhan, chercheur à l’Ina
Segmentation automatique des journées de
programme des chaînes d’information en continu
Segmentation et analyse automatique
des journaux télévisés
En résumé : déployer une gouvernance des données à l’Ina
Mieux maîtriser les données pour
répondre aux usages actuels et futurs
avec un maximum de réactivité en
garantissant la qualité et la
disponibilité des données
CONTACT
4, avenue de l’Europe
94366 Bry-sur-Marne Cedex - France
établissement public à caractère industriel et commercial
RCS Créteil 302 421 193 B institut.ina.fr
Merci pour votre attention !
Gautier POUPEAU
gpoupeau@ina.fr
@lespetitescases

Contenu connexe

Tendances

Visite guidée au pays de la donnée - Introduction et tour d'horizon
Visite guidée au pays de la donnée - Introduction et tour d'horizonVisite guidée au pays de la donnée - Introduction et tour d'horizon
Visite guidée au pays de la donnée - Introduction et tour d'horizonGautier Poupeau
 
La Big Data et ses applications
La Big Data et ses applicationsLa Big Data et ses applications
La Big Data et ses applicationsAffinity Engine
 
Cours data warehouse
Cours data warehouseCours data warehouse
Cours data warehousekhlifi z
 
Chapitre1 introduction
Chapitre1 introductionChapitre1 introduction
Chapitre1 introductionMouna Torjmen
 
Projet BI - 2 - Conception base de données
Projet BI - 2 - Conception base de donnéesProjet BI - 2 - Conception base de données
Projet BI - 2 - Conception base de donnéesJean-Marc Dupont
 
Mini projet power bi
Mini projet power bi Mini projet power bi
Mini projet power bi AfnouchAhmed
 
DataWarehouse
DataWarehouseDataWarehouse
DataWarehousenzuguem
 
Projet décisionnel
Projet décisionnelProjet décisionnel
Projet décisionnelSiham JABRI
 
Metadonnees Introduction
Metadonnees IntroductionMetadonnees Introduction
Metadonnees Introductionjbcomte
 
Why Data Virtualization? An Introduction
Why Data Virtualization? An IntroductionWhy Data Virtualization? An Introduction
Why Data Virtualization? An IntroductionDenodo
 
Cours Big Data Chap1
Cours Big Data Chap1Cours Big Data Chap1
Cours Big Data Chap1Amal Abid
 
Chp1 - Introduction à l'Informatique Décisionnelle
Chp1 - Introduction à l'Informatique DécisionnelleChp1 - Introduction à l'Informatique Décisionnelle
Chp1 - Introduction à l'Informatique DécisionnelleLilia Sfaxi
 

Tendances (20)

Visite guidée au pays de la donnée - Introduction et tour d'horizon
Visite guidée au pays de la donnée - Introduction et tour d'horizonVisite guidée au pays de la donnée - Introduction et tour d'horizon
Visite guidée au pays de la donnée - Introduction et tour d'horizon
 
Resume de BI
Resume de BIResume de BI
Resume de BI
 
Partie3BI-DW-OLAP2019
Partie3BI-DW-OLAP2019Partie3BI-DW-OLAP2019
Partie3BI-DW-OLAP2019
 
La Big Data et ses applications
La Big Data et ses applicationsLa Big Data et ses applications
La Big Data et ses applications
 
Partie1BI-DW2019
Partie1BI-DW2019Partie1BI-DW2019
Partie1BI-DW2019
 
Big data
Big dataBig data
Big data
 
Cours data warehouse
Cours data warehouseCours data warehouse
Cours data warehouse
 
Chapitre1 introduction
Chapitre1 introductionChapitre1 introduction
Chapitre1 introduction
 
Bi
BiBi
Bi
 
Tp talend BI
Tp talend BITp talend BI
Tp talend BI
 
Projet BI - 2 - Conception base de données
Projet BI - 2 - Conception base de donnéesProjet BI - 2 - Conception base de données
Projet BI - 2 - Conception base de données
 
Mini projet power bi
Mini projet power bi Mini projet power bi
Mini projet power bi
 
DataWarehouse
DataWarehouseDataWarehouse
DataWarehouse
 
Projet décisionnel
Projet décisionnelProjet décisionnel
Projet décisionnel
 
Metadonnees Introduction
Metadonnees IntroductionMetadonnees Introduction
Metadonnees Introduction
 
Why Data Virtualization? An Introduction
Why Data Virtualization? An IntroductionWhy Data Virtualization? An Introduction
Why Data Virtualization? An Introduction
 
Cours Big Data Chap1
Cours Big Data Chap1Cours Big Data Chap1
Cours Big Data Chap1
 
bgi-data-1 (1).pptx
bgi-data-1 (1).pptxbgi-data-1 (1).pptx
bgi-data-1 (1).pptx
 
Partie2BI-DW2019
Partie2BI-DW2019Partie2BI-DW2019
Partie2BI-DW2019
 
Chp1 - Introduction à l'Informatique Décisionnelle
Chp1 - Introduction à l'Informatique DécisionnelleChp1 - Introduction à l'Informatique Décisionnelle
Chp1 - Introduction à l'Informatique Décisionnelle
 

Similaire à Le "Lac de données" de l'Ina, un projet pour placer la donnée au cœur de l'organisation

Fiche pratique IST Agropolis : L'Open Access et les données de la recherche
Fiche pratique IST Agropolis : L'Open Access et les données de la rechercheFiche pratique IST Agropolis : L'Open Access et les données de la recherche
Fiche pratique IST Agropolis : L'Open Access et les données de la rechercheAgropolis International
 
Fiche pratique IST Agropolis : Les Données de la Recherche : Questions-Réponses
Fiche pratique IST Agropolis : Les Données de la Recherche : Questions-RéponsesFiche pratique IST Agropolis : Les Données de la Recherche : Questions-Réponses
Fiche pratique IST Agropolis : Les Données de la Recherche : Questions-RéponsesAgropolis International
 
Documation 2011 : de la recherche fédérée à l'accès unifié
Documation 2011 : de la recherche fédérée à l'accès unifiéDocumation 2011 : de la recherche fédérée à l'accès unifié
Documation 2011 : de la recherche fédérée à l'accès unifiéAntidot
 
Un modèle de données unique pour les collections de l'Ina, pourquoi ? Comment ?
Un modèle de données unique pour les collections de l'Ina, pourquoi ? Comment ?Un modèle de données unique pour les collections de l'Ina, pourquoi ? Comment ?
Un modèle de données unique pour les collections de l'Ina, pourquoi ? Comment ?Gautier Poupeau
 
Livre Blanc : comprendre les data-lakes
Livre Blanc : comprendre les data-lakesLivre Blanc : comprendre les data-lakes
Livre Blanc : comprendre les data-lakesConverteo
 
Masterclasse i-expo 2011 : Pour un véritable accès unifié à l'information
Masterclasse i-expo 2011 : Pour un véritable accès unifié à l'informationMasterclasse i-expo 2011 : Pour un véritable accès unifié à l'information
Masterclasse i-expo 2011 : Pour un véritable accès unifié à l'informationAntidot
 
Catalogage de données : notions enjeux et initiatives
Catalogage de données : notions enjeux et initiativesCatalogage de données : notions enjeux et initiatives
Catalogage de données : notions enjeux et initiativesDesconnets Jean-Christophe
 
Emna borgi mabroukachraita-datawarehouse
Emna borgi mabroukachraita-datawarehouseEmna borgi mabroukachraita-datawarehouse
Emna borgi mabroukachraita-datawarehouseEmna Borgi
 
Linked Enterprise Data : disposer d’une vue consolidée des données de l'entre...
Linked Enterprise Data : disposer d’une vue consolidée des données de l'entre...Linked Enterprise Data : disposer d’une vue consolidée des données de l'entre...
Linked Enterprise Data : disposer d’une vue consolidée des données de l'entre...Antidot
 
IODS : Retour d’expériences au sein du Center for Data Science
IODS : Retour d’expériences au sein du Center for Data ScienceIODS : Retour d’expériences au sein du Center for Data Science
IODS : Retour d’expériences au sein du Center for Data ScienceBorderCloud
 
Mémoire de fin d'étude - La big data et les réseaux sociaux
Mémoire de fin d'étude - La big data et les réseaux sociauxMémoire de fin d'étude - La big data et les réseaux sociaux
Mémoire de fin d'étude - La big data et les réseaux sociauxChloé Marty
 
Présentation de Christian Langevin au Club IES_Veille Technologique
Présentation de Christian Langevin au Club IES_Veille TechnologiquePrésentation de Christian Langevin au Club IES_Veille Technologique
Présentation de Christian Langevin au Club IES_Veille TechnologiqueInter-Ligere
 
Stéphane Pouyllau (CNRS) - ISIDORE : plateforme d’accès unifié aux données de...
Stéphane Pouyllau (CNRS) - ISIDORE : plateforme d’accès unifié aux données de...Stéphane Pouyllau (CNRS) - ISIDORE : plateforme d’accès unifié aux données de...
Stéphane Pouyllau (CNRS) - ISIDORE : plateforme d’accès unifié aux données de...infoclio.ch
 
préservation de l'information numérique formation 2015
préservation de l'information numérique formation 2015préservation de l'information numérique formation 2015
préservation de l'information numérique formation 2015Pascal Romain
 

Similaire à Le "Lac de données" de l'Ina, un projet pour placer la donnée au cœur de l'organisation (20)

Fiche pratique IST Agropolis : L'Open Access et les données de la recherche
Fiche pratique IST Agropolis : L'Open Access et les données de la rechercheFiche pratique IST Agropolis : L'Open Access et les données de la recherche
Fiche pratique IST Agropolis : L'Open Access et les données de la recherche
 
Fiche pratique IST Agropolis : Les Données de la Recherche : Questions-Réponses
Fiche pratique IST Agropolis : Les Données de la Recherche : Questions-RéponsesFiche pratique IST Agropolis : Les Données de la Recherche : Questions-Réponses
Fiche pratique IST Agropolis : Les Données de la Recherche : Questions-Réponses
 
Mc jacquemot piv2017_c
Mc jacquemot piv2017_cMc jacquemot piv2017_c
Mc jacquemot piv2017_c
 
Documation 2011 : de la recherche fédérée à l'accès unifié
Documation 2011 : de la recherche fédérée à l'accès unifiéDocumation 2011 : de la recherche fédérée à l'accès unifié
Documation 2011 : de la recherche fédérée à l'accès unifié
 
Un modèle de données unique pour les collections de l'Ina, pourquoi ? Comment ?
Un modèle de données unique pour les collections de l'Ina, pourquoi ? Comment ?Un modèle de données unique pour les collections de l'Ina, pourquoi ? Comment ?
Un modèle de données unique pour les collections de l'Ina, pourquoi ? Comment ?
 
Livre Blanc : comprendre les data-lakes
Livre Blanc : comprendre les data-lakesLivre Blanc : comprendre les data-lakes
Livre Blanc : comprendre les data-lakes
 
Masterclasse i-expo 2011 : Pour un véritable accès unifié à l'information
Masterclasse i-expo 2011 : Pour un véritable accès unifié à l'informationMasterclasse i-expo 2011 : Pour un véritable accès unifié à l'information
Masterclasse i-expo 2011 : Pour un véritable accès unifié à l'information
 
Catalogage de données : notions enjeux et initiatives
Catalogage de données : notions enjeux et initiativesCatalogage de données : notions enjeux et initiatives
Catalogage de données : notions enjeux et initiatives
 
Emna borgi mabroukachraita-datawarehouse
Emna borgi mabroukachraita-datawarehouseEmna borgi mabroukachraita-datawarehouse
Emna borgi mabroukachraita-datawarehouse
 
introNoSQL.pdf
introNoSQL.pdfintroNoSQL.pdf
introNoSQL.pdf
 
Linked Enterprise Data : disposer d’une vue consolidée des données de l'entre...
Linked Enterprise Data : disposer d’une vue consolidée des données de l'entre...Linked Enterprise Data : disposer d’une vue consolidée des données de l'entre...
Linked Enterprise Data : disposer d’une vue consolidée des données de l'entre...
 
IODS : Retour d’expériences au sein du Center for Data Science
IODS : Retour d’expériences au sein du Center for Data ScienceIODS : Retour d’expériences au sein du Center for Data Science
IODS : Retour d’expériences au sein du Center for Data Science
 
Mémoire de fin d'étude - La big data et les réseaux sociaux
Mémoire de fin d'étude - La big data et les réseaux sociauxMémoire de fin d'étude - La big data et les réseaux sociaux
Mémoire de fin d'étude - La big data et les réseaux sociaux
 
ANTIDOT - Antidot information factory
ANTIDOT - Antidot information factoryANTIDOT - Antidot information factory
ANTIDOT - Antidot information factory
 
Présentation de Christian Langevin au Club IES_Veille Technologique
Présentation de Christian Langevin au Club IES_Veille TechnologiquePrésentation de Christian Langevin au Club IES_Veille Technologique
Présentation de Christian Langevin au Club IES_Veille Technologique
 
Plan de Gestion de Données (PGD)_Claire Sowinski (INIST CNRS)_JeudIST IRD 202...
Plan de Gestion de Données (PGD)_Claire Sowinski (INIST CNRS)_JeudIST IRD 202...Plan de Gestion de Données (PGD)_Claire Sowinski (INIST CNRS)_JeudIST IRD 202...
Plan de Gestion de Données (PGD)_Claire Sowinski (INIST CNRS)_JeudIST IRD 202...
 
Stéphane Pouyllau (CNRS) - ISIDORE : plateforme d’accès unifié aux données de...
Stéphane Pouyllau (CNRS) - ISIDORE : plateforme d’accès unifié aux données de...Stéphane Pouyllau (CNRS) - ISIDORE : plateforme d’accès unifié aux données de...
Stéphane Pouyllau (CNRS) - ISIDORE : plateforme d’accès unifié aux données de...
 
cours1-INTRODUCTION.ppt
cours1-INTRODUCTION.pptcours1-INTRODUCTION.ppt
cours1-INTRODUCTION.ppt
 
cours1-INTRODUCTION.ppt
cours1-INTRODUCTION.pptcours1-INTRODUCTION.ppt
cours1-INTRODUCTION.ppt
 
préservation de l'information numérique formation 2015
préservation de l'information numérique formation 2015préservation de l'information numérique formation 2015
préservation de l'information numérique formation 2015
 

Plus de Gautier Poupeau

Why I don't use Semantic Web technologies anymore, event if they still influe...
Why I don't use Semantic Web technologies anymore, event if they still influe...Why I don't use Semantic Web technologies anymore, event if they still influe...
Why I don't use Semantic Web technologies anymore, event if they still influe...Gautier Poupeau
 
Visite guidée au pays de la donnée - Traitement automatique des données
Visite guidée au pays de la donnée - Traitement automatique des donnéesVisite guidée au pays de la donnée - Traitement automatique des données
Visite guidée au pays de la donnée - Traitement automatique des donnéesGautier Poupeau
 
Découverte du SPARQL endpoint de HAL
Découverte du SPARQL endpoint de HALDécouverte du SPARQL endpoint de HAL
Découverte du SPARQL endpoint de HALGautier Poupeau
 
Réalisation d'un mashup de données avec DSS de Dataiku et visualisation avec ...
Réalisation d'un mashup de données avec DSS de Dataiku et visualisation avec ...Réalisation d'un mashup de données avec DSS de Dataiku et visualisation avec ...
Réalisation d'un mashup de données avec DSS de Dataiku et visualisation avec ...Gautier Poupeau
 
Réalisation d'un mashup de données avec DSS de Dataiku - Première partie
Réalisation d'un mashup de données avec DSS de Dataiku - Première partieRéalisation d'un mashup de données avec DSS de Dataiku - Première partie
Réalisation d'un mashup de données avec DSS de Dataiku - Première partieGautier Poupeau
 
Data in the center of the Information System
Data in the center of the Information SystemData in the center of the Information System
Data in the center of the Information SystemGautier Poupeau
 
Les technologies du Web appliquées aux données structurées (1ère partie : Enc...
Les technologies du Web appliquées aux données structurées (1ère partie : Enc...Les technologies du Web appliquées aux données structurées (1ère partie : Enc...
Les technologies du Web appliquées aux données structurées (1ère partie : Enc...Gautier Poupeau
 
Les technologies du Web appliquées aux données structurées (2ème partie : Rel...
Les technologies du Web appliquées aux données structurées (2ème partie : Rel...Les technologies du Web appliquées aux données structurées (2ème partie : Rel...
Les technologies du Web appliquées aux données structurées (2ème partie : Rel...Gautier Poupeau
 
Information numérique : défintions et enjeux
Information numérique : défintions et enjeuxInformation numérique : défintions et enjeux
Information numérique : défintions et enjeuxGautier Poupeau
 
Les professionnels de l'information face aux défis du Web de données
Les professionnels de l'information face aux défis du Web de donnéesLes professionnels de l'information face aux défis du Web de données
Les professionnels de l'information face aux défis du Web de donnéesGautier Poupeau
 
L’apport des technologies du Web sémantique à la gestion des données structur...
L’apport des technologies du Web sémantique à la gestion des données structur...L’apport des technologies du Web sémantique à la gestion des données structur...
L’apport des technologies du Web sémantique à la gestion des données structur...Gautier Poupeau
 
Index nominum to ontology
Index nominum to ontologyIndex nominum to ontology
Index nominum to ontologyGautier Poupeau
 
Le Web de données et les bibliothèques
Le Web de données et les bibliothèquesLe Web de données et les bibliothèques
Le Web de données et les bibliothèquesGautier Poupeau
 
A la découverte du Web sémantique
A la découverte du Web sémantiqueA la découverte du Web sémantique
A la découverte du Web sémantiqueGautier Poupeau
 

Plus de Gautier Poupeau (15)

Why I don't use Semantic Web technologies anymore, event if they still influe...
Why I don't use Semantic Web technologies anymore, event if they still influe...Why I don't use Semantic Web technologies anymore, event if they still influe...
Why I don't use Semantic Web technologies anymore, event if they still influe...
 
Visite guidée au pays de la donnée - Traitement automatique des données
Visite guidée au pays de la donnée - Traitement automatique des donnéesVisite guidée au pays de la donnée - Traitement automatique des données
Visite guidée au pays de la donnée - Traitement automatique des données
 
Découverte du SPARQL endpoint de HAL
Découverte du SPARQL endpoint de HALDécouverte du SPARQL endpoint de HAL
Découverte du SPARQL endpoint de HAL
 
Réalisation d'un mashup de données avec DSS de Dataiku et visualisation avec ...
Réalisation d'un mashup de données avec DSS de Dataiku et visualisation avec ...Réalisation d'un mashup de données avec DSS de Dataiku et visualisation avec ...
Réalisation d'un mashup de données avec DSS de Dataiku et visualisation avec ...
 
Réalisation d'un mashup de données avec DSS de Dataiku - Première partie
Réalisation d'un mashup de données avec DSS de Dataiku - Première partieRéalisation d'un mashup de données avec DSS de Dataiku - Première partie
Réalisation d'un mashup de données avec DSS de Dataiku - Première partie
 
Data in the center of the Information System
Data in the center of the Information SystemData in the center of the Information System
Data in the center of the Information System
 
Les technologies du Web appliquées aux données structurées (1ère partie : Enc...
Les technologies du Web appliquées aux données structurées (1ère partie : Enc...Les technologies du Web appliquées aux données structurées (1ère partie : Enc...
Les technologies du Web appliquées aux données structurées (1ère partie : Enc...
 
Les technologies du Web appliquées aux données structurées (2ème partie : Rel...
Les technologies du Web appliquées aux données structurées (2ème partie : Rel...Les technologies du Web appliquées aux données structurées (2ème partie : Rel...
Les technologies du Web appliquées aux données structurées (2ème partie : Rel...
 
Information numérique : défintions et enjeux
Information numérique : défintions et enjeuxInformation numérique : défintions et enjeux
Information numérique : défintions et enjeux
 
Les professionnels de l'information face aux défis du Web de données
Les professionnels de l'information face aux défis du Web de donnéesLes professionnels de l'information face aux défis du Web de données
Les professionnels de l'information face aux défis du Web de données
 
L’apport des technologies du Web sémantique à la gestion des données structur...
L’apport des technologies du Web sémantique à la gestion des données structur...L’apport des technologies du Web sémantique à la gestion des données structur...
L’apport des technologies du Web sémantique à la gestion des données structur...
 
RDF en quelques slides
RDF en quelques slidesRDF en quelques slides
RDF en quelques slides
 
Index nominum to ontology
Index nominum to ontologyIndex nominum to ontology
Index nominum to ontology
 
Le Web de données et les bibliothèques
Le Web de données et les bibliothèquesLe Web de données et les bibliothèques
Le Web de données et les bibliothèques
 
A la découverte du Web sémantique
A la découverte du Web sémantiqueA la découverte du Web sémantique
A la découverte du Web sémantique
 

Le "Lac de données" de l'Ina, un projet pour placer la donnée au cœur de l'organisation

  • 1. Le « lac de données » de l'Ina, un projet pour placer la donnée au cœur de l’organisation Séminaire « Nouveaux paradigmes de l’Archive », 15 décembre 2020 Gautier Poupeau gpoupeau@ina.fr @lespetitescases http://www.lespetitescases.net
  • 2. Constats généraux En guise d’introduction ou de préambule…
  • 3. Démultiplication des données L’objet Structure physique Structure numérique 1ère question : Quel est ce livre ? Métadonnées descriptives 3ème question : Quels sont les formats des fichiers ? Métadonnées techniques 2ème question : Quels sont tous les fichiers qui résultent de la numérisation ? Structure numérique 4ème question : l’organisation maîtrise-t-elle ces formats ? Référentiel de formats Formats 5ème question : Quand a eu lieu la numérisation et quel est le nom du scanner ? Métadonnées de provenance 6ème question : A quelle page correspond chaque fichier ? Métadonnées de structure 7ème question : Qui, quand et comment un usager a consulté ce livre ? Données d’usage 8ème question : Que contient exactement ce livre ? Contenu exploitable Un exemple : les métadonnées d’un livre dans une collection de bibliothèques 9ème question : Comment valoriser ce livre sur notre site Web et les réseaux sociaux ? Données éditoriales 10ème question : comment réagit-on sur les réseaux sociaux ? Données des utilisateurs 11ème question : que dit-on de ce livre ou de son auteur dans les autres collections ou Wikipedia/Wikidata ? Données interopérables
  • 4. Du document à la donnée, un changement de granularité En permettant le traitement informatisé du contenu lui-même, la numérisation a peu à peu provoqué une modification dans l’appréhension des choses : du document à la donnée et a rendue poreuse la frontière entre données et métadonnées. La description est numérique Le document/support est accessible via une notice qui en décrit la globalité Le document est numérisé ou nativement numérique Le moteur de recherche permet d’accéder au contenu du document Le document est un ensemble de données exploitables Le document lui-même devient une source de données, il n’existe plus de dichotomie entre les métadonnées et les données
  • 5. La donnée, au centre de l’attention En 15 ans, de par les évolutions technologiques, de par la montée en puissance du numérique, et avec elle de la donnée, dans nos vies, de par la prise de conscience politique et citoyenne, la donnée est peu à peu devenue le centre de toutes les attentions. Traiter et stocker les données en masse Big data Data mining Linked data Exploiter automatiquement les contenus et les données Open Data Rendre accessible les données Permettre l’interopérabilité des données
  • 6. Les processus : la partie émergée de l’iceberg • Besoins primaires : production, stockage et restitution • Modélisation des processus-métiers • Réponse directe aux besoins des utilisateurs • Entraîne une multiplication des applications • A chaque application, sa logique propre, son format de données, ses propres mécanismes d’accès Les données : la partie immergée de l’iceberg • Les données du SI dépendent de la modélisation des processus • Les données sont enfermées dans chaque application formant des silos de données • Absence de cohérence technique et sémantique entre les silos • Le modèle physique de stockage des données peut être très éloigné du modèle logique ce qui rend difficile la migration, la maintenance et la compréhension du modèle Et pourtant…. Dans la plupart de nos SI, les données restent enfermées, redondées dans des silos applicatifs pensés en fonction de leurs usages et non de leurs logiques….
  • 7. Alors que… les attentes d’un SI documentaire évoluent pour répondre à tous les constats précédents… Permettre l’accès à la collection Assurer la maîtrise sur le long terme d’une collection de plus en plus hétérogène et de moins en moins physique Permettre aux usagers de trouver la réponse à leur question et plus simplement de trouver le document qui pourrait éventuellement répondre à leur question Replacer la collection elle-même et les données contenues dans les documents de nos collections dans l’ensemble de l’écosystème des données de l’organisation Naviguer et rechercher au sein de collections de différentes organisations composées de documents hétérogènes Assurer la cohérence et la fluidité entre données et métadonnées, entre le contenu et sa (ses) description(s) Enrichir les (méta)données à partir de données d’origines et de natures diverses Permettre l’analyse et l’exploitation en masse des documents eux-mêmes et des métadonnées
  • 8. Comment répondre à ces constats? Quelques propositions de solutions mises en place à l’Ina ces dernières années
  • 9. Les constats à l’Ina Des données éparpillées et silotées Un (des ?) SI à repenser pour accompagner les transformations Des nouvelles technologies à intégrer Globalement, nous dressons à partir de 2014 les mêmes constats au sein de l’Ina…. Conclusion : il est nécessaire de repenser globalement tout notre système d’information, mais plutôt que conduire le projet uniquement en fonction des processus métiers, on décide de placer la donnée au cœur de notre réflexion !
  • 10. Les objectifs Mette en cohérence les différents ensembles de données Assurer l’exploitation, la supervision et l’évolution des systèmes de traitement et de stockage des données Partager une connaissance des données et déployer une gouvernance des données Séparer techniquement et logiquement les données des usages Maîtriser les données et les placer au cœur du SI, de nos usages et de notre organisation
  • 11. Ingénieurs, chefs de projet, professionnels de l’information, juristes, chercheurs, rédacteurs et journalistes intègrent peu à peu la question de la donnée à leur pratique et à leur réflexion Les acteurs de la transformation Les « métiers » de la donnée Data scientist Architecte de données Ingénieur de la donnée Analyste de la donnée Professionnels de l’information Data ops/DBA
  • 12. Les réalisations : un nouveau modèle conceptuel de données La mise au point d’un nouveau modèle conceptuel de données co-construit avec les professionnels de la donnée de la DSI et les professionnels de l’information de la Direction des collections pour décrire toutes les données autour des collections. Cartographie des grands ensembles de données de l’Ina Schéma représentant le cœur du nouveau modèle de l’Ina organisé autour de 3 entités principales : le contenu, l’événement et le support
  • 13. Les réalisations : une infrastructure technique • Disposer des différentes familles de bases de données pour répondre aux différents cas d’usage pour stocker et interroger les données • Penser un système global intégrant à la fois les systèmes de stockage, de traitement, de synchronisation et d’accès aux données • Abstraire la complexité sous-jacente aux autres applications et leur offrir une infrastructure sécurisée et clé en main de stockage et de traitement de données L’infrastructure technique, le « lac de données » en lui-même, une architecture hybride qui assure la séparation entre les données et les usages, stocke les différentes natures de données, centralise les traitements et répond aux différents cas d’usage.
  • 14. Les réalisations : une reprise de l’ensemble des données existantes Le dépôt légal Constituer le reflet du flux diffusé depuis 1995 Les archives professionnelles Constituer une banque de programmes depuis l’ORTF Récupération, restructuration, fusion, nettoyage et mise en relation d’une vingtaine de bases de données documentaires, matérielles, juridiques au sein d’une seule base de données suivant le modèle conceptuel.
  • 15. Les réalisations : une reprise de l’ensemble des données existantes Récupération, restructuration, fusion, nettoyage et mise en relation d’une vingtaine de bases de données documentaires, matérielles, juridiques au sein d’une seule base de données suivant le modèle conceptuel.
  • 16. Les réalisations : une reprise de l’ensemble des données existantes Récupération, restructuration, fusion, nettoyage et mise en relation d’une vingtaine de bases de données documentaires, matérielles, juridiques au sein d’une seule base de données suivant le modèle conceptuel.
  • 17. Les données à la fin de l’année 2020 • Données pour le moteur de recherche d’ina.fr • Données de Madelen issues de totem + les enrichissements éditoriaux • Données migrées depuis les bases actuelles pour Notilus (jusqu’en 2017) • Données pour le moteur de recherche d’InaMediaPro issues de Totem • Données du moteur de recherche Mediaclip issues du Magento PAV • Données de la transcription effectuée par Vocapia + extractions d’entités nommées (personnes, lieux, organisation) • Données des sous-titres issues des bases DL + extraction d’entités nommées • Données migrées depuis les bases actuelles documentaires et juridiques pour Notilus • Données issues de Wikidata liées à nos bases • Données de la transcription effectuée par Vocapia pour des besoins de recherche + extractions d’entités nommées • Données issues des études menées par David Doukhan sur l’analyse du temps de paroles des hommes et des femmes • Données liées aux droits d’exploitation des contenus vidéos (contributions + droits associés)
  • 18. • Données pour le moteur de recherche du hub issues des bases totem/OGP du lac et du CMS Hub • Données de Madelen issues de totem + les enrichissements éditoriaux • Données migrées depuis les bases actuelles pour Notilus (jusqu’en 2018) • Données migrées en différentiel depuis Totem • Données pour le moteur de recherche d’InaMediaPro issues de Totem et de la Sonuma • Données du moteur de recherche Mediaclip issues du Magento PAV • Données de la transcription effectuée par Vocapia + extractions d’entités nommées (personnes, lieux, organisation) • Données des sous-titres issues des bases DL + extraction d’entités nommées • Données nécessaires pour l’analyse des journées de programme des chaînes d’info en continu (classif images, OCR, reconnaissance images, analyse de visages) • Données issues de l’analyse du son sur les chaînes de l’Audiovisuel public • Données migrées depuis les bases actuelles documentaires et juridiques pour Notilus • Données issues de Wikidata liées à nos bases • Données d’usage (SVOD/Hub) • Données de la transcription effectuée par Vocapia pour des besoins de recherche + extractions d’entités nommées • Données issues des études menées par David Doukhan sur l’analyse du temps de paroles des hommes et des femmes • Données liées aux droits d’exploitation des contenus vidéos (contributions + droits associés) • Données sur les dossiers de production Les données à la fin de l’année 2021
  • 19. Les réalisations : déploiement du TDM Mise au point et déploiement d’un ensemble d’outils de Text et data mining pour répondre à des cas d’usages métiers et dont toutes les données sont stockées et interrogeables dans le lac de données selon le modèle conceptuel de l’Ina. Transcription et extraction d’entités nommées Analyse des visages Analyse du son Basée sur les travaux menés par David Doukhan, chercheur à l’Ina Segmentation automatique des journées de programme des chaînes d’information en continu Segmentation et analyse automatique des journaux télévisés
  • 20. En résumé : déployer une gouvernance des données à l’Ina Mieux maîtriser les données pour répondre aux usages actuels et futurs avec un maximum de réactivité en garantissant la qualité et la disponibilité des données
  • 21. CONTACT 4, avenue de l’Europe 94366 Bry-sur-Marne Cedex - France établissement public à caractère industriel et commercial RCS Créteil 302 421 193 B institut.ina.fr Merci pour votre attention ! Gautier POUPEAU gpoupeau@ina.fr @lespetitescases