Support de l'intervention effectuée lors des lundis du numérique de l'INHA le 11 février 2019 sur le projet à l'institut national de l'audiovisuel d'une stratégie orientée données pour la refonte de notre système d'information basée sur la mise au point d'une infrastructure centralisée de stockage et de traitement des données et un modèle de données unique pour mettre en cohérence toutes les données de l'Ina
3. Les principales missions de l’Ina
3
Conserver
Valoriser
Former
160 chaînes de télé/radio captées 24h/24 7j/7
50 millions de notices
1,8 millions d’heures numérisées
dont 49 000 heures accessibles librement
451 offres de formation continue
pour 3500 professionnels/an
14 diplômes universitaires du BTS au Master
Un modèle de données unique pour les collections de l'Ina
4. Les collections de l’Ina
4
17,8 millions d’heures de programmes
télé et radio
2 millions d’heures
d‘archives profesionnelles
15,8 millions
d’heures
Dépôt légal
1,2 millions de photos
3.29 Po d’archives du Web
Un modèle de données unique pour les collections de l'Ina
5. Les systèmes d’information documentaire de l’Ina
5
Totem
Mastock Sumocco
Gestion
document
MediaIndex
Ina.fr
PCM
Hyperbase
Dépôt Légal Archives professionnelles
DL
InaMediaPro
Un modèle de données unique pour les collections de l'Ina
6. Les systèmes d’information documentaire (et au-delà) de l’Ina
6
Totem
Mastock Sumocco
Gestion
document
MediaIndex
Ina.fr
PCM
Hyperbase
Dépôt Légal Archives professionnelles
DL
InaMediaPro
SI JuridiqueSI Commercial
Un modèle de données unique pour les collections de l'Ina
8. Quelques constats
Des bases de données éparpillées
8
• hétérogénéité des technologies de
stockage
• difficile à maintenir
• nombreux traitements de
synchronisation
• pas de maîtrise des données
Un modèle de données unique pour les collections de l'Ina
9. Quelques constats
Des données « silotées »
9
• données très liées à l’applicatif et à son
usage
• réutilisation complexe
• redondance des métadonnées
• problème de responsabilité des
traitements de synchronisation
• Difficulté à maintenir une cohérence
transverse des structures de données sur
le SI
Un modèle de données unique pour les collections de l'Ina
10. Quelques constats
De nouvelles technologies de stockage et de traitement
10
• prendre en compte leurs apports et
leurs limites
• intégrer avec les technologies
traditionnelles
• étudier les conséquences techniques et
opérationnelles
• gagner en souplesse dans l’évolution du
SI
Un modèle de données unique pour les collections de l'Ina
11. LES OBJECTIFS DU PROJET
11Un modèle de données unique pour les collections de l'Ina
12. Les objectifs poursuivis par le projet
• Maitriser la cohérence des
différents ensembles de
données
• Simplifier l’exploitation des données
• Éviter la redondance des données
• Stocker toutes les données quelles que
soient leur nature et leur structure
• Assurer la mise en relation des
différents ensembles de données
12
Au niveau des données
Un modèle de données unique pour les collections de l'Ina
13. Les objectifs poursuivis par le projet
• Simplifier l’exploitation, la supervision,
la maintenance et l’évolution des
systèmes de traitement et de stockage
de données
• Assurer la haute disponibilité
• Intégrer le système au plan de secours
informatique (PSI)
• Assurer la montée en charge
• Accélérer l’intégration de nouvelles technologies
13
Au niveau technique
Un modèle de données unique pour les collections de l'Ina
14. Les objectifs poursuivis par le projet
• Maitriser les données et leurs
utilisations
• Répondre aux usages actuels et anticiper
les usages futurs
• Disposer d’une expertise transverse sur la
donnée
• Déployer une gouvernance de données à
l’échelle de l’établissement
• Partager la responsabilité sur la
connaissance de la donnée
14
Au niveau métier et organisationnel
Un modèle de données unique pour les collections de l'Ina
16. Les lignes directrices
16
Séparer techniquement les données des usages
• Le SI est organisé en
couches et plus en
silos
• Les règles métiers ne sont
pas implémentées du côté
du lac qui se « contente »
de stocker et délivrer les
données
Un modèle de données unique pour les collections de l'Ina
17. Les lignes directrices
17
Séparer fonctionnellement les données des usages
• Repenser les modèles de données par
rapport à leur logique et non à leur
usage
• Assumer de disposer d’un modèle de données
pour la production et le stockage et d’un ou
plusieurs modèles de données pour
l’exploitation
Un modèle de données unique pour les collections de l'Ina
18. Les lignes directrices
18
Intégrer la fouille de textes et de données
• Penser la place et l’usage de
ces outils vis-à-vis des
professionnels et des usagers
• Penser le lien entre les données
générées et les données
« traditionnelles »
• Disposer des moyens techniques
pour stocker les données générées
Un modèle de données unique pour les collections de l'Ina
19. Les lignes directrices
19
Disposer des différentes familles de bases de données
Base de données
relationnelles
Base de données
document
Base de données
graphes
Moteur de
recherche
• Beaucoup de lecture/écriture
• Données très structurées
• Garantie de la transaction
• Peu ou pas de mise à jour
• Données semi structurées
• Montée en charge sécurisée en
volume de données
• Données très structurées
• Inférences sur les données
• Respect de la logique des données
• Requête plein texte
• Rapidité des réponses
• Montée en charge pour le
nombre d’utilisateurs
Un modèle de données unique pour les collections de l'Ina
20. Les lignes directrices
20
Déployer une infrastructure unique et centralisée
• Penser un système global
intégrant à la fois les
systèmes de stockage, de
traitement et d’accès aux
données
• Centraliser les différents
systèmes de stockage pour
en simplifier la supervision
Un modèle de données unique pour les collections de l'Ina
22. Les différents ensembles de données
22
Données
éditoriales
Données
de référence
Données
d’usage
Données
générées
automatiquement
Données
commerciales
Données
juridiques
Données
d’actualités
Données
de la recherche
Données
documentaires et matérielles
Un modèle de données unique pour les collections de l'Ina
23. Des données documentaires et matérielles hétérogènes
Images animées ou sons de natures (très) hétérogènes : journaux télévisés,
jeux, retransmissions, magazines, séries, films, publicité, documentaires…
Images fixes : photos, capture d’écran
Documentation écrite : livres sur la télévision, programmes télés (télérama,
Télé 7 jours…), documentations produites par les chaînes (dossier de presse,
conducteur…), archives d’émissions ou de personnes physiques issus de dons
Web : Sites Web (pages, images, feuilles de style…), compte twitter, hashtags
twitter, compte dailyMotion, YouTube ou Facebook
Matériels : supports physiques : Films, Betacam, VHS, LTO et support
numérique natif ou issu de la numérisation : MPEG1, JPEG200…
23Un modèle de données unique pour les collections de l'Ina
24. Des données avec des visions différentes et qui ont évolué en parallèle
24
Le dépôt légal
Constituer le reflet du flux diffusé depuis 1995
Les archives professionnelles
Constituer une banque de programmes
depuis l’ORTF
Un modèle de données unique pour les collections de l'Ina
25. Des données issues de différentes sources de données
25
France 3 régions
Outremer
Câble/Satellite
Hertzienne « historique »
Radio
Pour mener à bien sa mission, l’Ina est amené
à récupérer ou acheter de la donnée à
l’extérieur.
Un modèle de données unique pour les collections de l'Ina
Données post-diffusion
achetées
Données
prévisionnelles
de diffusion
26. Comment mettre au point un nouveau modèle de données ?
26
InteropérabilitéSouplesse Cohérence Provenance
Les lignes directrices
Un modèle de données unique pour les collections de l'Ina
27. Comment mettre au point un nouveau modèle de données ?
27
La méthodologie
Un groupe de 4
personnes du métier et
1 personne de la DSI
réuni une à deux fois
par semaine depuis
quatre ans
Un modèle de données unique pour les collections de l'Ina
28. Comment mettre au point un nouveau modèle de données ?
28
Les modèles d’inspiration et les problèmes qu’ils posent
• Le CIDOC-CRM est un modèle
conceptuel et non un modèle
d’implémentation
• A-t-on besoin d’autant de
complexité ?
CIDOC-CRM
Un modèle de données unique pour les collections de l'Ina
29. Comment mettre au point un nouveau modèle de données ?
29
Les modèles d’inspiration et les problèmes qu’ils posent
FRBR/LRM
EN 15907 Bibframe
• Qu’est-ce-qu’une expression
et une manifestation pour un
programme diffusé ? Une
rediffusion ?
• Quel est le coût humain (et
donc économique) de l’œuvre
vs son intérêt en termes
d’usage ?
Un modèle de données unique pour les collections de l'Ina
30. Le modèle de données
30
Séparer le contenu, de son histoire et de son support
Le contenu correspond au
programme en lui-même mais
cela peut aussi être une
émission de radio, un livre ou
une photographie
Le contenu
L’événement
L’événement reflète une étape
dans la vie du contenu :
création, production,
diffusion, publication,
archivage, numérisation…
Le support
Le support physique ou
numérique sur lequel est
inscrit le contenu est le
produit d’un événement
Un modèle de données unique pour les collections de l'Ina
31. Le modèle de données
31
Faire de la description des entités en tant que telles
Du texte libre Des données contrôlées
• Texte court : identifiant, titre propre,
titre de la collection…
• Texte long : résumé, dispositif, notes…
• Chiffres : données d’audience, numéro
d’émission, de saison…
• Description du contenu lui-même : genre,
thématique, descripteurs, génériques
• Description des particularités du contenu
: langue, couleur, origine des images…
• Description des particularités des
événements : nature de production,
chaîne, nom du producteur
Un modèle de données unique pour les collections de l'Ina
32. Le modèle des contenus/événements/matériels
32Un modèle de données unique pour les collections de l'Ina
33. Le modèle des concepts (inspiré d’ISO 25 964)
33Un modèle de données unique pour les collections de l'Ina
34. Le modèle des textes
34
Lorem
ipsum
dolor sit
amet,
Un modèle de données unique pour les collections de l'Ina
35. Le modèle de données
Un modèle de données unique pour les collections de l'Ina 35
Text
Instance
EventItem
Annotation
Concept
Credit
Label
Title
Identifier
Textual
Annotation
Concept
Scheme
Relation
AgentFiliation
Set
Activity
Activity
Agent
Segment
Aggregation
Number
Un modèle de données unique pour les collections de l'Ina 35
36. Du modèle conceptuel au modèles physiques
36
Le modèle conceptuel est ensuite décliné pour les différentes bases
Un modèle conceptuel pour la
base de données relationnelles
Une structure Json
pour les APIs et la base
de données document
Un moteur de
recherche
Un modèle de données unique pour les collections de l'Ina
37. Principe de la migration des données
37
Exploration
des données
Mise au point des règles
Correction données
Dévelop
pement
Validation du
dév
Mise au propre
des règles
Validation
par le métier
Un modèle de données unique pour les collections de l'Ina
38. Le résultat de la migration
Titre propre :
Brouillard au pont
de Bry
Titre de collection :
Les enquêtes du
commissaire
Maigret
Résumé : Un crime
a été commis dans
un petit logement
de la banlieue
parisienne…
Générique :
REA, Barma,
Claude
Date de diffusion :
14/10/1967
38Un modèle de données unique pour les collections de l'Ina
39. Evénement de diffusion
Contenu 1
Le résultat de la migration
Titre propre :
Brouillard au pont
de Bry
Titre de collection :
Les enquêtes du
commissaire
Maigret
Résumé : Un crime
a été commis dans
un petit logement
de la banlieue
parisienne…
Générique :
REA, Barma,
Claude
Date de diffusion :
14/10/1967
39Un modèle de données unique pour les collections de l'Ina
40. Evénement de diffusion
Contenu 1
Le résultat de la migration
Titre propre :
Brouillard au pont
de Bry
Titre de collection :
Les enquêtes du
commissaire
Maigret
Résumé : Un crime
a été commis dans
un petit logement
de la banlieue
parisienne…
Générique :
REA, Barma,
Claude
Date de diffusion :
14/10/1967
40Un modèle de données unique pour les collections de l'Ina
Titre de collection :
Maigret
Titre propre :
Brouillard au pont
de Bry
Générique :
REA, La Patellière,
Denys de
Résumé : Une
jeune fille est
retrouvée morte
près du pont de
Bry…
Date de diffusion :
28/04/1994
41. Contenu 2
Evénements de diffusionEvénement de diffusion
Contenu 1
Le résultat de la migration
Titre propre :
Brouillard au pont
de Bry
Titre de collection :
Les enquêtes du
commissaire
Maigret
Résumé : Un crime
a été commis dans
un petit logement
de la banlieue
parisienne…
Générique :
REA, Barma,
Claude
Date de diffusion :
14/10/1967
41Un modèle de données unique pour les collections de l'Ina
Titre de collection :
Maigret
Titre propre :
Brouillard au pont
de Bry
Générique :
REA, La Patellière,
Denys de
Résumé : Une
jeune fille est
retrouvée morte
près du pont de
Bry…
Date de diffusion :
28/04/1994
42. Contenu 2
Evénements de diffusionEvénement de diffusion
Contenu 1
Le résultat de la migration
Titre propre :
Brouillard au pont
de Bry
Titre de collection :
Les enquêtes du
commissaire
Maigret
Résumé : Un crime
a été commis dans
un petit logement
de la banlieue
parisienne…
Générique :
REA, Barma,
Claude
Date de diffusion :
14/10/1967
42Un modèle de données unique pour les collections de l'Ina
Titre de collection :
Maigret
Titre propre :
Brouillard au pont
de Bry
Générique :
REA, La Patellière,
Denys de
Résumé : Une
jeune fille est
retrouvée morte
près du pont de
Bry…
Date de diffusion :
28/04/1994
Titre propre :
Brouillard au pont
de Bry
Générique :
REA, La Patellière,
Denys de
Résumé : Le
commissaire
Maigret enquête sur
un meurtre
mystérieux…
Date de diffusion :
28/10/2003
Titre de collection :
Maigret
43. Contenu 2
Evénements de diffusionEvénement de diffusion
Contenu 1
Le résultat de la migration
Titre propre :
Brouillard au pont
de Bry
Titre de collection :
Les enquêtes du
commissaire
Maigret
Résumé : Un crime
a été commis dans
un petit logement
de la banlieue
parisienne…
Générique :
REA, Barma,
Claude
Date de diffusion :
14/10/1967
43Un modèle de données unique pour les collections de l'Ina
Titre de collection :
Maigret
Titre propre :
Brouillard au pont
de Bry
Générique :
REA, La Patellière,
Denys de
Résumé : Une
jeune fille est
retrouvée morte
près du pont de
Bry…
Date de diffusion :
28/04/1994
Résumé : Le
commissaire
Maigret enquête sur
un meurtre
mystérieux…
Date de diffusion :
28/10/2003
44. Contenu 2
Evénements de diffusionEvénement de diffusion
Contenu 1
Le résultat de la migration
Titre propre :
Brouillard au pont
de Bry
Titre de collection :
Les enquêtes du
commissaire
Maigret
Résumé : Un crime
a été commis dans
un petit logement
de la banlieue
parisienne…
Générique :
REA, Barma,
Claude
Date de diffusion :
14/10/1967
44Un modèle de données unique pour les collections de l'Ina
Titre de collection :
Maigret
Titre propre :
Brouillard au pont
de Bry
Générique :
REA, La Patellière,
Denys de
Résumé : Une
jeune fille est
retrouvée morte
près du pont de
Bry…
Date de diffusion :
28/04/1994
Résumé : Le
commissaire
Maigret enquête sur
un meurtre
mystérieux…
Date de diffusion :
28/10/2003
Titre propre :
Brouillard au pont
de Bry
Titre de collection :
Maigret
Résumé : [vide]
Générique : [vide]
Date de diffusion :
10/08/2013
45. Contenu 2
Evénements de diffusionEvénement de diffusion
Contenu 1
Le résultat de la migration
Titre propre :
Brouillard au pont
de Bry
Titre de collection :
Les enquêtes du
commissaire
Maigret
Résumé : Un crime
a été commis dans
un petit logement
de la banlieue
parisienne…
Générique :
REA, Barma,
Claude
Date de diffusion :
14/10/1967
45Un modèle de données unique pour les collections de l'Ina
Titre de collection :
Maigret
Titre propre :
Brouillard au pont
de Bry
Générique :
REA, La Patellière,
Denys de
Résumé : Une
jeune fille est
retrouvée morte
près du pont de
Bry…
Date de diffusion :
28/04/1994
Résumé : Le
commissaire
Maigret enquête sur
un meurtre
mystérieux…
Date de diffusion :
28/10/2003
Date de diffusion :
10/08/2013