SlideShare a Scribd company logo
1 of 31
Download to read offline
L’intelligence artificielle appliquée aux archives
LectAuRep (Lecture automatique de répertoires)
Le projet des Archives nationales
avec l’Institut national de recherche en informatique et automatique
La reconnaissance optique des écritures manuscrites appliquée aux répertoires des notaires
Archives nationales
Site de Pierrefitte-Saint-Denis
26 novembre 2019
Master of Advanced Studies in Archival,
Library and Information Science
(MAS ALIS)
I. Ambitions
1. Corpus
2. Enjeux
II. Contexte institutionnel
1. Cadre juridique
2. Equipes
3. Phasage
III. Sur le terrain
1. Phase 1 – 2018 (Transkribus)
2. Phase 2 – 2019 (eScriptorium)
3. Phase 3 – 2020 (eScriptorium)
Le projet LectAuRep
Lecture automatique de répertoires
I. Ambitions
1. Corpus
2. Enjeux
Le projet LectAuRep
Lecture automatique de répertoires
Corpus
Les répertoires de notaires de Paris
(1803-années 1940)
Éléments diplomatiques
Ca. 1800 / 2000 registres de répertoires laissés par le notariat parisien entre
1803 et 1944.
Plusieurs centaines de répertoires en ligne (300 à 500 pages chacun).
Plus de 900 notaires différents.
Plusieurs milliers de mains de scribes différents.
Quelques dizaines de répertoires numérisés depuis 2013, directement
d’après les originaux (pas d’après microfilms : sans nuances de gris).
Enjeux
☛ pour le public des archives
☛ pour le réseau des services publics
d’archives et les institutions patrimoniales
(bibliothèques, musées…)
Library of Congress, Rosenwald 4, fol. 5r
II. Contexte institutionnel
1. Cadre juridique
2. Equipes
3. Phasage
Le projet LectAuRep
Lecture automatique de répertoires
Cadre juridique
La convention MIC/DIN - Inria
Convention-cadre signée le 12 décembre 2016
projet « préliminaire » : premier semestre 2018 (15000 €)
projet « approfondi » : second semestre 2019 (65000 €)
projet « approfondi » : année 2020 (65000 €)
Ministère de la Culture, département de l’innovation numérique :
– Bertrand Sajus
Inria, équipe ALMAnaCH :
– Marie-Laurence Bonhomme (stagiaire TNAH de l’Ecole nationale des chartes, phase 1)
– Marc Bui (EPHE, projet eScripta)
– Alix Chagué (diplômée TNAH de l’Ecole nationale des chartes, ingénieure recherche et développement à Inria,
phase 2)
– Hassane Gargem (projet eScripta, fin de la phase 2)
– Benjamin Kiessling (projet eScripta)
– Eric de La Clergerie (Inria)
– Marie Puren (diplômée TNAH de l’Ecole nationale des chartes, ingénieure recherche et développement à Inria,
phase 1)
– Charles Riondet (diplômé TNAH de l’Ecole nationale des chartes, ingénieure recherche et développement à
Inria, phase 1)
– Laurent Romary, coordonnateur du projet pour l’INRIA
– Daniel Stökl Ben Ezra (EPHE, projet eScripta)
– Lionel Tadjou (contractuel Inria, phase 2)
– Robin Tissot (phase 2, projet eScripta)
Archives nationales :
– Virginie Grégoire, Danis Habib, Marie-Françoise Limon-Bonnet, Aurélia Rostaing (DMC)
– Gaetano Piraino (diplômé TNAH de l’Ecole nationale des chartes), Frédéric Zamarreno (DMOASI)
Équipes
Phasage
Phase 1 – 2018
Étude de faisabilité et état de l’art ; plateforme Transkribus.
Phase 2 – 2019
Explorer les possibilités de segmentation automatique et de reconnaissance
d’écriture manuscrite des répertoires de notaires des XIXe et XXe siècles.
Nouveau projet : eScripta (IRIS Scripta-PSL : histoire et pratiques de l’écrit).
Nouvelle plateforme : eScriptorium (Kraken), calibrée pour des écritures en
alphabets latins et non latins, non alphabétiques, allant de droite à gauche, de
haut en bas…
Nouvel outil : ShareDocs (très grande infrastructure de recherche Huma-Num).
III. Sur le terrain
1. Phase 1 – 2018 (Transkribus)
2. Phase 2 – 2019 (eScriptorium)
3. Phase 3 – 2020 (eScriptorium)
Le projet LectAuRep
Lecture automatique de répertoires
Phase 1 (Transkribus)
Analyse de la mise en page
Marges : vides (sauf exceptions)
Numéro de l’acte : nombre entre 1 et 3000
Date de l’acte (jour) : nombre entre 1 et 31
Typologie de l’acte : chaîne de caractères - vocabulaire semi-contrôlé
Date de l’acte (année et mois) : écritures mixtes (imprimées et manuscrites)
Description de l’acte : nom et adresse des signataires, prix de vente d’un bien,
date d’un décès, etc.
Date d’enregistrement (jour) : nombre entre 1 et 31
Taxes acquittées : chiffres, chaînes de caractères (gratis, dito, etc.)
Traitements
1. Classification par reconnaissance de formes
Colonnes de chiffres ou de nombres
- Dates
- Numéros d’actes
- Taxes
Colonnes de texte « simple » des types d’actes
2. Reconnaissance de caractères manuscrits : obtention de données
d'entraînement pour construire un modèle de reconnaissance
Segmentation puis transcription collectives internes d’une
cinquantaine de pages d’un répertoire avec Transkribus (import des
images numérisées, segmentation, transcription cellule par cellule)
Résultats de la phase 1
Classification par reconnaissance de formes
☛ Chiffres (notamment numéros de jour) : 98,66 % de précision (pour les
chiffres de 0 à 9) grâce à un algorithme de classification basé un réseau de
neurones.
Reconnaissance de caractères manuscrits
☛Typologies d’actes : premier travail de classification manuelle (à enrichir).
Difficultés rencontrées :
Respecter le texte à la lettre (« vérité terrain »)
Typologie absente (quand un acte est la « suite » d’un premier acte)
Hétérogénéité et polysémie des formes abrégées (ex. cat : contrat,
certificat…)
Typologies multiples pour un acte (ct. de mariage, contrat de
mariage, cat de mariage…)
Entraînement d’un modèle de reconnaissance de caractères manuscrits à
partir des pages d’un seul scribe transcrites manuellement jusqu’à un
niveau de qualité dit « vérité terrain » :
Modèle M1 : 40 pages
Modèle M2 : 50 pages (1 million de mots)
☛ Taux d’erreur par caractère (TEC) sur un échantillon test du même
répertoire :
Modèle M1 : 13,5 %
Modèle M2 : 10,4 %
Ce taux d’erreur reste important, mais il peut être amélioré.
☛ Le modèle M2 a été testé sur quelques pages d’autres registres et donc
d'autres mains.
Les résultats ne sont pas satisfaisants du tout (TEC autour de 40 %) : il
faut des données d’entraînement plus hétérogènes.
Un golden set et un random set d’images de répertoires (10000 doubles
pages en noir et blanc et en couleur, et près de 1000 en couleur) ont été
fournis par l’équipe AN à l’équipe INRIA et mis à disposition sur ShareDocs.
Phase 2 (eScriptorium)
☛ golden set : 41 registres (1789-1875) numérisés en noir et blanc et en
couleur, produits par 12 notaires de 4 études différentes, référence pour les
entraînements et les tests des phases 2 et 3
☛ random set : échantillonnage aléatoire de quatre campagnes de
numérisation récentes en couleur (années 1880-années 1930)
☛ Plusieurs dizaines de mains différentes
La plateforme eScriptorium, interface graphique pour Kraken, propose des
fonctionnalités de traitement d’image et de texte utiles pour la segmentation
et la transcription automatiques de documents numérisés.
☛ Fonctionnalités disponibles
Entraînement de modèles de transcription et de segmentation
Segmentation manuelle ou automatique par régions et par lignes
Transcription manuelle ou automatique avec un modèle préentraîné
Chargement d’image (PNG, JPEG, TIFF...) ; import d’images (IIIF)
Binarisation des images
Export (XML ALTO, texte)
Gestion manuelle des métadonnées
☛ Fonctionnalités à venir
Amélioration de la segmentation
Import automatique des métadonnées
Export au format XML TEI
Le jeu des 7 erreurs
de segmentation
Flux de travaux pour le découpage des doubles pages
et la détection des tableaux
Résultats de la phase 2
☛ Entraînement d’un modèle de segmentation (taux d’exactitude
d’étiquetage de pixel : de 51,2% à 59,2% ; cible : ca 70 % ?) ;
☛ Entraînement d’un modèle de transcription à partir des
données d’entraînement produites avec Transkribus lors de la
phase 1 (augmentation du TEC de 10,43 à 19,36 % en raison de
l’imprécision des segments récupérés de Transkribus vers
Kraken) ;
☛ Choix d’une interface pour le traitement des images dans
eScriptorium.
À approfondir :
☛ Découpage et redressement éventuel des doubles pages après
détection des zones des tableaux (module basé sur dhSegment
ou utilisation de l’algorithme Canny Edge Detection à l’étude) ;
☛ Structuration des analyses à partir des indices de mise en
page et de mise en forme ;
☛ Détection automatique des mains d’écriture pour adapter le
modèle de transcription ;
☛ Entraînement de modèles de transcription spécifiques à
certaines mains d’écriture ;
☛ Mise en production de l’interface de traitement des images.
Plusieurs mains de scribes par répertoire
Plus de 1800 répertoires
Un modèle à entraîner pour chaque main…
…Vers une interface collaborative adossée à eScriptorium pour entraîner puis
corriger les données de segmentation et de transcription obtenues par
automatisation.
…avec, si possible, des outils de visualisation et de traitement des données ;
…avec, si possible, des fonctionnalités de reconnaissance d’entités nommées et
de liage de ces entités à des référentiels internes ou externes aux Archives
nationales.
Phase 3 (eScriptorium)
À venir :
☛ Déploiement d’une instance eScriptorium pour LectAuRep sur une
machine virtuelle de l’Inria, couplée à son cluster pour les calculs ;
☛ Développement du module d’import des métadonnées, à partir des
fichiers XML EAD des Archives nationales, au moment de l’import des
images ;
☛ Développement d’un module de découpage des doubles pages, de
cadrage sur les tableaux avec réorientation de l’image (si nécessaire) et de
détection des colonnes (système de masques basé sur dhSegment) ;
☛ Établissement d’un banc d’essai sur les plateformes de production
participative (crowdsourcing) de projets similaires à LectAuRep ;
☛ Rédaction d’un cahier des charges pour le développement agile d’un
prototype d’interface pour le crowdsourcing.
Site de Paris
60, rue des Francs-Bourgeois
75003 Paris
Site de Pierrefitte-sur-Seine
59, rue Guynemer
93380 Pierrefitte-sur-Seine
www.archives-
nationales.culture.gouv.fr
☛ Günter Mühlberger, «Handwritten Text Recognition (HTR) of Historical Documents as a Shared Task for
Archivists, Computer Scientists and Humanities Scholars. The Model of a Transcription & Recognition
Platform (TRP) » (preprint).
☛ Günter Mühlberger, L. Seaward, M. Terras et al., « Transforming scholarship in the archives through
handwritten text recognition », Journal of Documentation, 75-5 (2019), p. 954-976.
☛ Carnet de recherche Rechtsprechung im Osteeraum. Digitization & Handwritten Text Recognition.
☛ Projet Himanis (HIstorical MANuscript Indexing for user-controlled Search) et carnet de recherche.
☛ Projet LectAuRep : Marie-Laurence Bonhomme, Répertoire des Notaires parisiens Segmentation
automatique et reconnaissance d'écriture : Rapport exploratoire, [contrat] Inria, 2018.
☛ Archives nationales, équipe ALMAnaCH, LectAuRep, atelier Culture/INRIA, 22 novembre 2018.
☛ Indexation collaborative de registres de contrats de mariage de commerçants, 1829-1934, depuis le carnet
de recherche Archives nationales participatives.
☛ Projet Filigranes pour tous : carnet de recherche.
☛ Projet Testaments de Poilus.
☛ Peter A. Stokes, Daniel Stökl Ben Ezra, Benjamin Kiessling, Robin Tissot, « EScripta: A New Digital
Platform for the Study of Historical Texts and Writing ».
☛ Initiative de recherche interdisciplinaire et stratégique Scripta-PSL.
☛ eScripta. « Digital Tools and Techniques for the Study of Ancient Writing »: carnet de recherche, galerie
de tutoriels vidéo.
☛ Tsvi Kuflik, Moshe Lavee, Daniel Stökl Ben Ezra, Avigail Ohal, Vered Raziel-Kretzmer, Uri Schor, Alan
Wecker, Elena Lolli,Pauline Signoret, « Combining HTR and Crowdsourcing for Automated Transcription of
Hebrew Medieval Manuscripts ». DH2019 - Tikkoun Sofrim.
☛ Tikkoun Sofrim (Crowdsourcing and gamification for correcting automatic manuscript transcriptions).
Merel pcnr votre affenfion : )
aurelia.rostaing@culture.gouv.fr

More Related Content

Similar to L'intelligence artificielle appliquée aux Archives : LectAuRep (Lecture automatique de répertoires).

Jabes 2011 - Patrimoine : numériser et mutualiser - "CNRS : L'institut de rec...
Jabes 2011 - Patrimoine : numériser et mutualiser - "CNRS : L'institut de rec...Jabes 2011 - Patrimoine : numériser et mutualiser - "CNRS : L'institut de rec...
Jabes 2011 - Patrimoine : numériser et mutualiser - "CNRS : L'institut de rec...ABES
 
Quelques applications pratiques de IIIF pour les bibliothèques numériques e...
Quelques applications pratiques de IIIF pour les bibliothèques numériques e...Quelques applications pratiques de IIIF pour les bibliothèques numériques e...
Quelques applications pratiques de IIIF pour les bibliothèques numériques e...Equipex Biblissima
 
Matinale "Data Science et Machine Learning"
Matinale "Data Science et Machine Learning"Matinale "Data Science et Machine Learning"
Matinale "Data Science et Machine Learning"Aline Deschamps
 
manuel-de-cours-culture-et-techniques-avancees-du-numerique-2eme-annee-31-08-...
manuel-de-cours-culture-et-techniques-avancees-du-numerique-2eme-annee-31-08-...manuel-de-cours-culture-et-techniques-avancees-du-numerique-2eme-annee-31-08-...
manuel-de-cours-culture-et-techniques-avancees-du-numerique-2eme-annee-31-08-...FootballLovers9
 
INF120 - Algo DUT SRC1 - Cours 5
INF120 - Algo DUT SRC1 - Cours 5INF120 - Algo DUT SRC1 - Cours 5
INF120 - Algo DUT SRC1 - Cours 5PGambette
 
INF120 - Algo DUT SRC1 - Cours 4 (2012)
INF120 - Algo DUT SRC1 - Cours 4 (2012)INF120 - Algo DUT SRC1 - Cours 4 (2012)
INF120 - Algo DUT SRC1 - Cours 4 (2012)PGambette
 
Richard Walter (IRHT), "Chercheurs vos papiers", 26 novembre 2009, MMSH
Richard Walter (IRHT), "Chercheurs vos papiers", 26 novembre 2009, MMSHRichard Walter (IRHT), "Chercheurs vos papiers", 26 novembre 2009, MMSH
Richard Walter (IRHT), "Chercheurs vos papiers", 26 novembre 2009, MMSHPhonothèque MMSH
 
Internet et le site de la FCGA - 1998
Internet et le site de la FCGA - 1998Internet et le site de la FCGA - 1998
Internet et le site de la FCGA - 1998Xavier LAIR
 
Jabes 2015 - Poster SCD Université Nantes : "Une suite d'outils pour l'exempl...
Jabes 2015 - Poster SCD Université Nantes : "Une suite d'outils pour l'exempl...Jabes 2015 - Poster SCD Université Nantes : "Une suite d'outils pour l'exempl...
Jabes 2015 - Poster SCD Université Nantes : "Une suite d'outils pour l'exempl...ABES
 
Calames - presentation à l'ecole des chartes
Calames - presentation à l'ecole des chartesCalames - presentation à l'ecole des chartes
Calames - presentation à l'ecole des chartesY. Nicolas
 
1 introduction informatique
1 introduction informatique1 introduction informatique
1 introduction informatiqueCEFRI-UAC
 
1 introduction informatique
1 introduction informatique1 introduction informatique
1 introduction informatiqueCEFRI-UAC
 
Manuel des TP : Atelier Web 2
Manuel des TP : Atelier Web 2Manuel des TP : Atelier Web 2
Manuel des TP : Atelier Web 2Faycel Chaoua
 
Génération automatique de texte
Génération automatique de texteGénération automatique de texte
Génération automatique de texteEstelle Delpech
 
Réalisation d'un mashup de données avec DSS de Dataiku - Première partie
Réalisation d'un mashup de données avec DSS de Dataiku - Première partieRéalisation d'un mashup de données avec DSS de Dataiku - Première partie
Réalisation d'un mashup de données avec DSS de Dataiku - Première partieGautier Poupeau
 
Détecter et nettoyer le contenu générique
Détecter et nettoyer le contenu génériqueDétecter et nettoyer le contenu générique
Détecter et nettoyer le contenu génériquebenoit chevillot
 

Similar to L'intelligence artificielle appliquée aux Archives : LectAuRep (Lecture automatique de répertoires). (20)

Les BVH & l’étude des matériels d’imprimerie anciens
 Les BVH & l’étude des matériels d’imprimerie anciens Les BVH & l’étude des matériels d’imprimerie anciens
Les BVH & l’étude des matériels d’imprimerie anciens
 
Jabes 2011 - Patrimoine : numériser et mutualiser - "CNRS : L'institut de rec...
Jabes 2011 - Patrimoine : numériser et mutualiser - "CNRS : L'institut de rec...Jabes 2011 - Patrimoine : numériser et mutualiser - "CNRS : L'institut de rec...
Jabes 2011 - Patrimoine : numériser et mutualiser - "CNRS : L'institut de rec...
 
Quelques applications pratiques de IIIF pour les bibliothèques numériques e...
Quelques applications pratiques de IIIF pour les bibliothèques numériques e...Quelques applications pratiques de IIIF pour les bibliothèques numériques e...
Quelques applications pratiques de IIIF pour les bibliothèques numériques e...
 
Matinale "Data Science et Machine Learning"
Matinale "Data Science et Machine Learning"Matinale "Data Science et Machine Learning"
Matinale "Data Science et Machine Learning"
 
ARCHIVES ET SOURCES ÉCRITES : UNE NOUVELLE CRITIQUE DOCUMENTAIRE
ARCHIVES ET SOURCES ÉCRITES : UNE NOUVELLE CRITIQUE DOCUMENTAIREARCHIVES ET SOURCES ÉCRITES : UNE NOUVELLE CRITIQUE DOCUMENTAIRE
ARCHIVES ET SOURCES ÉCRITES : UNE NOUVELLE CRITIQUE DOCUMENTAIRE
 
manuel-de-cours-culture-et-techniques-avancees-du-numerique-2eme-annee-31-08-...
manuel-de-cours-culture-et-techniques-avancees-du-numerique-2eme-annee-31-08-...manuel-de-cours-culture-et-techniques-avancees-du-numerique-2eme-annee-31-08-...
manuel-de-cours-culture-et-techniques-avancees-du-numerique-2eme-annee-31-08-...
 
INF120 - Algo DUT SRC1 - Cours 5
INF120 - Algo DUT SRC1 - Cours 5INF120 - Algo DUT SRC1 - Cours 5
INF120 - Algo DUT SRC1 - Cours 5
 
Vsst 2010 le_semiopole_26102010
Vsst 2010 le_semiopole_26102010Vsst 2010 le_semiopole_26102010
Vsst 2010 le_semiopole_26102010
 
INF120 - Algo DUT SRC1 - Cours 4 (2012)
INF120 - Algo DUT SRC1 - Cours 4 (2012)INF120 - Algo DUT SRC1 - Cours 4 (2012)
INF120 - Algo DUT SRC1 - Cours 4 (2012)
 
Richard Walter (IRHT), "Chercheurs vos papiers", 26 novembre 2009, MMSH
Richard Walter (IRHT), "Chercheurs vos papiers", 26 novembre 2009, MMSHRichard Walter (IRHT), "Chercheurs vos papiers", 26 novembre 2009, MMSH
Richard Walter (IRHT), "Chercheurs vos papiers", 26 novembre 2009, MMSH
 
Internet et le site de la FCGA - 1998
Internet et le site de la FCGA - 1998Internet et le site de la FCGA - 1998
Internet et le site de la FCGA - 1998
 
Jabes 2015 - Poster SCD Université Nantes : "Une suite d'outils pour l'exempl...
Jabes 2015 - Poster SCD Université Nantes : "Une suite d'outils pour l'exempl...Jabes 2015 - Poster SCD Université Nantes : "Une suite d'outils pour l'exempl...
Jabes 2015 - Poster SCD Université Nantes : "Une suite d'outils pour l'exempl...
 
Calames - presentation à l'ecole des chartes
Calames - presentation à l'ecole des chartesCalames - presentation à l'ecole des chartes
Calames - presentation à l'ecole des chartes
 
1 introduction informatique
1 introduction informatique1 introduction informatique
1 introduction informatique
 
1 introduction informatique
1 introduction informatique1 introduction informatique
1 introduction informatique
 
Manuel des TP : Atelier Web 2
Manuel des TP : Atelier Web 2Manuel des TP : Atelier Web 2
Manuel des TP : Atelier Web 2
 
Génération automatique de texte
Génération automatique de texteGénération automatique de texte
Génération automatique de texte
 
IIIF et Biblissima
IIIF et BiblissimaIIIF et Biblissima
IIIF et Biblissima
 
Réalisation d'un mashup de données avec DSS de Dataiku - Première partie
Réalisation d'un mashup de données avec DSS de Dataiku - Première partieRéalisation d'un mashup de données avec DSS de Dataiku - Première partie
Réalisation d'un mashup de données avec DSS de Dataiku - Première partie
 
Détecter et nettoyer le contenu générique
Détecter et nettoyer le contenu génériqueDétecter et nettoyer le contenu générique
Détecter et nettoyer le contenu générique
 

More from Aurélia Rostaing

Les Francine, une dynastie d'"ingénieurs"... fontainiers
Les Francine, une dynastie d'"ingénieurs"... fontainiersLes Francine, une dynastie d'"ingénieurs"... fontainiers
Les Francine, une dynastie d'"ingénieurs"... fontainiersAurélia Rostaing
 
La recherche dans les archives notariales des Archives nationales. Présentati...
La recherche dans les archives notariales des Archives nationales. Présentati...La recherche dans les archives notariales des Archives nationales. Présentati...
La recherche dans les archives notariales des Archives nationales. Présentati...Aurélia Rostaing
 
Biblissima_Plus_20230321_Lectaurep_GT_HTR_AI4LAM.pdf
Biblissima_Plus_20230321_Lectaurep_GT_HTR_AI4LAM.pdfBiblissima_Plus_20230321_Lectaurep_GT_HTR_AI4LAM.pdf
Biblissima_Plus_20230321_Lectaurep_GT_HTR_AI4LAM.pdfAurélia Rostaing
 
Les grottes du jardin de Rueil du XVIIe siècle à nos jours
Les grottes du jardin de Rueil du XVIIe siècle à nos joursLes grottes du jardin de Rueil du XVIIe siècle à nos jours
Les grottes du jardin de Rueil du XVIIe siècle à nos joursAurélia Rostaing
 
Le projet Lectaurep (Futurs fantastiques, BnF, 1er décembre 2021, atelier Pr...
 Le projet Lectaurep (Futurs fantastiques, BnF, 1er décembre 2021, atelier Pr... Le projet Lectaurep (Futurs fantastiques, BnF, 1er décembre 2021, atelier Pr...
Le projet Lectaurep (Futurs fantastiques, BnF, 1er décembre 2021, atelier Pr...Aurélia Rostaing
 
LectAuRep(Notary Registers Automated Reading). HTR applied to the French Nati...
LectAuRep(Notary Registers Automated Reading). HTR applied to the French Nati...LectAuRep(Notary Registers Automated Reading). HTR applied to the French Nati...
LectAuRep(Notary Registers Automated Reading). HTR applied to the French Nati...Aurélia Rostaing
 
Présentation du projet Lectaurep (Lecture automatique de répertoires de notai...
Présentation du projet Lectaurep (Lecture automatique de répertoires de notai...Présentation du projet Lectaurep (Lecture automatique de répertoires de notai...
Présentation du projet Lectaurep (Lecture automatique de répertoires de notai...Aurélia Rostaing
 
Les jardins de Fontainebleau sous Henri IV (2010)
Les jardins de Fontainebleau sous Henri IV (2010)Les jardins de Fontainebleau sous Henri IV (2010)
Les jardins de Fontainebleau sous Henri IV (2010)Aurélia Rostaing
 
Méthodologie de recherche dans les archives notariales des Archives nationales
Méthodologie de recherche dans les archives notariales des Archives nationalesMéthodologie de recherche dans les archives notariales des Archives nationales
Méthodologie de recherche dans les archives notariales des Archives nationalesAurélia Rostaing
 
Les archives notariales aux Archives nationales
Les archives notariales aux Archives nationalesLes archives notariales aux Archives nationales
Les archives notariales aux Archives nationalesAurélia Rostaing
 
Réalité topographique des plans généraux de Paris de l’époque moderne : quels...
Réalité topographique des plans généraux de Paris de l’époque moderne : quels...Réalité topographique des plans généraux de Paris de l’époque moderne : quels...
Réalité topographique des plans généraux de Paris de l’époque moderne : quels...Aurélia Rostaing
 
Les Francini côté jardin (2014).
Les Francini côté jardin (2014).Les Francini côté jardin (2014).
Les Francini côté jardin (2014).Aurélia Rostaing
 
Autour des jeux sérieux (serious games). La terminologie française des jeux v...
Autour des jeux sérieux (serious games). La terminologie française des jeux v...Autour des jeux sérieux (serious games). La terminologie française des jeux v...
Autour des jeux sérieux (serious games). La terminologie française des jeux v...Aurélia Rostaing
 

More from Aurélia Rostaing (13)

Les Francine, une dynastie d'"ingénieurs"... fontainiers
Les Francine, une dynastie d'"ingénieurs"... fontainiersLes Francine, une dynastie d'"ingénieurs"... fontainiers
Les Francine, une dynastie d'"ingénieurs"... fontainiers
 
La recherche dans les archives notariales des Archives nationales. Présentati...
La recherche dans les archives notariales des Archives nationales. Présentati...La recherche dans les archives notariales des Archives nationales. Présentati...
La recherche dans les archives notariales des Archives nationales. Présentati...
 
Biblissima_Plus_20230321_Lectaurep_GT_HTR_AI4LAM.pdf
Biblissima_Plus_20230321_Lectaurep_GT_HTR_AI4LAM.pdfBiblissima_Plus_20230321_Lectaurep_GT_HTR_AI4LAM.pdf
Biblissima_Plus_20230321_Lectaurep_GT_HTR_AI4LAM.pdf
 
Les grottes du jardin de Rueil du XVIIe siècle à nos jours
Les grottes du jardin de Rueil du XVIIe siècle à nos joursLes grottes du jardin de Rueil du XVIIe siècle à nos jours
Les grottes du jardin de Rueil du XVIIe siècle à nos jours
 
Le projet Lectaurep (Futurs fantastiques, BnF, 1er décembre 2021, atelier Pr...
 Le projet Lectaurep (Futurs fantastiques, BnF, 1er décembre 2021, atelier Pr... Le projet Lectaurep (Futurs fantastiques, BnF, 1er décembre 2021, atelier Pr...
Le projet Lectaurep (Futurs fantastiques, BnF, 1er décembre 2021, atelier Pr...
 
LectAuRep(Notary Registers Automated Reading). HTR applied to the French Nati...
LectAuRep(Notary Registers Automated Reading). HTR applied to the French Nati...LectAuRep(Notary Registers Automated Reading). HTR applied to the French Nati...
LectAuRep(Notary Registers Automated Reading). HTR applied to the French Nati...
 
Présentation du projet Lectaurep (Lecture automatique de répertoires de notai...
Présentation du projet Lectaurep (Lecture automatique de répertoires de notai...Présentation du projet Lectaurep (Lecture automatique de répertoires de notai...
Présentation du projet Lectaurep (Lecture automatique de répertoires de notai...
 
Les jardins de Fontainebleau sous Henri IV (2010)
Les jardins de Fontainebleau sous Henri IV (2010)Les jardins de Fontainebleau sous Henri IV (2010)
Les jardins de Fontainebleau sous Henri IV (2010)
 
Méthodologie de recherche dans les archives notariales des Archives nationales
Méthodologie de recherche dans les archives notariales des Archives nationalesMéthodologie de recherche dans les archives notariales des Archives nationales
Méthodologie de recherche dans les archives notariales des Archives nationales
 
Les archives notariales aux Archives nationales
Les archives notariales aux Archives nationalesLes archives notariales aux Archives nationales
Les archives notariales aux Archives nationales
 
Réalité topographique des plans généraux de Paris de l’époque moderne : quels...
Réalité topographique des plans généraux de Paris de l’époque moderne : quels...Réalité topographique des plans généraux de Paris de l’époque moderne : quels...
Réalité topographique des plans généraux de Paris de l’époque moderne : quels...
 
Les Francini côté jardin (2014).
Les Francini côté jardin (2014).Les Francini côté jardin (2014).
Les Francini côté jardin (2014).
 
Autour des jeux sérieux (serious games). La terminologie française des jeux v...
Autour des jeux sérieux (serious games). La terminologie française des jeux v...Autour des jeux sérieux (serious games). La terminologie française des jeux v...
Autour des jeux sérieux (serious games). La terminologie française des jeux v...
 

L'intelligence artificielle appliquée aux Archives : LectAuRep (Lecture automatique de répertoires).

  • 1. L’intelligence artificielle appliquée aux archives LectAuRep (Lecture automatique de répertoires) Le projet des Archives nationales avec l’Institut national de recherche en informatique et automatique La reconnaissance optique des écritures manuscrites appliquée aux répertoires des notaires Archives nationales Site de Pierrefitte-Saint-Denis 26 novembre 2019 Master of Advanced Studies in Archival, Library and Information Science (MAS ALIS)
  • 2. I. Ambitions 1. Corpus 2. Enjeux II. Contexte institutionnel 1. Cadre juridique 2. Equipes 3. Phasage III. Sur le terrain 1. Phase 1 – 2018 (Transkribus) 2. Phase 2 – 2019 (eScriptorium) 3. Phase 3 – 2020 (eScriptorium) Le projet LectAuRep Lecture automatique de répertoires
  • 3. I. Ambitions 1. Corpus 2. Enjeux Le projet LectAuRep Lecture automatique de répertoires
  • 4. Corpus Les répertoires de notaires de Paris (1803-années 1940)
  • 6. Ca. 1800 / 2000 registres de répertoires laissés par le notariat parisien entre 1803 et 1944. Plusieurs centaines de répertoires en ligne (300 à 500 pages chacun). Plus de 900 notaires différents. Plusieurs milliers de mains de scribes différents. Quelques dizaines de répertoires numérisés depuis 2013, directement d’après les originaux (pas d’après microfilms : sans nuances de gris).
  • 7. Enjeux ☛ pour le public des archives ☛ pour le réseau des services publics d’archives et les institutions patrimoniales (bibliothèques, musées…) Library of Congress, Rosenwald 4, fol. 5r
  • 8. II. Contexte institutionnel 1. Cadre juridique 2. Equipes 3. Phasage Le projet LectAuRep Lecture automatique de répertoires
  • 9. Cadre juridique La convention MIC/DIN - Inria Convention-cadre signée le 12 décembre 2016 projet « préliminaire » : premier semestre 2018 (15000 €) projet « approfondi » : second semestre 2019 (65000 €) projet « approfondi » : année 2020 (65000 €)
  • 10. Ministère de la Culture, département de l’innovation numérique : – Bertrand Sajus Inria, équipe ALMAnaCH : – Marie-Laurence Bonhomme (stagiaire TNAH de l’Ecole nationale des chartes, phase 1) – Marc Bui (EPHE, projet eScripta) – Alix Chagué (diplômée TNAH de l’Ecole nationale des chartes, ingénieure recherche et développement à Inria, phase 2) – Hassane Gargem (projet eScripta, fin de la phase 2) – Benjamin Kiessling (projet eScripta) – Eric de La Clergerie (Inria) – Marie Puren (diplômée TNAH de l’Ecole nationale des chartes, ingénieure recherche et développement à Inria, phase 1) – Charles Riondet (diplômé TNAH de l’Ecole nationale des chartes, ingénieure recherche et développement à Inria, phase 1) – Laurent Romary, coordonnateur du projet pour l’INRIA – Daniel Stökl Ben Ezra (EPHE, projet eScripta) – Lionel Tadjou (contractuel Inria, phase 2) – Robin Tissot (phase 2, projet eScripta) Archives nationales : – Virginie Grégoire, Danis Habib, Marie-Françoise Limon-Bonnet, Aurélia Rostaing (DMC) – Gaetano Piraino (diplômé TNAH de l’Ecole nationale des chartes), Frédéric Zamarreno (DMOASI) Équipes
  • 11. Phasage Phase 1 – 2018 Étude de faisabilité et état de l’art ; plateforme Transkribus. Phase 2 – 2019 Explorer les possibilités de segmentation automatique et de reconnaissance d’écriture manuscrite des répertoires de notaires des XIXe et XXe siècles. Nouveau projet : eScripta (IRIS Scripta-PSL : histoire et pratiques de l’écrit). Nouvelle plateforme : eScriptorium (Kraken), calibrée pour des écritures en alphabets latins et non latins, non alphabétiques, allant de droite à gauche, de haut en bas… Nouvel outil : ShareDocs (très grande infrastructure de recherche Huma-Num).
  • 12. III. Sur le terrain 1. Phase 1 – 2018 (Transkribus) 2. Phase 2 – 2019 (eScriptorium) 3. Phase 3 – 2020 (eScriptorium) Le projet LectAuRep Lecture automatique de répertoires
  • 13. Phase 1 (Transkribus) Analyse de la mise en page Marges : vides (sauf exceptions) Numéro de l’acte : nombre entre 1 et 3000 Date de l’acte (jour) : nombre entre 1 et 31 Typologie de l’acte : chaîne de caractères - vocabulaire semi-contrôlé Date de l’acte (année et mois) : écritures mixtes (imprimées et manuscrites) Description de l’acte : nom et adresse des signataires, prix de vente d’un bien, date d’un décès, etc. Date d’enregistrement (jour) : nombre entre 1 et 31 Taxes acquittées : chiffres, chaînes de caractères (gratis, dito, etc.)
  • 14. Traitements 1. Classification par reconnaissance de formes Colonnes de chiffres ou de nombres - Dates - Numéros d’actes - Taxes Colonnes de texte « simple » des types d’actes 2. Reconnaissance de caractères manuscrits : obtention de données d'entraînement pour construire un modèle de reconnaissance Segmentation puis transcription collectives internes d’une cinquantaine de pages d’un répertoire avec Transkribus (import des images numérisées, segmentation, transcription cellule par cellule)
  • 15.
  • 16.
  • 17. Résultats de la phase 1 Classification par reconnaissance de formes ☛ Chiffres (notamment numéros de jour) : 98,66 % de précision (pour les chiffres de 0 à 9) grâce à un algorithme de classification basé un réseau de neurones. Reconnaissance de caractères manuscrits ☛Typologies d’actes : premier travail de classification manuelle (à enrichir). Difficultés rencontrées : Respecter le texte à la lettre (« vérité terrain ») Typologie absente (quand un acte est la « suite » d’un premier acte) Hétérogénéité et polysémie des formes abrégées (ex. cat : contrat, certificat…) Typologies multiples pour un acte (ct. de mariage, contrat de mariage, cat de mariage…)
  • 18. Entraînement d’un modèle de reconnaissance de caractères manuscrits à partir des pages d’un seul scribe transcrites manuellement jusqu’à un niveau de qualité dit « vérité terrain » : Modèle M1 : 40 pages Modèle M2 : 50 pages (1 million de mots) ☛ Taux d’erreur par caractère (TEC) sur un échantillon test du même répertoire : Modèle M1 : 13,5 % Modèle M2 : 10,4 % Ce taux d’erreur reste important, mais il peut être amélioré. ☛ Le modèle M2 a été testé sur quelques pages d’autres registres et donc d'autres mains. Les résultats ne sont pas satisfaisants du tout (TEC autour de 40 %) : il faut des données d’entraînement plus hétérogènes.
  • 19. Un golden set et un random set d’images de répertoires (10000 doubles pages en noir et blanc et en couleur, et près de 1000 en couleur) ont été fournis par l’équipe AN à l’équipe INRIA et mis à disposition sur ShareDocs. Phase 2 (eScriptorium)
  • 20. ☛ golden set : 41 registres (1789-1875) numérisés en noir et blanc et en couleur, produits par 12 notaires de 4 études différentes, référence pour les entraînements et les tests des phases 2 et 3 ☛ random set : échantillonnage aléatoire de quatre campagnes de numérisation récentes en couleur (années 1880-années 1930) ☛ Plusieurs dizaines de mains différentes
  • 21. La plateforme eScriptorium, interface graphique pour Kraken, propose des fonctionnalités de traitement d’image et de texte utiles pour la segmentation et la transcription automatiques de documents numérisés. ☛ Fonctionnalités disponibles Entraînement de modèles de transcription et de segmentation Segmentation manuelle ou automatique par régions et par lignes Transcription manuelle ou automatique avec un modèle préentraîné Chargement d’image (PNG, JPEG, TIFF...) ; import d’images (IIIF) Binarisation des images Export (XML ALTO, texte) Gestion manuelle des métadonnées ☛ Fonctionnalités à venir Amélioration de la segmentation Import automatique des métadonnées Export au format XML TEI
  • 22.
  • 23.
  • 24. Le jeu des 7 erreurs de segmentation
  • 25. Flux de travaux pour le découpage des doubles pages et la détection des tableaux
  • 26. Résultats de la phase 2 ☛ Entraînement d’un modèle de segmentation (taux d’exactitude d’étiquetage de pixel : de 51,2% à 59,2% ; cible : ca 70 % ?) ; ☛ Entraînement d’un modèle de transcription à partir des données d’entraînement produites avec Transkribus lors de la phase 1 (augmentation du TEC de 10,43 à 19,36 % en raison de l’imprécision des segments récupérés de Transkribus vers Kraken) ; ☛ Choix d’une interface pour le traitement des images dans eScriptorium.
  • 27. À approfondir : ☛ Découpage et redressement éventuel des doubles pages après détection des zones des tableaux (module basé sur dhSegment ou utilisation de l’algorithme Canny Edge Detection à l’étude) ; ☛ Structuration des analyses à partir des indices de mise en page et de mise en forme ; ☛ Détection automatique des mains d’écriture pour adapter le modèle de transcription ; ☛ Entraînement de modèles de transcription spécifiques à certaines mains d’écriture ; ☛ Mise en production de l’interface de traitement des images.
  • 28. Plusieurs mains de scribes par répertoire Plus de 1800 répertoires Un modèle à entraîner pour chaque main… …Vers une interface collaborative adossée à eScriptorium pour entraîner puis corriger les données de segmentation et de transcription obtenues par automatisation. …avec, si possible, des outils de visualisation et de traitement des données ; …avec, si possible, des fonctionnalités de reconnaissance d’entités nommées et de liage de ces entités à des référentiels internes ou externes aux Archives nationales. Phase 3 (eScriptorium)
  • 29. À venir : ☛ Déploiement d’une instance eScriptorium pour LectAuRep sur une machine virtuelle de l’Inria, couplée à son cluster pour les calculs ; ☛ Développement du module d’import des métadonnées, à partir des fichiers XML EAD des Archives nationales, au moment de l’import des images ; ☛ Développement d’un module de découpage des doubles pages, de cadrage sur les tableaux avec réorientation de l’image (si nécessaire) et de détection des colonnes (système de masques basé sur dhSegment) ; ☛ Établissement d’un banc d’essai sur les plateformes de production participative (crowdsourcing) de projets similaires à LectAuRep ; ☛ Rédaction d’un cahier des charges pour le développement agile d’un prototype d’interface pour le crowdsourcing.
  • 30. Site de Paris 60, rue des Francs-Bourgeois 75003 Paris Site de Pierrefitte-sur-Seine 59, rue Guynemer 93380 Pierrefitte-sur-Seine www.archives- nationales.culture.gouv.fr ☛ Günter Mühlberger, «Handwritten Text Recognition (HTR) of Historical Documents as a Shared Task for Archivists, Computer Scientists and Humanities Scholars. The Model of a Transcription & Recognition Platform (TRP) » (preprint). ☛ Günter Mühlberger, L. Seaward, M. Terras et al., « Transforming scholarship in the archives through handwritten text recognition », Journal of Documentation, 75-5 (2019), p. 954-976. ☛ Carnet de recherche Rechtsprechung im Osteeraum. Digitization & Handwritten Text Recognition. ☛ Projet Himanis (HIstorical MANuscript Indexing for user-controlled Search) et carnet de recherche. ☛ Projet LectAuRep : Marie-Laurence Bonhomme, Répertoire des Notaires parisiens Segmentation automatique et reconnaissance d'écriture : Rapport exploratoire, [contrat] Inria, 2018. ☛ Archives nationales, équipe ALMAnaCH, LectAuRep, atelier Culture/INRIA, 22 novembre 2018. ☛ Indexation collaborative de registres de contrats de mariage de commerçants, 1829-1934, depuis le carnet de recherche Archives nationales participatives. ☛ Projet Filigranes pour tous : carnet de recherche. ☛ Projet Testaments de Poilus. ☛ Peter A. Stokes, Daniel Stökl Ben Ezra, Benjamin Kiessling, Robin Tissot, « EScripta: A New Digital Platform for the Study of Historical Texts and Writing ». ☛ Initiative de recherche interdisciplinaire et stratégique Scripta-PSL. ☛ eScripta. « Digital Tools and Techniques for the Study of Ancient Writing »: carnet de recherche, galerie de tutoriels vidéo. ☛ Tsvi Kuflik, Moshe Lavee, Daniel Stökl Ben Ezra, Avigail Ohal, Vered Raziel-Kretzmer, Uri Schor, Alan Wecker, Elena Lolli,Pauline Signoret, « Combining HTR and Crowdsourcing for Automated Transcription of Hebrew Medieval Manuscripts ». DH2019 - Tikkoun Sofrim. ☛ Tikkoun Sofrim (Crowdsourcing and gamification for correcting automatic manuscript transcriptions).
  • 31. Merel pcnr votre affenfion : ) aurelia.rostaing@culture.gouv.fr