Présentation du projet LectAuRep (Lecture automatique de répertoires) des Archives nationales aux étudiants du MAS ALIS (Master of Advanced Studies in Archival, Library and Information Science), 26 novembre 2019.
Autour des jeux sérieux (serious games). La terminologie française des jeux v...
L'intelligence artificielle appliquée aux Archives : LectAuRep (Lecture automatique de répertoires).
1. L’intelligence artificielle appliquée aux archives
LectAuRep (Lecture automatique de répertoires)
Le projet des Archives nationales
avec l’Institut national de recherche en informatique et automatique
La reconnaissance optique des écritures manuscrites appliquée aux répertoires des notaires
Archives nationales
Site de Pierrefitte-Saint-Denis
26 novembre 2019
Master of Advanced Studies in Archival,
Library and Information Science
(MAS ALIS)
2. I. Ambitions
1. Corpus
2. Enjeux
II. Contexte institutionnel
1. Cadre juridique
2. Equipes
3. Phasage
III. Sur le terrain
1. Phase 1 – 2018 (Transkribus)
2. Phase 2 – 2019 (eScriptorium)
3. Phase 3 – 2020 (eScriptorium)
Le projet LectAuRep
Lecture automatique de répertoires
6. Ca. 1800 / 2000 registres de répertoires laissés par le notariat parisien entre
1803 et 1944.
Plusieurs centaines de répertoires en ligne (300 à 500 pages chacun).
Plus de 900 notaires différents.
Plusieurs milliers de mains de scribes différents.
Quelques dizaines de répertoires numérisés depuis 2013, directement
d’après les originaux (pas d’après microfilms : sans nuances de gris).
7. Enjeux
☛ pour le public des archives
☛ pour le réseau des services publics
d’archives et les institutions patrimoniales
(bibliothèques, musées…)
Library of Congress, Rosenwald 4, fol. 5r
8. II. Contexte institutionnel
1. Cadre juridique
2. Equipes
3. Phasage
Le projet LectAuRep
Lecture automatique de répertoires
9. Cadre juridique
La convention MIC/DIN - Inria
Convention-cadre signée le 12 décembre 2016
projet « préliminaire » : premier semestre 2018 (15000 €)
projet « approfondi » : second semestre 2019 (65000 €)
projet « approfondi » : année 2020 (65000 €)
10. Ministère de la Culture, département de l’innovation numérique :
– Bertrand Sajus
Inria, équipe ALMAnaCH :
– Marie-Laurence Bonhomme (stagiaire TNAH de l’Ecole nationale des chartes, phase 1)
– Marc Bui (EPHE, projet eScripta)
– Alix Chagué (diplômée TNAH de l’Ecole nationale des chartes, ingénieure recherche et développement à Inria,
phase 2)
– Hassane Gargem (projet eScripta, fin de la phase 2)
– Benjamin Kiessling (projet eScripta)
– Eric de La Clergerie (Inria)
– Marie Puren (diplômée TNAH de l’Ecole nationale des chartes, ingénieure recherche et développement à Inria,
phase 1)
– Charles Riondet (diplômé TNAH de l’Ecole nationale des chartes, ingénieure recherche et développement à
Inria, phase 1)
– Laurent Romary, coordonnateur du projet pour l’INRIA
– Daniel Stökl Ben Ezra (EPHE, projet eScripta)
– Lionel Tadjou (contractuel Inria, phase 2)
– Robin Tissot (phase 2, projet eScripta)
Archives nationales :
– Virginie Grégoire, Danis Habib, Marie-Françoise Limon-Bonnet, Aurélia Rostaing (DMC)
– Gaetano Piraino (diplômé TNAH de l’Ecole nationale des chartes), Frédéric Zamarreno (DMOASI)
Équipes
11. Phasage
Phase 1 – 2018
Étude de faisabilité et état de l’art ; plateforme Transkribus.
Phase 2 – 2019
Explorer les possibilités de segmentation automatique et de reconnaissance
d’écriture manuscrite des répertoires de notaires des XIXe et XXe siècles.
Nouveau projet : eScripta (IRIS Scripta-PSL : histoire et pratiques de l’écrit).
Nouvelle plateforme : eScriptorium (Kraken), calibrée pour des écritures en
alphabets latins et non latins, non alphabétiques, allant de droite à gauche, de
haut en bas…
Nouvel outil : ShareDocs (très grande infrastructure de recherche Huma-Num).
12. III. Sur le terrain
1. Phase 1 – 2018 (Transkribus)
2. Phase 2 – 2019 (eScriptorium)
3. Phase 3 – 2020 (eScriptorium)
Le projet LectAuRep
Lecture automatique de répertoires
13. Phase 1 (Transkribus)
Analyse de la mise en page
Marges : vides (sauf exceptions)
Numéro de l’acte : nombre entre 1 et 3000
Date de l’acte (jour) : nombre entre 1 et 31
Typologie de l’acte : chaîne de caractères - vocabulaire semi-contrôlé
Date de l’acte (année et mois) : écritures mixtes (imprimées et manuscrites)
Description de l’acte : nom et adresse des signataires, prix de vente d’un bien,
date d’un décès, etc.
Date d’enregistrement (jour) : nombre entre 1 et 31
Taxes acquittées : chiffres, chaînes de caractères (gratis, dito, etc.)
14. Traitements
1. Classification par reconnaissance de formes
Colonnes de chiffres ou de nombres
- Dates
- Numéros d’actes
- Taxes
Colonnes de texte « simple » des types d’actes
2. Reconnaissance de caractères manuscrits : obtention de données
d'entraînement pour construire un modèle de reconnaissance
Segmentation puis transcription collectives internes d’une
cinquantaine de pages d’un répertoire avec Transkribus (import des
images numérisées, segmentation, transcription cellule par cellule)
15.
16.
17. Résultats de la phase 1
Classification par reconnaissance de formes
☛ Chiffres (notamment numéros de jour) : 98,66 % de précision (pour les
chiffres de 0 à 9) grâce à un algorithme de classification basé un réseau de
neurones.
Reconnaissance de caractères manuscrits
☛Typologies d’actes : premier travail de classification manuelle (à enrichir).
Difficultés rencontrées :
Respecter le texte à la lettre (« vérité terrain »)
Typologie absente (quand un acte est la « suite » d’un premier acte)
Hétérogénéité et polysémie des formes abrégées (ex. cat : contrat,
certificat…)
Typologies multiples pour un acte (ct. de mariage, contrat de
mariage, cat de mariage…)
18. Entraînement d’un modèle de reconnaissance de caractères manuscrits à
partir des pages d’un seul scribe transcrites manuellement jusqu’à un
niveau de qualité dit « vérité terrain » :
Modèle M1 : 40 pages
Modèle M2 : 50 pages (1 million de mots)
☛ Taux d’erreur par caractère (TEC) sur un échantillon test du même
répertoire :
Modèle M1 : 13,5 %
Modèle M2 : 10,4 %
Ce taux d’erreur reste important, mais il peut être amélioré.
☛ Le modèle M2 a été testé sur quelques pages d’autres registres et donc
d'autres mains.
Les résultats ne sont pas satisfaisants du tout (TEC autour de 40 %) : il
faut des données d’entraînement plus hétérogènes.
19. Un golden set et un random set d’images de répertoires (10000 doubles
pages en noir et blanc et en couleur, et près de 1000 en couleur) ont été
fournis par l’équipe AN à l’équipe INRIA et mis à disposition sur ShareDocs.
Phase 2 (eScriptorium)
20. ☛ golden set : 41 registres (1789-1875) numérisés en noir et blanc et en
couleur, produits par 12 notaires de 4 études différentes, référence pour les
entraînements et les tests des phases 2 et 3
☛ random set : échantillonnage aléatoire de quatre campagnes de
numérisation récentes en couleur (années 1880-années 1930)
☛ Plusieurs dizaines de mains différentes
21. La plateforme eScriptorium, interface graphique pour Kraken, propose des
fonctionnalités de traitement d’image et de texte utiles pour la segmentation
et la transcription automatiques de documents numérisés.
☛ Fonctionnalités disponibles
Entraînement de modèles de transcription et de segmentation
Segmentation manuelle ou automatique par régions et par lignes
Transcription manuelle ou automatique avec un modèle préentraîné
Chargement d’image (PNG, JPEG, TIFF...) ; import d’images (IIIF)
Binarisation des images
Export (XML ALTO, texte)
Gestion manuelle des métadonnées
☛ Fonctionnalités à venir
Amélioration de la segmentation
Import automatique des métadonnées
Export au format XML TEI
25. Flux de travaux pour le découpage des doubles pages
et la détection des tableaux
26. Résultats de la phase 2
☛ Entraînement d’un modèle de segmentation (taux d’exactitude
d’étiquetage de pixel : de 51,2% à 59,2% ; cible : ca 70 % ?) ;
☛ Entraînement d’un modèle de transcription à partir des
données d’entraînement produites avec Transkribus lors de la
phase 1 (augmentation du TEC de 10,43 à 19,36 % en raison de
l’imprécision des segments récupérés de Transkribus vers
Kraken) ;
☛ Choix d’une interface pour le traitement des images dans
eScriptorium.
27. À approfondir :
☛ Découpage et redressement éventuel des doubles pages après
détection des zones des tableaux (module basé sur dhSegment
ou utilisation de l’algorithme Canny Edge Detection à l’étude) ;
☛ Structuration des analyses à partir des indices de mise en
page et de mise en forme ;
☛ Détection automatique des mains d’écriture pour adapter le
modèle de transcription ;
☛ Entraînement de modèles de transcription spécifiques à
certaines mains d’écriture ;
☛ Mise en production de l’interface de traitement des images.
28. Plusieurs mains de scribes par répertoire
Plus de 1800 répertoires
Un modèle à entraîner pour chaque main…
…Vers une interface collaborative adossée à eScriptorium pour entraîner puis
corriger les données de segmentation et de transcription obtenues par
automatisation.
…avec, si possible, des outils de visualisation et de traitement des données ;
…avec, si possible, des fonctionnalités de reconnaissance d’entités nommées et
de liage de ces entités à des référentiels internes ou externes aux Archives
nationales.
Phase 3 (eScriptorium)
29. À venir :
☛ Déploiement d’une instance eScriptorium pour LectAuRep sur une
machine virtuelle de l’Inria, couplée à son cluster pour les calculs ;
☛ Développement du module d’import des métadonnées, à partir des
fichiers XML EAD des Archives nationales, au moment de l’import des
images ;
☛ Développement d’un module de découpage des doubles pages, de
cadrage sur les tableaux avec réorientation de l’image (si nécessaire) et de
détection des colonnes (système de masques basé sur dhSegment) ;
☛ Établissement d’un banc d’essai sur les plateformes de production
participative (crowdsourcing) de projets similaires à LectAuRep ;
☛ Rédaction d’un cahier des charges pour le développement agile d’un
prototype d’interface pour le crowdsourcing.
30. Site de Paris
60, rue des Francs-Bourgeois
75003 Paris
Site de Pierrefitte-sur-Seine
59, rue Guynemer
93380 Pierrefitte-sur-Seine
www.archives-
nationales.culture.gouv.fr
☛ Günter Mühlberger, «Handwritten Text Recognition (HTR) of Historical Documents as a Shared Task for
Archivists, Computer Scientists and Humanities Scholars. The Model of a Transcription & Recognition
Platform (TRP) » (preprint).
☛ Günter Mühlberger, L. Seaward, M. Terras et al., « Transforming scholarship in the archives through
handwritten text recognition », Journal of Documentation, 75-5 (2019), p. 954-976.
☛ Carnet de recherche Rechtsprechung im Osteeraum. Digitization & Handwritten Text Recognition.
☛ Projet Himanis (HIstorical MANuscript Indexing for user-controlled Search) et carnet de recherche.
☛ Projet LectAuRep : Marie-Laurence Bonhomme, Répertoire des Notaires parisiens Segmentation
automatique et reconnaissance d'écriture : Rapport exploratoire, [contrat] Inria, 2018.
☛ Archives nationales, équipe ALMAnaCH, LectAuRep, atelier Culture/INRIA, 22 novembre 2018.
☛ Indexation collaborative de registres de contrats de mariage de commerçants, 1829-1934, depuis le carnet
de recherche Archives nationales participatives.
☛ Projet Filigranes pour tous : carnet de recherche.
☛ Projet Testaments de Poilus.
☛ Peter A. Stokes, Daniel Stökl Ben Ezra, Benjamin Kiessling, Robin Tissot, « EScripta: A New Digital
Platform for the Study of Historical Texts and Writing ».
☛ Initiative de recherche interdisciplinaire et stratégique Scripta-PSL.
☛ eScripta. « Digital Tools and Techniques for the Study of Ancient Writing »: carnet de recherche, galerie
de tutoriels vidéo.
☛ Tsvi Kuflik, Moshe Lavee, Daniel Stökl Ben Ezra, Avigail Ohal, Vered Raziel-Kretzmer, Uri Schor, Alan
Wecker, Elena Lolli,Pauline Signoret, « Combining HTR and Crowdsourcing for Automated Transcription of
Hebrew Medieval Manuscripts ». DH2019 - Tikkoun Sofrim.
☛ Tikkoun Sofrim (Crowdsourcing and gamification for correcting automatic manuscript transcriptions).