2. Objectifs de l’atelier
★ Présenter la TEI et quelques notions technique indispensables
★ Montrer que le balisage est une activité intellectuelle et analytique
★ Pratiquer l’encodage en deux étapes :
○ Encodage d’un court texte
○ Encodage d’un apparat critique à partir de votre “cahier de collation”
★ Utiliser des outils de visualisation du résultat de l’encodage et de relecture
○ Simple feuille de style CSS personnalisable selon des objectifs de relecture
○ Critical edition toolbox : pour faciliter le contrôle des encodages complexes
○ Modèle d’édition critique DIPLE (Ec. Nat. des Chartes)
○ Versioning Machine pour la visualisation parallèle de plusieurs témoins
4. La TEI c’est tout à la fois...
★ Un cadre d’encodage gratuit et libre
○ un cadre conceptuel pour la représentation des textes
○ une architecture informatique modulaire et évolutive
○ des “Guidelines” = documentation utilisateur des recommandations d’encodage
○ un modèle de document
★ Un écosystème
○ des outils très nombreux et variés
○ un consortium international
○ une communauté d’utilisateurs actifs
★ Plus qu’un “format standard”
○ un mécanisme pour produire des schémas de contrôle et de validation personnalisés
○ un mécanisme permettant de rendre explicite des lectures/interprétations d’un texte
○ un format permettant à l’archivage à long terme des données numériques
5. Mais ce n’est pas...
★ Le seul standard dans le domaine de la représentation des textes
★ Un cadre contraingnant ( = “explique-moi ce que tu fais” et pas “fais ainsi”)
★ Non-interprétatif ou “objectif”
★ Utilisé de manière uniforme (même au sein d’un même projet)
★ Un standard stable et non-évolutif
★ Une finalité en soi
★ Un format de publication automatique
★ L’assurance de la préservation à long très terme...
cf. James Cummings, “What is the TEI? And why should I care? “ (27/01/2015) <https://prezi.com/jcvxvvzecc1y/what-is-
the-tei-and-why-should-i-care-a-brief-introduction-for-classicists/>
11. XML en (très) bref
1. XML ne sert pas à afficher les données mais à les décrire. Il ne fait rien.
Appliqué à la représentation des textes, il permet de décrire notamment leur structure (livre,
section, chapitre, paragraphe, phrase, mot…)
2. Les balises ne sont pas prédéfinies
On peut librement créer ses propres balises (en fonction de la structure logique qu’on choisit de
représenter par exemple)
3. On peut l’utiliser avec une “grammaire” de balises (DTD ou Schéma)
Pour donner de la rigueur et encoder avec un langage commun entre projets
4. XML est auto-descriptif et assez facilement lisible
On peut prendre connaissance de la structure d’un corpus assez rapidement en ouvrant
simplement le fichier avec n’importe quel éditeur de texte
12. Principe du balisage descriptif 1
★ Délimitation de segments de texte de toutes tailles
+
★ Explicitation de leur nature ou fonction
<baliseX>Contenu textuel</baliseX>
Balise
ouvrante
Balise
fermante
Segment
balisé
13. Principe du balisage descriptif 2
★ Les attributs précisent le sens des balises
<handNote xml:id="EP" medium="red-ink">
Ezra Pound's annotations.
</handNote>
Valeur de
l’attribut
Attribut
14. Principe du balisage descriptif 3
★ Le balisage descriptif = décrit les données sans indication de traitement
★ Le principe est celui de la séparation du contenu et de la présentation.
★ Comparez :
○ <author>Louise Labé</author>
○ <span class=”small-caps”>Louise Labé</span>
★ Le but est de décrire la fonction plus que l’apparence du rendu final :
○ c’est cela qui offre la flexibilité maximale permettant des chaînes
éditoriales “multi-support” : le rendu est traité à une étape ultérieure, et
peut être adapté à chaque support, au contexte de réception ou
dispositif de lecture...
16. Une source unique, des usages multiples
★ Un texte explicité et enrichi au moyen d’un métalangage simple, clair,
universel, permettant de baliser n’importe quel type de texte
★ Une source “matrice”, à partir de laquelle on peut produire des versions
différentes (vue normalisée vs vue diplomatique ; version pour le web, pour
les liseuses, version “grand public, version savante)
★ Un fichier lisible par les humains (contrairement aux fichiers binaires)
★ Un fichier utilisable pour des recherches fines, des extractions ciblées, des
analyses automatiques...
★ Un format libre, facilitant l’intéropérabilité
19. Quelques principes à retenir
★ Texte vs Document
○ Le texte est une abstraction que l’on construit et que l’on peut encoder
○ Un document est un objet que l’on peut numériser
★ XML considère le texte comme un système de
hiérarchies ordonnées d’objets de contenus
(les balises doivent être strictement imbriquées)
★ L’encodage consiste à représenter l’information dans des structures
arborescentes, en codant ces structures de manière compréhensible à un
ordinateur.
23. Quoi encoder ? 4 dimensions principales
★ L’apparence physique et visuelle
○ représentation mimétique +/- transférable d’un support à un autre
★ La dimension linguistique et structurelle
○ qu’un lecteur humain peut décoder puis la transcrire ou la traduire
★ La dimension sémantique
○ que l’on peut comprendre (ou pas !) et annoter
★ Le contexte de production ou de réception
○ que l’on peut décrire par le biais de métadonnées
24. Analyse préalable
★ Il s’agit d’identifier :
○ les éléments structurants et les caractéristiques principales du doc.
○ identifier les caractéristique liées aux centres d’intérêt de l’éditeur
★ Les deux peuvent venir de :
○ “pseudo-balisage” : déjà présents dans le document
○ explicitations issues du savoir externe de l’analyste
★ Au final, il s’agira toujours d’expliciter ce qui paraît important et les raisons
de ses choix d’une manière la plus formalisée possible
25. Processus
★ Analyse du document = quoi encoder ? = analyse et qualifiation des fonctions
des objets d’intérêt
★ Choix des balises / création d’un schéma personnalisé (à l’aide ou non du
fichier de spécification ODD (One Document Does it all)
★ Balisage par approfondissements successifs
★ Présenter le document : via des “feuilles de style” CSS ou XSLT
○ CSS : simple, attribution de caractéristiques visuelles aux balises
○ XSL : plus complexe, permet de transformer le document XML
★ Exploiter le document : langages de requête XPath et XQuery...
30. Changements de main
.
<handshift> milestone (balise sans contenu)
Lorem ipsum dolor
<handshift medium=”encre-verte” new=”#h1”/>
sit amet
(...)
ailleurs dans le doc :
<handNote xml:id=”h1”>Ecriture très régulière </handshift>
34. Atouts d’un balisage TEI
Expressivité
Exploitabilité
Evolutivité
Réutilisabilité
Permet également de repousser certains choix au moment de l’utilisation et pas de la production !
par ex. normalisations : on encode les deux leçons, c’est le lecteur qui choisit !
36. Programme
1. Prise en main de l’éditeur XML Oxygen Editor
2. Exercice : Transcription d’un court texte
3. Principes de transcription d’un apparat critique
4. Exercice : transcription du cahier de collation
5. Visualisations :
a. Diple (présentation classique avec affichage des variantes au survol de
la souris)
b. Versioning machine (voir en parallèle les différents témoins)
38. Découverte de l’interface
★ Personnaliser l’espace de travail
★ Préférences : choisir le navigateur par défaut :
○ Safari (de préférence) ou Firefox
★ Expérimenter :
○ saisie d’une balise
○ balises possibles dans le contexte
○ valeurs possibles d’un attribut
○ documentation contextuelle
○ CTRL (CMD) + E
○ style
39. Exercice 1
Transcription d’une page d’un manuscrit
de Flaubert extrait des Dossiers documentaires de
Bouvard et Pécuchet
Ms g226 (8) f°198 - conservé à la Bibliothèque municipale de Rouen
http://www.dossiers-flaubert.fr/cote-g226_8_f_198__r____
40. Exercice de transcription en TEI
★ Depuis Oxygen, ouvrez le fichier : “TEI_exercice_SC/content/modele_exercice_0.xml”
★ Le fichier à transcrire se trouve dans : “TEI_exercice_SC/sources/exercice-flaubert”
★ Processus à suivre :
a. Analyser le document
b. Copier le texte dans l’éditeur (depuis “DBP_8_198_r_texte_avec_sauts_de_ligne.txt”)
c. Baliser :
i. la structure
ii. les interventions éditoriales de l’auteur (ajouts, suppressions, substitutions...)
iii. les normalisations
iv. les entités nommées
v. … et tout autre caractéristique qui vous paraît pertinente
41. Analyse du document
Objectifs :
★ repérer la structure textuelle
★ identifier les “distinctions”
pertinentes pour votre projet
éditorial ou les analyses souhaitées :
○ Orthographe ?
○ Variantes graphiques des lettres ?
○ Capitalisations ?
○ Ponctuation ?
○ Abréviations ?
○ Mise en page ?
○ Ajouts, suppressions ?
○ erreurs, omissions ?
○ etc.
43. Baliser : à vous de jouer !
★ utilisez au choix la vue “auteur” ou “texte”
44. Quelques balises TEI courantes
Pour une information détaillée sur le modèle de données ou les attributs
possibles des balises TEI, se reporter à la documentation en ligne sur le site de la
TEI : http://www.tei-c.org/
<lb/> Saut de ligne
<head> titre
<div> division
<p> paragraphe
<del> suppression
<add> ajout
<subst> substitution
<choice> balisages alternatifs
<orig> forme originale
<reg> forme régularisée
<placeName> Nom de lieu
<persName> Nom de personne
45. Voir le résultat dans un navigateur
★ Cliquez sur le bouton “ouvrir dans le navigateur”
★ Le fichier s’affiche en fonction de la feuille de style CSS indiquée par les
instructions de traitement du début du fichier (donnés par le modèle)
46. Transformer le résultat
Utilisez les feuilles de style XSL de la TEI fournies avec
Oxygen :
★ Cliquez sur le bouton “configurer un scénario de transformation”
★ Choisissez le scénario de votre choix dans la liste “TEI P5”
○ xhtml, pdf, odt, etc.
48. Théorie
★ Cf. diaporama de M. Burghart (EHESS, UMR CIHAM)
★ cf. fichier pdf “Antisèche” dans le dossier
“TEI_exercice_SC/sources/exercice-JdeVitry”
49. Exemple 1 : pseudo-edition-test-file.xml
Déclaration de la méthode d’encodage :
<variantEncoding method="parallel-segmentation"
location="internal"/>
dans teiHeader//encodingDesc
50. Exemple 1 : pseudo-edition-test-file.xml
Liste des témoins
<front><div>
<listWit>
<witness xml:id="A">Manuscript A</witness>
<witness xml:id="B">Manuscript B</witness>
<witness xml:id="C">Manuscript C</witness>
<witness xml:id="D">Manuscript D</witness>
<witness xml:id="E">Manuscript E</witness>
</listWit>
</div></front>
51. Exemple 1 : pseudo-edition-test-file.xml
Groupes de variantes :
52. Exemple 1 : pseudo-edition-test-file.xml
Enchâssement de notes d’apparat :
54. Encore à vous de jouer...
★ Ouvrez le fichier : TEI_exercice_SC/content/modele_apparat_critique.xml
★ à partir de votre cahier de collation
(ou de la mise en commun du stage d’ecdotique 2014 cf.
TEI_exercice_SC/sources/exercice-valere/stage SC.2014Travail2bis.doc), complétez le
fichier...
56. “Contrôle qualité”
Visualisez et contrôlez votre encodage à l’aide de l’outil
développé par M. Burghart “TEI Critical Edition Toolbox”
http://ciham-digital.huma-num.fr/teitoolbox/