Modèles de données et langages de description ouverts 2021-2022 - 1
Corpref
1. Mais enfin, pourquoi faire un “corpus
de référence” en 2012?
Lou Burnard
lou.burnard@tge-adonis.fr
Initiative corpus de référence
du francais, Paris, 2012
2. On peut se servir d'un corpus de
plusieures manières
De manière exploratoire ou
investigative
par ex dans une domaine médico-
légale
De manière comparative
Comparaisons des langues, registres, etc.
De manière evaluative
Ou tout bêtement pour retrouver des mots...
2
4. Comment retrouver le sens d'un
mot que l'on ignore?
Appliquer un algorithme
Demander aux autorités
Regarder son usage
4
5. 1. Application d'un algorithme
Corpus → “corpu” +s
Corpus → “corp” + “us”
“corpuses”
...
5
6. 2. Demande aux autorités
dy of literature on any subject. ... 4.The body of written or spoke
ordered according to explicit linguistic criteria in order to be used
6
8. 3. Un survol des usages ...
subject. 1727-51 Chambers Cycl. s.v., Corpus is
also used in matters of learning, for s
d, and bound together.. We have also a corpus of
the Greek poets.. The corpus of the ci
also a corpus of the Greek poets.. The corpus of
the civil law is composed of the diges
16 Bound up inseparably with the whole corpus of
Christian tradition. 4. The body of wr
e informant.. and in particular upon a corpus of
material, of which a large proporti
8
11. Variétés d'enjeux
Une dictionnaire représente ce qui
est remarquable
Un corpus représente ce qui est
typique
On ne peut rien dire sur le remarquable,
sans connaissance du typique
11
12. “language”
abstraction
Language In Use
selection
texte
13. texte
encodage
modèle
abstraite
corpus
numérique
analyses
14. Etapes de construction de corpus
Conceptiono
Séléction des textes
Identification des traits signifiants
Exécution
Saisie des données (représentation
textuel)
Encodage (représentation conceptuel)
14
15. La question de taille
There’s no data like more data
(Marcus, 1994)
De point de vue lexicale un
corpus ne peux jamais être trop
petit
De point de vue littéraire la taille
15
16. Principes de moissonage
La langue est infini : le corpus en
principe est d'une taille fixe
mais un corpus peut prétendre
représenter / être représentatif
production vs. reception
stratified sampling
Nota : un corpus peut servir de
référence sans forcément être
16
17. Principes de sélection
programme de recherche
traits structuraux
traits interprétatifs
traits contextuels
17
18. Qu'est-ce qu'un texte?
une image
des mots
des informations structurées
ou tous les trois ?
18
19. Caractéristiques des textes
Un texte ou document est à la fois
un objet linguistique, donc abstrait,
et un objet physique
On peut le structurer de plusieures
manières (linéaires, hiérarchiques,
intertextuelles)
Un texte est un objet culturel issu
19
20. Tout texte ressort d'un contexte
particulier ...
Quels agents de responsabilité
intellectuel ?
Quel publique est visé ou obtenu ?
Quel est l'objet de cette
communication ?
20
21. Identification et sélection des traits
textuels
Une procédure iterative et
scientifique
aka (également connu sous)
document analysis
Il n'y a pas de vérité unique …
quand même on peut identifier des
avis consensuels cf TEI
21
22. Variétés d'annotation
Annotation de structure
Textes, paragraphes, énoncés, phrases,
mots
Annotation linguistique
Morphosyntaxe, fonction syntactique
Metadonnées
Text-type, contexte ...
22
23. En sommaire
Un corpus linguistique est un recueil de
textes non aléatoire
Issu d'un procédure d'échantillonage
effectué selon des principes explicites
Il incarne ainsi un modèle théorique sur
ce qu'est que le langage
ce modèle est explicité par l'encodage ou
balisage du corpus
Nota : il y a d'autres avis ...
23
24. Cas d'étude : le British National
Corpus
Un “snapshot” (photo instantanée)
de l'anglais britannique à la fin du
20ème siecle
100 million mots en c. 4000
échantillons, y compris l'oral (10%
par volume)
Dessin “non-opportunistic” (non
aléatoire)
24
25. D'où est venu le BNC ?
Un consortium de scientifiques et
éditeurs lexicographiques
OUP, Longman, Chambers
OUCS, UCREL, BL R&D
Avec un financement important du
gouvernement britannique 1990-1994
Destiné aux communautés scientifiques
Chercheurs en lexicographie, TAL, etc.
25
26. Courants intellectuels des années
1990
Un monde sans web!
Deux traditions de linguistique de corpus
ICAME, Lancaster Oslo Bergen
COBUILD
Théorie naissante de text encoding
Naissance des industries de langue au
niveau européen
AI -> NLP
Coopérations académiques et industrielles
26
27. Buts déclarés du projet
Un corpus synchronique (1990-4)
d'échantillons à la fois oraux et écrits de
toute la variété de production de
l'anglais britannique
D'une conception opportuniste et
d'application générale
Avec annotation POS
Et plein des métadonnées
27
28. Buts véritables (?) du projet
Amélioration des dictionnaires ELT
Questions d'autorité
oks back to Brown and LOB in its design and markup, and forward to the W
Respect pour l'orale
Un modèle nouveau pour la recherche
au niveau européen
Conception et encodqge des corpus
Co-operation industriel-scientifique
Un REALLY BIG corpus
production de textes numeriques à l'échelle
industrielle
28
29. La machine à saucisses BNC
Spoken
Sélection, droits, saisie
Written
OUP
(OUP/Chambers) (Longman)
Enrichissement et encodage
Initial CDIF Conversion
and Validation Word Class Annotation
(OUCS) (UCREL)
Header generation
and final validation
(OUCS)
Documentation, distribution, maintenance
29
30. Conception “Non-opportunistique”
But: le fair play envers toute la variete des voix
constitutives de l'anglais du RU c. 1995
90% écrit, 10% oral (pour des raisons
économiques)
Critères de sélection prédéfinis
Pour l'écrit : domaine (topos); médium; time
Pour l'oral : demographic balance; context
Critères supplé,entaires de description pour
maximer la variation
30
31. Groupes de travail
Permissions (questions juridiques)
selection, design criteria
encoding and markup
enrichment and annotation
retrieval software
31
41. Pour BNC-XML, on a reclassifié les
textes
Academic
Literary
Press
Nonfiction
Unpublished
Conversation
OtherSpolen
...sentences ...words
41
42. Textes orales : echantillons
démographiques
Enregistrés par 124 personnes recrutées
Nombres equivalents de males et de femelles sélectionnés
pour age et classe sociale habitant 38 lieux differents è
travers le RU
Charge d'enregistrer toutes leures conversations pendant
trois journées
permissions obtenues après chaque conversation
age, sex, accent, occupation, relations notées si possible
Grand quantité d'adolescents londoniens, later published
as COLT
42
44. BNC XML structuration de
document
<bncDoc>
<teiHeader>
Entete : toutes les métadonnées
</teiHeader>
<wtext> ou <stext>
Texte
</wtext> or </stext>
</bncDoc>
44
47. A quoi ça sert tous ces chevrons?
Ils vous permettent de faire des distinctions
très importantes
aids=SUBST vs aids=VERB
occurrences en l'écrit vs occurrences en oral
occurrences au sein des titres vs occurrences au
sein des paragraphes
Et d'identifier des unités textuels à plusieurs
niveaux
FACTSHEET WHAT IS AIDS?
AIDS (Acquired Immune Deficiency Syndrome)
is a condition caused by a virus called HIV
(Human Immuno Deficiency Virus).
47
53. BNC est devenu malgré soi un best
seller
1995 Version 1.0 : ~1500
exemplaires sur 4 CDs,uniquement
pour serveur Unix
2000 Version “World” : ~5000
exemplaires sur 2 CDs, installable
sur machine personnel
2010 Version “BNC XML” : ~7000
copies (au moins) sur 2 DVD
53
54. Après-BNC
Phénoménon curieux dans plusieurs
pays european : construction des
“national corpus” pareils
Les éditeurs de dictionnaires ont
rapidement crée leurs propres
corpus “in house” (monitor corpus)
Dans la societé, un évolution rapide
de manières nouvelles
54
55. L'anglais des années 90 restera-t-il
toujours d'interêt?
Evolution des média
e-mail
Pages web
blogs
SMS
Twitter, facebook, personal networks
Lettres personalles
Evolution des topos
globalization
internet
Elvis
Word Perfect
Le BNC devient un document historique; voire littéraire
55
56. Le corpus littéraire : origines
Project Gutenberg et beacoup
d'autres pareils ont demontre la
possibilite et l'interet de creer des
corpus literaires pour le grand
publique
Un modele economique base sur les
efforts benevoles, en contraste
avec
56
57. Le corpus littéraire : maintenant
Commercialisation devenue
effective avec l'existence
du standard eBook
standard, et de tres
lourdes investissements
de la Possibilitésde Apple et du
part serieuses pour l'application
Amazon sourcing
crowd
Google Books met a
57
58. L'application des corpus en
apprentissage de langues...
complète (et corrige) les intuitions
encourage l'autonomie de l'appreneur
conteste le status du locuteur natif
transforme le role de l'enseignant
58
59. L'usage du Web comme corpus
En effet le web est un corpus
“a corpus is a collection of texts when
considered as an object of linguistic
or literary study” (Kilgarrif &
Grefenstette 2003)
Ou bien on peut le considérer
comme une source de plusieurs
corpus
http://wacky.sslmit.unibo.it/
59
60. Création des corpus à partir du web
Selectionner 500 termes qui sont
typique du langage ciblé
Générer 5,000-8,000 requêtes
contenant chacune 4 mots choisis
dans ces 500 termes
Envoyer ces requêtes à Google et
retenir les 10 premiers URLS
retournés
60
62. Corpus distribués
La promesse de l' “eScience”, “grid
computing” etc.
Séparation et distribution des ressources
et des outils
Procédure tres effective aux sciences
dures mais ...
… nécessitant de grands efforts de
cooperation et de standardisation
62