Focus sur le hub de métadonnées.
Projet en cours à l'ABES (2013-2015).
Objectif : réutiliser, améliorer et redistribuer des métadonnées bibliographiques de qualité, avec les technologies du web sémantique (entre autres) et pour le web de données (entre autres).
Plus d'infos : http://www.abes.fr/Projets-en-cours/Hub-de-metadonnees
2. Les métadonnées sont déjà là !
• Dixit Maurits :
« La grande majorité des éditeurs produisent des
métadonnées et livrent ces métadonnées aux
bibliothèques.
En conséquence, les systèmes de catalogage partagé
s’orientent vers la possibilité de manipulation des flux
de métadonnées provenant des éditeurs. »
20/05/2014 à 14h37
• Que faire ? Attendre que tout soit en MARC ?
5. Métadonnées
éditeur natives
MARC
enrichi par
le réseau
MARC
exporté vers
les SIGB
locaux
RDF exposé
Sudoc
KBART
Métadonnées éditeur
modélisées en RDF et
enrichies
Métadonnées
RDF enrichies
par le réseau
et le hub
Hub
Open
data
Open
data
Open
data
6. Outils / Données / Collaboration
• Le hub est un ensemble de méthodes et d’outils
internes pour récupérer et partager des données
fiables
• But :
– Contribuer à un espace public de métadonnées
ouvertes, à l’échelle du web
– Que chacun intègre ces données ouvertes dans ses
propres outils (dont le Sudoc)
• Aujourd’hui :
– Pas d’outil « hub » proposé à l’extérieur
– Esquisse de collaboration avec le réseau Sudoc
8. La liste éditeur,
à la lumière du registre ISSN
titre année
min.
année
max.
p-issn e-issn titre année
min.
année
max
p-issn e-issn ppn
1950-2000
1940-
1949
1950-1979
1980-2000
1980-
=
?
?
Identifiant de
notice dans le
Sudoc
9. Initiatives de normalisation
qui vont dans le même sens
PIE-J NISO 2013
KBART 2 2014
“will provide much-needed
guidance on the presentation
of e-journals to publishers and
platform providers as well as to
solve some long-standing
concerns of serials librarians.”
❤
10. Enrichir les listes de périodiques
avec les métadonnées d’articles
titre année
min
année
max
p-issn e-issn ppn 1er
volume
1er
numéro
dernier
vol.
dernier
n°
1 1 77 4
<métadonnées d’articles en XML/>
+
11. Métadonnées de bouquet
= fichier KBART
BACON
publica
tion_tit
le
date_fir
st_issue
_online
date_la
st_issue
_online
print
_identif
ier
online_
identifi
er
num_fir
st_vol_o
nline
num_fir
st_issue
_online
num_la
st_vol_
online
num_la
st_issue
_online
title_url
12. Notre tableau sert aussi à signaler
dans le Sudoc
ajouter un exemplaire Licence Nationale
et
modifier la notice biblio du périodique :
207 $a Vol.1, n°1 (1914)-Vol.50, n°4 (1964)
titre année
min
année
max
p-issn e-issn ppn 1er
volume
1er
numéro
dernier
vol.
dernier
n°
URL
1914 1964 1 1 50 4
14. Signaler l’électronique
pour gérer le papier
Aide au désherbage
titre année
min
année
max
p-issn e-issn ppn
élec.
ppn
papier
1er
volume
1er
numéro
dernier
vol.
dernie
n°
1941 1964 1 1 50 4
16. Liste de
périodiques
commerciale
Liste de
périodiques
conformes à ISSN
Liste des notices
Sudoc : e-journals
Liste des notices
Sudoc : revues
imprimées
Métadonnées
des articles
Métadonnées des
fascicules
Négociation
Sudoc PS : circuit de
numérotation ISSN
Conservation
Conservation /
états de collection
au niveau fascicule ?
Bases de
connaissance
Outils de découverte
Exemplarisation
automatique Sudoc
Passerelles
Web de données
Etablissements
Carto
Doc elec.
+ ERE?
18. Métadonnées éditeur
natives XML
MARC
enrichi par
le réseau
MARC
exporté vers
les SIGB
locaux
RDF exposé
Sudoc
KBART
Métadonnées éditeur
modélisées en RDF et
enrichies
Métadonnées
RDF enrichies
par le réseau
Hub
19. • Enrichissements
– Auteurs IdRef
– Indexation matière RAMEAU
– Langue des résumés
– ISBNs
– …
• Première interaction avec le réseau : zone 309
et todo list dynamique
Recueils des cours
de l’Académie de La Haye
20. 309 ##
$aLE(S) LIEN(S) AUTORITE AUTEUR RESTE(NT) A CREER. SUPPRIMER LA PRESENTE NOTE 309
UNE FOIS LA (LES) CORRECTION(S) EFFECTUEE(S)
$bBRILL-RADI-LN
$cche ppn 060964588 OU 084013885
$d2014-04-09 11:15:01.894
Le hub fait ce qu’il
peut puis laisse
une todo list
au réseau
21. PPN TEXTE CORPUS COMMANDE DATEIN ETAT
.. Nombre de ppn total : 1177 .. .. .. ..
.. Nombre de ppn réalisés : 111 .. .. .. ..
.. Pourcentage de ppn realisés : 0.09 .. .. .. ..
176448683
LE(S) LIEN(S) AUTORITE AUTEUR RESTE(NT) A
CREER. A TITRE INDICATIF, LE SYSTEME DE
DETECTION AUTOMATIQUE SUGGERE
PLUSIEURS PPN A DEPARTAGER. SUPPRIMER LA
PRESENTE NOTE 309 UNE FOIS LA (LES)
CORRECTION(S) EFFECTUEE(S)
BRILL-RADI-
LN
che ppn 060964588 OU
084013885
2014-
04-09
12:37:02
.980 todo
176448691
LE(S) LIEN(S) AUTORITE AUTEUR RESTE(NT) A
CREER. SUPPRIMER LA PRESENTE NOTE 309
UNE FOIS LA (LES) CORRECTION(S)
EFFECTUEE(S)
BRILL-RADI-
LN null
2014-
04-18
09:02:33
.475 todo
176448705
LE(S) LIEN(S) VEDETTE MATIERE RESTE(NT) A
CREER. SUPPRIMER LA PRESENTE NOTE 309
UNE FOIS LA (LES) CORRECTION(S)
EFFECTUEE(S)
BRILL-RADI-
LN null
2014-
04-18
08:48:18
.551 todo
176448837
LE(S) LIEN(S) AUTORITE AUTEUR RESTE(NT) A
CREER. A TITRE INDICATIF, LE SYSTEME DE
DETECTION AUTOMATIQUE SUGGERE
PLUSIEURS PPN A DEPARTAGER. SUPPRIMER LA
PRESENTE NOTE 309 UNE FOIS LA (LES)
CORRECTION(S) EFFECTUEE(S)
BRILL-RADI-
LN che ppn 078858119
2014-
04-09
12:37:37
.500 todo
http://www.sudoc.fr/services/chantier/BRILL-RADI-LN
22. Conclusions (1/2)
• Essayer de tenir ensemble:
Automatique | Humain
ABES | Réseau
Adaptation à des outils précis | ouverture générique
• court terme : listes (KBART, ppn élec, ppn papier), notices
• moyen terme : web de données
Différents niveaux de granularité
• articles | chapitres | revues | livres
Gestion de la documentation électronique
| Rigueur bibliographique
National | International
• on travaille pour l’international
• et l’international pour nous
23. Conclusions (2/2)
Enjeu
Séparer fonction SGB
et fonction agrégation de métadonnées
Demain, les données seront toutes :
• sur le web de données (RDF moyen et fin)
• Agrégation facilitée
• Nous devons y contribuer !
• et/ou chez des sociétés spécialisées (data markets)
• Ajouter de la valeur et du service au-dessus de données ouvertes
Open
data
24.
25. Questions pour la table ronde ?
• Quelle intensité et quelles formes de
collaborations avec le réseau ? Quelles forces
en central ? Des rôles différenciés reconnus
pour certains établissements ? CollEx ?
• Sur quels corpus se concentrer ?
– Archives (ISTEX)/courant
– Revues/articles
• Quelles collaborations avec partenaires, fr et
au-delà ?
26. Corpus Analyser
l’offre
KBART SUDOC Désherber Modéliser Convertir Enrichir
Brill RADI &
New Pauly
Brill revues*
Elsevier
Nature
RSC
OUP
IOP
http://www.licencesnationales.fr/istex-negociations-en-cours/
Etat des traitements en mai 2014
* Numérisation non achevée au moment du signalement
Signature Décembre 2013
Signature Avril/Mai 2014
Notes de l'éditeur
Point de départ : les métadonnées sont déjà disponibles. Il faut les réutiliser. Ne plus compter seulement sur le catalogage original – y compris par dérivation à partir d’autres catalogues.
On part de la liste commerciale de l’éditeur, qu’on passe au crible du registre ISSN.
Un titre de la liste éditeur peut correspondre à toute une famille de titres selon ISSN.
Au moment de la négociation, cette analyse permet d’interroger la complétude de l’offre éditeur.
Cette analyse permet également le rattacher l’offre éditeur au catalogue Sudoc, grâce à la correpsondance
Les métadonnées fines au niveau article ou fascicule permettent de générer les informations précises de la période couverte par l’offre éditeur.
Et inversement : données XML RSC manquaient d’infos sur les revues (slt un code). On a complété avec une autre source (liste de titres retraitée par nous)
On change le nom des colonnes
On enlève la colonne PPN
On convertit en CSV
Et on obtient du KBART (cf. présentation de Benjamin Bober)
Exemplariser et préciser les informations bibliographiques de la notice de périodique.
Même si une revue électronique a été créée en 2000, il est au moins aussi important de savoir que, rétrospectivement, elle contient des articles qui remontent jusqu’en 1954. C’est ce qu’on peut savoir avec la zone 207 – que nous alimentons automatiquement.
Signaler des collections numériques pérennes (ISTEX), c’est aussi faciliter la gestion des collections imprimées correspondantes : désherbage, conservation partagée.
Pouvoir mesurer : ISTEX; combien de papier en moins entre telle date et telle date ? Ce qui suppose de photographier les exemplaires pour les comaprer dans le temps.
Demain, certains groupes de grande distribution proposeront des frigidaires subventionnés et simlockés : il faudra le remplir avec son abonnement à l’enseigne. Toute ressemblance avec les solutions SGBM dite de nouvelle génération est volontaire.
Brill RADI : 1272 cours + 2 titres pour New Pauly
Brill ebook + : corpus de 15, 7 et 8 titres
Brill revues : 220 titres
Nature revues : 11 titres
RSC revues 93 titres sous réserve de validation
OUP revues : 261 titres
IOP revues : 108 titres
Elsevie
r : 2253 titres sous réserve de validation