1. Metadata is een netwerk
Een blik achter de schermen van het bibliografische
databeheer in Bibliotheekportalen
18 september 2015, Informatie aan zee
Lisbeth Vandoorne
11. 28 databronnen
= 283 bibliotheken
12,3 miljoen bibliografische
records
Zonder artikels & tracks :
7,7 M bibliografische records
= 0,9 M Vlaccrecords en 6,8 M
‘lokale’ records
= 28 M exemplaren
Data verzamelen
12,3 M
7,7 M
12. = opsporen en samenvoegen van
‘gelijke’ records
Sleutels:
- Vlaccnummer
- ISBN + jaar
- EAN
Sleutel gelijk
= MATCH
= records samenvoegen
= MERGE
‘Matching’? ‘Merging’?
13. Waarom zijn er zoveel dubbels?
Veel kopieën van Vlaccrecords
[match op vlaccid]
Al heel veel dubbels
weggewerkt door PBSen
Vele ‘lokale’ beschrijvingen
worden later nog in
OpenVlacc beschreven
[match op andere sleutel]
.
vlaccid
77%
isbnyear
17%
ean
6%
14.
15. Wat betekent dat voor de
presentatie ?
Start:
7,7 M records waarvan
6,8 M ‘lokale’ records
Na de matching / merging :
4,5 M ‘lokale’ records gematcht
op 0,9 M Vlaccrecords
0,3 M ‘lokale’ records matchen
op elkaar maar niet op vlacc
2 M lokale records zijn niet
gematcht
66%
5%
29%
Match op Vlaccrec
Match op ander
lokaal rec
Geen match
7,7 M = 2,9 M
20. Verminderen lokaal werk:
wat kunnen wij doen?
OpenVlacc = centraal
bibliografisch bestand
Sneller en beter = lokaal werk
vermijden + betere presentatie
Steeds meer vraaggerichte invoer:
- obv bestellingen
- aanvullen precats in Vlacc
- games en DVDs obv cover
Niet: ALLES invoeren
2 jaar geleden was ik op een tentoonstelling, daar zal ik dit werk van een Finse kunstenaar, antti laitinen.
Hij kapte 10m² bos, bracht dit naar een hangar en bracht vervolgens 6 maanden door met sorteren. Naalden bij naalden, schors bij schors, hout bij hout, en daarbinnen alles per kleur.
Verzamelen, vergelijken, sorteren en presenteren: dat deed me heel erg denken aan wat wij doen met data in bibliotheekportalen, en vormt dan ook de ‘metafoor’ doorheen mijn verhaal.
1 min
Ik zou willen beginnen met een uitgelaten mededeling eindelijk weten we alles, of tenminste, zijn er weinig dingen die we niet meer kunnen te weten komen!
Het is te zeggen: door de aansluiting van intussen bijna alle bibliotheken op bibliotheekportalen, en doordat we de data van al die bronnen gemapt hebben op een gemeenschappelijk formaat, is het mogelijk om alle bibliografische beschrijvingen en al het bezit dat daar aan hangt in BP aan analyses te onderwerpen.
Zo zijn er een hoop leuke en nuttige dingen die we te weten kunnen komen, ik geef er een paar mee als opwarmer.
1,5M
Wat is het werk, dus intellectueel werk, welke TITEL heeft het meest editites in bibportalen, dus over alle bibs en alle edities heen, Vlacc en lokale beschrijvingen
Niet zo geheel verrassend eigenlijk
Welke records uit ons centrale bestand OpenVlacc wordt in alle bibs gebruikt, met andere woorden: welke records zijn nuttig geweest voor alle bibliotheken?
Nou dat is een beetje een teleurstelling, dat is er namelijk geen enkel
Maaaar er zijn er een paar die in BIJNA alle bibs gebruikt zijn: ons meest renderende Vlaccrecord, alleen Staden, St-J-T-N en Vorst gebruiken het niet.
Tara, het is niet 50 tinten grijs en ook geen aspe. Die twee zie je wel opduiken als je kijkt waarvan er het meeste exemplaren zijn in de bib – maar dat is hier niet de vraag. Dat is ripper van allende – en die drie bibs die het niet hebben hebben het ook niet in een andere editie !!
Dit is een heel opvallend gegeven: de aankopen van bibs zijn zeer divers; de overlap is eigenlijk echt veel kleiner dan vaak wordt aangenomen.
Wie denkt naessens
Wie denkt meus
Vergeleken met een paar andere referentiepunten is dat allemaal nog niet zo indrukwekkend.
Genoeg gespeeld! even terug naar het begin.
Dit is wat we allemaal kunnen weten, maar hoe weten we het?
…. een gemeenschappelijke, gebruiksvriendelijke en herkenbare zoekomgeving die toegang biedt tot bibliotheekcollecties in Vlaamse Openbare Bibliotheken.
Maar om iets eenvoudigs te maken, heb je vaak iets behoorlijk ingewikkelds nodig. En bij BP is dat niet anders.
En ik zou met jullie vandaag eens een duik willen nemen in het systeem dat het mogelijk maakt om gegevens tevoorschijn te halen over de hele sector heen,
Om zo inzicht te geven in de machinerie,
Er wordt data verzameld
Ze wordt verwerkt
En ze wordt getoond in de verschillende instanties van BP: lokaal – provinciaal en Vlaams
Ik wil in wat volgt vooral inzoomen in wat er daar in het midden gebeurt: de verwerking van die verzamelde data – wat wij ‘het matchen en mergen’ noemen,
En dat gaat dan met name de verhouding tussen lokaal en centraal, en inzoomen op wat OpenVlacc doet
En kijken wat er goed gaat, wat er beter kan, en wat we daar samen aan kunnen doen.
HIER 8 MINUTEN
Toch eerst even zicht geven in dat verzamelen van die data
BP wordt gevoed met gegevens vanuit 28 databronnen – van verschillende grootte: openvlacc, 6 prov syst, 21 lokale bronnen dwz erfgoedbestanden, losse aansluitingen.
En die leveren gegevens aan uit samen 283 bibliotheekinstellingen aan – nu, als we eind dit jaar rond zijn met aansluitingen, worden dat 292 bibliotheken
Zonder de PBSen waren er dus 283 databronnen geweest die data aanleverden,
Goed. Van al deze databronnen die bezit van al deze bibliotheken bevatten, krijgen we 12,3 miljoen bibliografische records aangeleverd.
Nu, voor alles wat er volgt zal ik een deel van deze records niet bespreken, nl de beschrijvingen van tracks en artikels. Om verschillende redenen, maar vooral omdat deze ‘bijzonder’ zijn en de resultaten te veel vervormen.
Zonder tracks en artikels, is de massa data die we verzamelen 7,7 miljoen records.
Ik deel deze hier even op naar databron: 900duizend uit vlacc, en 6,8 M ‘lokale’ nrs
Met ‘lokaal’ bedoel ik hier dus : uit een pbs, uit een losse Vubisbib,… En ‘lokaal’ wil niet per se zeggen dat het record door een catalograaf lokaal is ingetypt – maar daar kom ik op terug
Ook nog even meegeven dat deze 7,7 M records 28 M exemplaren in de bibs beschrijven. Dus, ik weet niet of hier mensen van de ugent zitten, maar die befaamde boekentoren, dat zijn 3 miljoen dingen, wij beheren er samen bijna 10 zo van die torens vol.
Nu dan – we hebben onze data verzameld – nu gaan we ermee aan de slag,
Hier begint de verwerking van de gegevens.
En daarmee dat zgn matchen en mergen.
Dat is eigenlijk eenvoudigweg : in die berg van 7,7 milj beschrijvingen gaan kijken: wat beschrijft hier eigenlijk hetzelfde, is hier dus eigenlijk dubbel. En dan gaan we de dubbels samenvoegen en het beste naar voor schuiven
en dubbels hebben dezelfde sleutel
Sleutels:
Vlaccnummer
ISBN + jaar
EAN
Sleutel gelijk
= MATCH
= records samenvoegen
= MERGE
Tot hier 12 minuten
Maar waarom al dat werk, hoe komen we aan al die dubbels?
Voor “contrapunt” van Anna Enquist
Als je de editie van 2008 opzoekt, zie je dat er eigenlijk 30 lokale nummers zijn die allemaal deze editie beschrijven, daar merkt yu en het publiek verder overigens helemaal niks van, en die allemaal gematcht en gemerged zijn met één vlaccnr
Dan moeten we eigenlijk eens gaan kijken hoe biblio records ontstaan.
Wat er in zeer veel gevallen gebeurt, is dat men zijn recs niet zelf maakt, maar kopieert uit Vlacc.
De ‘lokale’ nummers zijn dus in feite kopieën van vlacc – die een lokaal nr hebben gekregen en zo bestaan in het eigen systeem, maar dus niet door de bib zelf zijn gemaakt maar door Vlacc.
Ten tweede moeten we even beklemtonen dat er eigenlijk heel wat minder dubbel zijn dan vroeger; de PBSen hebben al een hoop consolidatiewerk gedaan – er zijn nog wel een paar dubbels, maar in vb deze twee gevallen, een in pbs vlabra en brussel, gaat het om ‘terug ontstane’ dubbels door pas aangesloten bibs in het pbs, Keerbzergen en Watermaal-bosvoorde. Dit verdwijnt dus wel weer.
En dan zijn er dus de records die vermoedelijk zijn onstaan in de lokale systemen, omdat Vlacc ze niet op tijd had maar later wel in vlacc beschreven zijn geraakt, of, simpelweg, omdat het oude records zijn van voor de tijd dat we met Vlaccnrs werkten,
Ter illustratie: dit is de verdeling, over alle matches heen, van welke sleutels we gebruikt hebben om de match te maken.
Heel de theorie hier nog eens in de praktijk: in antwerpen zijn er 6 lokale beschrijvingen. Uit het PBS, uit de oba die een aparte bron is, uit bidoc-bibs, uit losse vubis
5 van de 6 hebben vlaccnr in hun beschrijving en zijn vermoedelijk kopieen van vlacc;
Ééntje is lokaal aangemaakt (geen vlaccnr)
Allemaal zijn ze op dat ene vlaccnr gematcht en ermee gemerged; al het bezit wordt dus bij dat ene vlaccnr getoond
Even recapituleren: we zijn vertrokken met 6,8 M lokale records. Eenmaal we alles verwerkt hebben , dus dat proces doorlopen hebben van vergelijken – matchen – mergen – tonen, is dit het resultaat:
4,5 M van de records zijn op 0,9 M vlaccrecords gematcht, waarvan 77% dus eigenlijk kopieen van vlacc zijn
Nog een deel is op elkaar
En dan 2 M die Niet gematcht zijn. Die zweven, die alleen maar in één databron bestaan.
7,7 M is terug te brengen tot 2,9M!!
Maar belangrijkste dat je hier ziet is dat 2/3 van het werk door Vlacc wordt gedaan.
ER VALT DUS ECHT VEEL TE WINNEN BIJ SCHAALVERGROTING
En die 66% is een lastig getal omdat dat een gemiddelde is.
Er zijn 3 belangrijke factoren die matching% bepalen: materiaal, databron, en leeftijd. Sommige materialen worden meer gecoverd door Vlacc dan andere. Sommige databronnen zijn ‘properder’ dan andere, of zijn al mer uitgekuist de afgelopen maanden. En voor alles geldt: hoe ouder de records, hoe minder goed het gaat.
Die drie factoren heb ik in wat volgt uitgewerkt,
Wat we hier zien zijn de databronnen van bibportalen –zonder erfgoedbestanden etc
En voor 2 belangrijke materialen, boek en dvd, hoe het zit met het matching% op de vlacc, wanneer we alle records in het systeem bekijken, dus geen rekening houden met leeftijd. .
Onze ambitie is om 90% van de records die bibs nodig hebben, centraal aan te leveren – voor ‘kernmaterialen’ dan toch, boeken, strips, dvds, niet: knuffels en bouwplannen, en voor wat NU gebeurt.
Wanneer je abstractie maakt van hoe oud dingen zijn, halen we dat zeer overduidelijk NIET
En kijken we dan naar zaken uitgegeven in 2014, dan blijkt dat het toch eigenlijk echt vrij goed gaat.
De verdere verbetering gaat over vroeger en later, en lokaal en centraal
‘lokaal’ werk met Bibnet-rapportage
Aangezien matching gebeurt op basis van sleutels, is het een basisvoorwaarde dat de sleutels goed zitten.
De provincies en een aantal lokale bibliotheken hebben al zeer veel werk geleverd in dit verband.
Je kan dus vlaccnummers aanvullen, er zijn rapporten met jaren van uitgave in de toekomst, of te weinig tekens, er zijn lijsten gemaakt van isbns en eans die verkeerd geformateerd zijn en nagezien moeten worden, er zijn lijsten gemaakt van verkeerde info die in sleutelvelden staat
Een voorbeeldje dat veel zegt: een record uit vlabra, dus een lokaal record, dat niet gematcht is.
Gaan we kijken naar de identificerende nummers: er is geen vlaccnr – anders was het daar wel op gematcht
Er is een ISBN-veld: dat is al niet zo’n goed nieuws, dit is een cd, zou dus een ean moeten zijn
En de catalograaf let ervaren oog ziet meteen dat dat nummer zo’n beetje mmm lang aanvoelt. 14 tekens ipv 13.
Een dubbele fout dus, en dat is zeer jammer, want deze cds wel degelijk in OpenVlacc beschreven.
Naar de toekomst toe is er voor Vlacc ook een rol weggelegd.
Wij werken voortdurend aan het snelelr en vollediger maken van de Vlacc, aan een verhoging van het rendement en proberen zo veel mogelijk lokaal werk te vermijden.
Een aantal belangrijke ingrepen: vanaf 2 oktober zal het Bibliografisch centrum in de Kotter boeken invoeren die geselecteerd worden op basis van hoeveel keer ze besteld zijn, en die niet of niet op tijd in Vlacc geraken in onze huidige werkwijze. We verzamelen dus info helemaal vooraan in de keten, bij de bestelling, zodat we hopelijk het record hebben tegen dat de bib zijn bestelling ontvangt. dus echt vraaggericht catalograferen
We zijn al een poosje bezig, in BC Antwepen , met het monitoren van welke records er in OpenVlacc nog precat zijn, dus niet volledig beschreven, en al bezit hebben in bibliotheekportalen, en deze records te vervolledigen - +1000 in 2015
In het bibliografisch centrum in Gent worden DVDs en Games die niet in Vlacc zitten, op vraag ingevoerd voor wie de cover doormailt.
Wat we niet ambieren, is alles beschrijven.
Zuiver lokale beschrijvingen zijn niet in de scope.
En toch nog een tip: afvoeren, collega’s. Er zitten nog 16,000 Cdroms en 19,000 Video’s in ons bestand. Wie bedienen we daar nog mee? En ook: afvoeren, ook in je data. Deze cassette uit 1959 leek me al zo
Bij wijze van afsluiter nog even samenvatten.
Ik hoop te hebben gedemonstreerd dat we in staat zijn om zeer veel te weten te komen over het gebruik van biblio data in BP
Ik liet zien dat wat wij eigenlijk doen in BP neerkomt op : data verzamelen – met elkaar vergelijken – sorteren – resultaat presenteren.
Dat de PBSen zeer veel werk hebben geleverd bij het al consolideren van de data
Dat er zeer veel lokaal dubbel werk vermeden wordt doordat we een sterk centraal biblio bestand hebben, en dat we dit verder proberen te verbeteren
Dat de matching van gegevens, uit het verleden en de toekomst, nog verder kan verbeterd worden door sleutelvelden te bewaken in oude en nieuwe data
Dat wij BP en de functies waar de collega’s aan werken, zoals ‘zoek in je buurt’ of de oplossing voor ‘het editieprobleem die de BP-collega’s zonet toonden, al die eenvoudige interfaces, alleen maar konden realiseren door het vele secure werk aan de backend, door ons zeer goed werkende netwerk aan bibliografische data
Ik wil jullie dan ook graag bedanken voor de zorg waarmee jullie die beheren.
Dat mailadres zal aan verandering onderhevig zijn; Locus en bibnet hebben samen een nieuwe weg ingeslagen: de weg naar een nieuwe, eengemaakte organisatie.
Voorlopig nog zonder naam, maar wel met stevige ambities de rol en betekenis van lokaal cultuurbeleid in een gedigitaliseerde samenleving.
De bibliotheekcampagne Verborgen Parels is het eerste echt gezamenlijk project en past binnen de duidelijke digitale focus van de nieuwe organisatie.
Als nieuwe organisatie zullen we sterk bottom up werken, met projectoproepen en lokale experimenten die – indien relevant en succesvol- kunnen opgeschaald worden naar een meer bovenlokaal niveau.
Onze werking zal voor een groot deel gevormd worden door jullie ideeën. Kruis alvast 12 november aan in uw agenda: dan organiseren we een sectordag om projectideeën te formuleren en uit te werken.