2. D I G I TA L H U M A N I T I E S L A B
Overzicht
• Taalvariatiehobbels
• Waarom AI context nodig heeft
• Hoe we AI vooroordelen kunnen
laten detecteren
• Wrap up
4. You know nothing AI…
Project samen met:
Niels Dekker & Tobias Kuhn
Zie: https://peerj.com/articles/cs-189/
Image source: https://anibundel.files.wordpress.com/2015/04/jonsnow-leaves-ygritte.jpg
5. Achtergrond
• Karakters en relaties vormen de kern van veel verhalen
• Computationele methodes maken het mogelijk om op
grote schaal verhalen te analyseren
• Hiervoor is het wel nodig om eerst namen te herkennen
• Het meeste werk aan naamherkenningssoftware is
gemaakt voor kranten, tweets en in veel mindere mate
voor laat 19e en begin 20e eeuwse boeken
D I G I TA L H U M A N I T I E S L A B
10. Performance fixes
• ‘Wordnamen’ vervangen met generieke namen
• Verwijder apostrofs van namen
• Maar:
• Handwerk
• Schaalt niet
• Vervolgproject literatuur samen met Rositsa
Ivanova en Sabrina Kirrane
(Wirtschaftsuniversität Wien)
• Voor VOC data: Barry Hendriks, Paul Groth,
Marieke van Erp (2020) Recognising and Linking
Entities in Old DutchText: A Case Study on VOC
Notary Records. Geaccepteerd voor: Collect &
Connect. 23 & 24 November, Leiden.
D I G I TA L H U M A N I T I E S L A B
12. D I G I TA L H U M A N I T I E S L A B
Wie is de grootste zoetekauw?
• Historische suikerconsumptiepatronen
zijn moeilijk te traceren
• Historische appeltaartrecepten als
‘proxy’
• Maar er zijn hobbels
Marieke van Erp & Ulbe Bosma: Divergent patterns of sugar consumption in the wake of the Industrial Revolution: an analysis on the basis of
apple pie recipes. Forthcoming
13. D I G I TA L H U M A N I T I E S L A B
Analyse van historische recepten
• Niet alle bronnen zijn even
toegankelijk
• Artefacten van digitalisatie (OCR
fouten)
• Normalisatie van hoeveelheden en
eenheden (een Amerikaans
theekopje ≠ een Nederlands
theekopje
• Combinatie kwantitatieve en
kwalitatieve methoden
Marieke van Erp & Ulbe Bosma: Divergent patterns of sugar consumption in the wake of the Industrial Revolution: an analysis on the basis of
apple pie recipes. (Forthcoming)
Image source: https://en.wikipedia.org/wiki/Apple_pie#/media/File:For_to_Make_Tartys_in_Applis_(1381).gif
14. D I G I TA L H U M A N I T I E S L A B
Culturele Context
● Hoe veel is ‘een beetje’ of
‘naar smaak’?
● Hoe groot is een portie?
● Hoe vaak eten mensen
appeltaart?
● Apfelstrudel == appeltaart?
Tabea Tietz et al. Challenges of Knowledge Graph Evolution from an NLP Perspective. WHiSe Workshop @ ESWC 2020
15. D I G I TA L H U M A N I T I E S L A B
Eenheden
● Moderne eenheden
○ imperial vs. metrisch (ponden,
kg)
● Historische eenheden
○ el, lood
● Beschrijvingen van hoeveelheden
○ “veel boter”, “een bord
appelen”
Tabea Tietz et al. Challenges of Knowledge Graph Evolution from an NLP Perspective. WHiSe Workshop @ ESWC 2020
16.
17.
18. D I G I TA L H U M A N I T I E S L A B
‘Bias’ in erfgoedcollecties
○ Veel erfgoedcollecties zijn over
een langere periode
samengesteld
○ Niet alle perspectieven zijn
even goed vertegenwoordigd
○ De erfgoedsector werkt aan
het opsporen van sensitief
taalgebruik in
collectiebeschrijvingen
19. D I G I TA L H U M A N I T I E S L A B
SABIO
The Social Bias Observatory
● Gefinancierd door Netwerk
Digitaal Erfgoed
● KNAW Humanities Cluster,
Nationaal Museum voor
Wereldculturen, Koninklijke
Bibliotheek, Nederlands Instituut
voor Beeld en Geluid
● Looptijd: 1 jaar
● We zoeken nog een onderzoeker!
(deadline sollicitaties 9 november)
Image source: https://commons.wikimedia.org/wiki/File:%C5%BDebr%C3%A1k_observatory_at_night.jpg
20. D I G I TA L H U M A N I T I E S L A B
Aanpak
● Samen met de curatoren gaan we:
● Kijken ‘hoe’ bias eruit ziet
● Een computermodel trainen om
nieuwe voorbeelden van bias te
herkennen
● Nieuwe voorbeelden aanbieden aan
een domeinexpert (human-in-the-
loop)
● Fundamentele onderzoeksvragen,
geen software ‘op de plank’ die dit
oplost (op dit moment)
21. D I G I TA L H U M A N I T I E S L A B
Wrap up
● Computers kunnen nog maar
mondjesmaat omgaan met
dingen die buiten ‘de
standaard’ liggen
● Context is nodig om de AI bij
te sturen
● Hiervoor is samenwerking met
domeinexperts cruciaal
Trofeeschedel
https://hdl.handle.net/20.500.11840/1037688
22. https://dhlab.nl
Acknowledgments:
Cindy Zalm, Cultural AI Lab,
Eleonora Marzi, Fabio Mariani,
Harald Sack, ISWS Summer
School, Johan Oomen Lientje
Maas, Martijn Kleppe, Mehwish
Alam, Mortaza Alinam, Paul
Groth, Tabea Tietz, Ulbe Bosma
& Wouter van den Berg