SlideShare a Scribd company logo
1 of 22
Download to read offline
AI x Digital Humanities =
>inclusiviteit
Marieke.van.Erp@dh.huc.knaw.nl

merpeltje
D I G I TA L H U M A N I T I E S L A B
©Archief.AmsterdamKLAG06095000041
D I G I TA L H U M A N I T I E S L A B
Overzicht
• Taalvariatiehobbels
• Waarom AI context nodig heeft
• Hoe we AI vooroordelen kunnen
laten detecteren
• Wrap up
https://www.youtube.com/watch?v=TqAu-DDlINs
You know nothing AI…
Project samen met: 

Niels Dekker & Tobias Kuhn 

Zie: https://peerj.com/articles/cs-189/
Image source: https://anibundel.files.wordpress.com/2015/04/jonsnow-leaves-ygritte.jpg
Achtergrond
• Karakters en relaties vormen de kern van veel verhalen 

• Computationele methodes maken het mogelijk om op
grote schaal verhalen te analyseren 

• Hiervoor is het wel nodig om eerst namen te herkennen

• Het meeste werk aan naamherkenningssoftware is
gemaakt voor kranten, tweets en in veel mindere mate
voor laat 19e en begin 20e eeuwse boeken
D I G I TA L H U M A N I T I E S L A B
The Three Musketeers: F1 32 - 48
The Three Musketeers nadat we d’Artagnan hebben herschreven naar Dartagnan
Performance fixes
• ‘Wordnamen’ vervangen met generieke namen

• Verwijder apostrofs van namen

• Maar:

• Handwerk

• Schaalt niet 

• Vervolgproject literatuur samen met Rositsa
Ivanova en Sabrina Kirrane
(Wirtschaftsuniversität Wien) 

• Voor VOC data: Barry Hendriks, Paul Groth,
Marieke van Erp (2020) Recognising and Linking
Entities in Old DutchText: A Case Study on VOC
Notary Records. Geaccepteerd voor: Collect &
Connect. 23 & 24 November, Leiden.
D I G I TA L H U M A N I T I E S L A B
Kopje suiker?
D I G I TA L H U M A N I T I E S L A B
Wie is de grootste zoetekauw?
• Historische suikerconsumptiepatronen
zijn moeilijk te traceren
• Historische appeltaartrecepten als
‘proxy’
• Maar er zijn hobbels
Marieke van Erp & Ulbe Bosma: Divergent patterns of sugar consumption in the wake of the Industrial Revolution: an analysis on the basis of
apple pie recipes. Forthcoming
D I G I TA L H U M A N I T I E S L A B
Analyse van historische recepten
• Niet alle bronnen zijn even
toegankelijk
• Artefacten van digitalisatie (OCR
fouten)
• Normalisatie van hoeveelheden en
eenheden (een Amerikaans
theekopje ≠ een Nederlands
theekopje
• Combinatie kwantitatieve en
kwalitatieve methoden
Marieke van Erp & Ulbe Bosma: Divergent patterns of sugar consumption in the wake of the Industrial Revolution: an analysis on the basis of
apple pie recipes. (Forthcoming)
Image source: https://en.wikipedia.org/wiki/Apple_pie#/media/File:For_to_Make_Tartys_in_Applis_(1381).gif
D I G I TA L H U M A N I T I E S L A B
Culturele Context
● Hoe veel is ‘een beetje’ of
‘naar smaak’?
● Hoe groot is een portie?
● Hoe vaak eten mensen
appeltaart?
● Apfelstrudel == appeltaart?
Tabea Tietz et al. Challenges of Knowledge Graph Evolution from an NLP Perspective. WHiSe Workshop @ ESWC 2020
D I G I TA L H U M A N I T I E S L A B
Eenheden
● Moderne eenheden
○ imperial vs. metrisch (ponden,
kg)
● Historische eenheden
○ el, lood
● Beschrijvingen van hoeveelheden
○ “veel boter”, “een bord
appelen”
Tabea Tietz et al. Challenges of Knowledge Graph Evolution from an NLP Perspective. WHiSe Workshop @ ESWC 2020
D I G I TA L H U M A N I T I E S L A B
‘Bias’ in erfgoedcollecties
○ Veel erfgoedcollecties zijn over
een langere periode
samengesteld
○ Niet alle perspectieven zijn
even goed vertegenwoordigd
○ De erfgoedsector werkt aan
het opsporen van sensitief
taalgebruik in
collectiebeschrijvingen
D I G I TA L H U M A N I T I E S L A B
SABIO
The Social Bias Observatory
● Gefinancierd door Netwerk
Digitaal Erfgoed
● KNAW Humanities Cluster,
Nationaal Museum voor
Wereldculturen, Koninklijke
Bibliotheek, Nederlands Instituut
voor Beeld en Geluid
● Looptijd: 1 jaar
● We zoeken nog een onderzoeker!
(deadline sollicitaties 9 november)
Image source: https://commons.wikimedia.org/wiki/File:%C5%BDebr%C3%A1k_observatory_at_night.jpg
D I G I TA L H U M A N I T I E S L A B
Aanpak
● Samen met de curatoren gaan we:
● Kijken ‘hoe’ bias eruit ziet
● Een computermodel trainen om
nieuwe voorbeelden van bias te
herkennen
● Nieuwe voorbeelden aanbieden aan
een domeinexpert (human-in-the-
loop)
● Fundamentele onderzoeksvragen,
geen software ‘op de plank’ die dit
oplost (op dit moment)
D I G I TA L H U M A N I T I E S L A B
Wrap up
● Computers kunnen nog maar
mondjesmaat omgaan met
dingen die buiten ‘de
standaard’ liggen
● Context is nodig om de AI bij
te sturen
● Hiervoor is samenwerking met
domeinexperts cruciaal
Trofeeschedel
https://hdl.handle.net/20.500.11840/1037688
https://dhlab.nl
Acknowledgments:
Cindy Zalm, Cultural AI Lab,
Eleonora Marzi, Fabio Mariani,
Harald Sack, ISWS Summer
School, Johan Oomen Lientje
Maas, Martijn Kleppe, Mehwish
Alam, Mortaza Alinam, Paul
Groth, Tabea Tietz, Ulbe Bosma
& Wouter van den Berg

More Related Content

Similar to AI x Digital Humanities = > Inclusiviteit

20150203 Initiatie webschrijven (-26j)
20150203 Initiatie webschrijven (-26j)20150203 Initiatie webschrijven (-26j)
20150203 Initiatie webschrijven (-26j)Mediaraven vzw
 
20130611 schrijven voor het web
20130611 schrijven voor het web20130611 schrijven voor het web
20130611 schrijven voor het webMediaraven vzw
 
Het Huis van Alijn. Een hub in de culturele erfgoedgemeenschap. Iedereen expe...
Het Huis van Alijn. Een hub in de culturele erfgoedgemeenschap. Iedereen expe...Het Huis van Alijn. Een hub in de culturele erfgoedgemeenschap. Iedereen expe...
Het Huis van Alijn. Een hub in de culturele erfgoedgemeenschap. Iedereen expe...Het Huis van Alijn
 
Ocd masterclass 2014_terugkomdag_impactmeting
Ocd masterclass 2014_terugkomdag_impactmetingOcd masterclass 2014_terugkomdag_impactmeting
Ocd masterclass 2014_terugkomdag_impactmetingKennisland
 
O Lab | een sociaal experiment met verhalen in de buurt
O Lab | een sociaal experiment met verhalen in de buurtO Lab | een sociaal experiment met verhalen in de buurt
O Lab | een sociaal experiment met verhalen in de buurtBartDN
 
De kunst van culturele erfgoedinformatie en -data
De kunst van culturele erfgoedinformatie en -dataDe kunst van culturele erfgoedinformatie en -data
De kunst van culturele erfgoedinformatie en -dataSaskia Scheltjens
 
Leven lang leren met Wikipedia & de KB, Teamdag KB, 29 mei 2018, Den Haag
Leven lang leren met Wikipedia & de KB, Teamdag KB, 29 mei 2018, Den HaagLeven lang leren met Wikipedia & de KB, Teamdag KB, 29 mei 2018, Den Haag
Leven lang leren met Wikipedia & de KB, Teamdag KB, 29 mei 2018, Den HaagOlaf Janssen
 
Toekomst Openbare bibliotheek
Toekomst Openbare bibliotheekToekomst Openbare bibliotheek
Toekomst Openbare bibliotheekJan de Waal
 
Beleidsdag Netwerk Oorlogsbronnen | 10 april 2018
Beleidsdag Netwerk Oorlogsbronnen | 10 april 2018Beleidsdag Netwerk Oorlogsbronnen | 10 april 2018
Beleidsdag Netwerk Oorlogsbronnen | 10 april 2018Netwerk Oorlogsbronnen
 
DEN bijdrage Museumcongres 2012
DEN bijdrage Museumcongres 2012DEN bijdrage Museumcongres 2012
DEN bijdrage Museumcongres 2012Monika Lechner
 
Open onderwijs: doen of niet?
Open onderwijs: doen of niet?Open onderwijs: doen of niet?
Open onderwijs: doen of niet?Robert Schuwer
 
1206_Timmermans_Baltussen_Brinkerink_EEN_BOTTOMUP_OPEN_DATA_INITIATIEF_VANUIT...
1206_Timmermans_Baltussen_Brinkerink_EEN_BOTTOMUP_OPEN_DATA_INITIATIEF_VANUIT...1206_Timmermans_Baltussen_Brinkerink_EEN_BOTTOMUP_OPEN_DATA_INITIATIEF_VANUIT...
1206_Timmermans_Baltussen_Brinkerink_EEN_BOTTOMUP_OPEN_DATA_INITIATIEF_VANUIT...KVANdagen
 
De bottom line: welke waarden dienen bibliothecarissen in het oog te houden
De bottom line: welke waarden dienen bibliothecarissen in het oog te houdenDe bottom line: welke waarden dienen bibliothecarissen in het oog te houden
De bottom line: welke waarden dienen bibliothecarissen in het oog te houdenSaskia Scheltjens
 
Social media in het onderwijs
Social media in het onderwijsSocial media in het onderwijs
Social media in het onderwijsConrad Berghoef
 
Design rationale pb_fase2_team3_v1.6
Design rationale pb_fase2_team3_v1.6Design rationale pb_fase2_team3_v1.6
Design rationale pb_fase2_team3_v1.6MitchKappen
 
Af presentatie-2nov2011-definitief
Af presentatie-2nov2011-definitiefAf presentatie-2nov2011-definitief
Af presentatie-2nov2011-definitiefMachteldsSlides
 

Similar to AI x Digital Humanities = > Inclusiviteit (20)

20150203 Initiatie webschrijven (-26j)
20150203 Initiatie webschrijven (-26j)20150203 Initiatie webschrijven (-26j)
20150203 Initiatie webschrijven (-26j)
 
20130611 schrijven voor het web
20130611 schrijven voor het web20130611 schrijven voor het web
20130611 schrijven voor het web
 
Het Huis van Alijn. Een hub in de culturele erfgoedgemeenschap. Iedereen expe...
Het Huis van Alijn. Een hub in de culturele erfgoedgemeenschap. Iedereen expe...Het Huis van Alijn. Een hub in de culturele erfgoedgemeenschap. Iedereen expe...
Het Huis van Alijn. Een hub in de culturele erfgoedgemeenschap. Iedereen expe...
 
Ocd masterclass 2014_terugkomdag_impactmeting
Ocd masterclass 2014_terugkomdag_impactmetingOcd masterclass 2014_terugkomdag_impactmeting
Ocd masterclass 2014_terugkomdag_impactmeting
 
O Lab | een sociaal experiment met verhalen in de buurt
O Lab | een sociaal experiment met verhalen in de buurtO Lab | een sociaal experiment met verhalen in de buurt
O Lab | een sociaal experiment met verhalen in de buurt
 
Presentatie En Pr Boerengolf
Presentatie En Pr BoerengolfPresentatie En Pr Boerengolf
Presentatie En Pr Boerengolf
 
De kunst van culturele erfgoedinformatie en -data
De kunst van culturele erfgoedinformatie en -dataDe kunst van culturele erfgoedinformatie en -data
De kunst van culturele erfgoedinformatie en -data
 
Leven lang leren met Wikipedia & de KB, Teamdag KB, 29 mei 2018, Den Haag
Leven lang leren met Wikipedia & de KB, Teamdag KB, 29 mei 2018, Den HaagLeven lang leren met Wikipedia & de KB, Teamdag KB, 29 mei 2018, Den Haag
Leven lang leren met Wikipedia & de KB, Teamdag KB, 29 mei 2018, Den Haag
 
Workshop 'Omgevingsanalyse'
Workshop 'Omgevingsanalyse'Workshop 'Omgevingsanalyse'
Workshop 'Omgevingsanalyse'
 
Open Cultuur Data België eind-event
Open Cultuur Data België eind-eventOpen Cultuur Data België eind-event
Open Cultuur Data België eind-event
 
Toekomst Openbare bibliotheek
Toekomst Openbare bibliotheekToekomst Openbare bibliotheek
Toekomst Openbare bibliotheek
 
Beleidsdag Netwerk Oorlogsbronnen | 10 april 2018
Beleidsdag Netwerk Oorlogsbronnen | 10 april 2018Beleidsdag Netwerk Oorlogsbronnen | 10 april 2018
Beleidsdag Netwerk Oorlogsbronnen | 10 april 2018
 
DEN bijdrage Museumcongres 2012
DEN bijdrage Museumcongres 2012DEN bijdrage Museumcongres 2012
DEN bijdrage Museumcongres 2012
 
Open onderwijs: doen of niet?
Open onderwijs: doen of niet?Open onderwijs: doen of niet?
Open onderwijs: doen of niet?
 
1206_Timmermans_Baltussen_Brinkerink_EEN_BOTTOMUP_OPEN_DATA_INITIATIEF_VANUIT...
1206_Timmermans_Baltussen_Brinkerink_EEN_BOTTOMUP_OPEN_DATA_INITIATIEF_VANUIT...1206_Timmermans_Baltussen_Brinkerink_EEN_BOTTOMUP_OPEN_DATA_INITIATIEF_VANUIT...
1206_Timmermans_Baltussen_Brinkerink_EEN_BOTTOMUP_OPEN_DATA_INITIATIEF_VANUIT...
 
De bottom line: welke waarden dienen bibliothecarissen in het oog te houden
De bottom line: welke waarden dienen bibliothecarissen in het oog te houdenDe bottom line: welke waarden dienen bibliothecarissen in het oog te houden
De bottom line: welke waarden dienen bibliothecarissen in het oog te houden
 
Social media in het onderwijs
Social media in het onderwijsSocial media in het onderwijs
Social media in het onderwijs
 
Design rationale pb_fase2_team3_v1.6
Design rationale pb_fase2_team3_v1.6Design rationale pb_fase2_team3_v1.6
Design rationale pb_fase2_team3_v1.6
 
innovatie door co-creatie
innovatie door co-creatieinnovatie door co-creatie
innovatie door co-creatie
 
Af presentatie-2nov2011-definitief
Af presentatie-2nov2011-definitiefAf presentatie-2nov2011-definitief
Af presentatie-2nov2011-definitief
 

More from Marieke van Erp

Towards Culturally Aware AI Systems - TSDH Symposium
Towards Culturally Aware AI Systems - TSDH SymposiumTowards Culturally Aware AI Systems - TSDH Symposium
Towards Culturally Aware AI Systems - TSDH SymposiumMarieke van Erp
 
A Polyvocal and Contextualised Semantic Web
A Polyvocal and Contextualised Semantic WebA Polyvocal and Contextualised Semantic Web
A Polyvocal and Contextualised Semantic WebMarieke van Erp
 
Computationally Tracing Concepts Through Time and Space
Computationally Tracing Concepts Through Time and SpaceComputationally Tracing Concepts Through Time and Space
Computationally Tracing Concepts Through Time and SpaceMarieke van Erp
 
The Hitchhiker's Guide to the Future of Digital Humanities
The Hitchhiker's Guide to the Future of Digital HumanitiesThe Hitchhiker's Guide to the Future of Digital Humanities
The Hitchhiker's Guide to the Future of Digital HumanitiesMarieke van Erp
 
Why language technology can’t handle Game of Thrones (yet)
Why language technology can’t handle Game of Thrones (yet)Why language technology can’t handle Game of Thrones (yet)
Why language technology can’t handle Game of Thrones (yet)Marieke van Erp
 
(Beyond) Combining Text and Tables for qualitative and quantitative research
(Beyond) Combining Text and Tables for qualitative and quantitative research (Beyond) Combining Text and Tables for qualitative and quantitative research
(Beyond) Combining Text and Tables for qualitative and quantitative research Marieke van Erp
 
Finding common ground between text, maps, and tables for quantitative and qua...
Finding common ground between text, maps, and tables for quantitative and qua...Finding common ground between text, maps, and tables for quantitative and qua...
Finding common ground between text, maps, and tables for quantitative and qua...Marieke van Erp
 
Slicing and Dicing a Newspaper Corpus for Historical Ecology Research
Slicing and Dicing a Newspaper Corpus for Historical Ecology ResearchSlicing and Dicing a Newspaper Corpus for Historical Ecology Research
Slicing and Dicing a Newspaper Corpus for Historical Ecology ResearchMarieke van Erp
 
Lessons Learnt from the Named Entity rEcognition and Linking (NEEL) Challenge...
Lessons Learnt from the Named Entity rEcognition and Linking (NEEL) Challenge...Lessons Learnt from the Named Entity rEcognition and Linking (NEEL) Challenge...
Lessons Learnt from the Named Entity rEcognition and Linking (NEEL) Challenge...Marieke van Erp
 
Good Lynx, bad Lynx: Document enrichment for historical ecologists
Good Lynx, bad Lynx: Document enrichment for historical ecologistsGood Lynx, bad Lynx: Document enrichment for historical ecologists
Good Lynx, bad Lynx: Document enrichment for historical ecologistsMarieke van Erp
 
Towards Semantic Enrichment of Newspapers: a historical ecology use case
Towards Semantic Enrichment of Newspapers: a historical ecology use case Towards Semantic Enrichment of Newspapers: a historical ecology use case
Towards Semantic Enrichment of Newspapers: a historical ecology use case Marieke van Erp
 
Natural Language Processing en Named Entity Recognition
Natural Language Processing en Named Entity Recognition Natural Language Processing en Named Entity Recognition
Natural Language Processing en Named Entity Recognition Marieke van Erp
 
HuC lecture - Digital and Humanities: Continuing the Conversation
HuC lecture - Digital and Humanities: Continuing the ConversationHuC lecture - Digital and Humanities: Continuing the Conversation
HuC lecture - Digital and Humanities: Continuing the ConversationMarieke van Erp
 
Multilingual Fine-grained Entity Typing
Multilingual Fine-grained Entity Typing Multilingual Fine-grained Entity Typing
Multilingual Fine-grained Entity Typing Marieke van Erp
 
Entity Typing Using Distributional Semantics and DBpedia
Entity Typing Using Distributional Semantics and DBpedia Entity Typing Using Distributional Semantics and DBpedia
Entity Typing Using Distributional Semantics and DBpedia Marieke van Erp
 
Entity Typing and Event Extraction
Entity Typing and Event Extraction Entity Typing and Event Extraction
Entity Typing and Event Extraction Marieke van Erp
 
The domain as unifier, how focusing on social history can bring technical fie...
The domain as unifier, how focusing on social history can bring technical fie...The domain as unifier, how focusing on social history can bring technical fie...
The domain as unifier, how focusing on social history can bring technical fie...Marieke van Erp
 
Evaluating entity linking an analysis of current benchmark datasets and a ro...
Evaluating entity linking  an analysis of current benchmark datasets and a ro...Evaluating entity linking  an analysis of current benchmark datasets and a ro...
Evaluating entity linking an analysis of current benchmark datasets and a ro...Marieke van Erp
 
Finding Stories in 1,784,532 Events: Scaling up computational models of narr...
Finding Stories in 1,784,532 Events:  Scaling up computational models of narr...Finding Stories in 1,784,532 Events:  Scaling up computational models of narr...
Finding Stories in 1,784,532 Events: Scaling up computational models of narr...Marieke van Erp
 
Evaluating Named Entity Recognition and Disambiguation in News and Tweets
Evaluating Named Entity Recognition and Disambiguation in News and TweetsEvaluating Named Entity Recognition and Disambiguation in News and Tweets
Evaluating Named Entity Recognition and Disambiguation in News and TweetsMarieke van Erp
 

More from Marieke van Erp (20)

Towards Culturally Aware AI Systems - TSDH Symposium
Towards Culturally Aware AI Systems - TSDH SymposiumTowards Culturally Aware AI Systems - TSDH Symposium
Towards Culturally Aware AI Systems - TSDH Symposium
 
A Polyvocal and Contextualised Semantic Web
A Polyvocal and Contextualised Semantic WebA Polyvocal and Contextualised Semantic Web
A Polyvocal and Contextualised Semantic Web
 
Computationally Tracing Concepts Through Time and Space
Computationally Tracing Concepts Through Time and SpaceComputationally Tracing Concepts Through Time and Space
Computationally Tracing Concepts Through Time and Space
 
The Hitchhiker's Guide to the Future of Digital Humanities
The Hitchhiker's Guide to the Future of Digital HumanitiesThe Hitchhiker's Guide to the Future of Digital Humanities
The Hitchhiker's Guide to the Future of Digital Humanities
 
Why language technology can’t handle Game of Thrones (yet)
Why language technology can’t handle Game of Thrones (yet)Why language technology can’t handle Game of Thrones (yet)
Why language technology can’t handle Game of Thrones (yet)
 
(Beyond) Combining Text and Tables for qualitative and quantitative research
(Beyond) Combining Text and Tables for qualitative and quantitative research (Beyond) Combining Text and Tables for qualitative and quantitative research
(Beyond) Combining Text and Tables for qualitative and quantitative research
 
Finding common ground between text, maps, and tables for quantitative and qua...
Finding common ground between text, maps, and tables for quantitative and qua...Finding common ground between text, maps, and tables for quantitative and qua...
Finding common ground between text, maps, and tables for quantitative and qua...
 
Slicing and Dicing a Newspaper Corpus for Historical Ecology Research
Slicing and Dicing a Newspaper Corpus for Historical Ecology ResearchSlicing and Dicing a Newspaper Corpus for Historical Ecology Research
Slicing and Dicing a Newspaper Corpus for Historical Ecology Research
 
Lessons Learnt from the Named Entity rEcognition and Linking (NEEL) Challenge...
Lessons Learnt from the Named Entity rEcognition and Linking (NEEL) Challenge...Lessons Learnt from the Named Entity rEcognition and Linking (NEEL) Challenge...
Lessons Learnt from the Named Entity rEcognition and Linking (NEEL) Challenge...
 
Good Lynx, bad Lynx: Document enrichment for historical ecologists
Good Lynx, bad Lynx: Document enrichment for historical ecologistsGood Lynx, bad Lynx: Document enrichment for historical ecologists
Good Lynx, bad Lynx: Document enrichment for historical ecologists
 
Towards Semantic Enrichment of Newspapers: a historical ecology use case
Towards Semantic Enrichment of Newspapers: a historical ecology use case Towards Semantic Enrichment of Newspapers: a historical ecology use case
Towards Semantic Enrichment of Newspapers: a historical ecology use case
 
Natural Language Processing en Named Entity Recognition
Natural Language Processing en Named Entity Recognition Natural Language Processing en Named Entity Recognition
Natural Language Processing en Named Entity Recognition
 
HuC lecture - Digital and Humanities: Continuing the Conversation
HuC lecture - Digital and Humanities: Continuing the ConversationHuC lecture - Digital and Humanities: Continuing the Conversation
HuC lecture - Digital and Humanities: Continuing the Conversation
 
Multilingual Fine-grained Entity Typing
Multilingual Fine-grained Entity Typing Multilingual Fine-grained Entity Typing
Multilingual Fine-grained Entity Typing
 
Entity Typing Using Distributional Semantics and DBpedia
Entity Typing Using Distributional Semantics and DBpedia Entity Typing Using Distributional Semantics and DBpedia
Entity Typing Using Distributional Semantics and DBpedia
 
Entity Typing and Event Extraction
Entity Typing and Event Extraction Entity Typing and Event Extraction
Entity Typing and Event Extraction
 
The domain as unifier, how focusing on social history can bring technical fie...
The domain as unifier, how focusing on social history can bring technical fie...The domain as unifier, how focusing on social history can bring technical fie...
The domain as unifier, how focusing on social history can bring technical fie...
 
Evaluating entity linking an analysis of current benchmark datasets and a ro...
Evaluating entity linking  an analysis of current benchmark datasets and a ro...Evaluating entity linking  an analysis of current benchmark datasets and a ro...
Evaluating entity linking an analysis of current benchmark datasets and a ro...
 
Finding Stories in 1,784,532 Events: Scaling up computational models of narr...
Finding Stories in 1,784,532 Events:  Scaling up computational models of narr...Finding Stories in 1,784,532 Events:  Scaling up computational models of narr...
Finding Stories in 1,784,532 Events: Scaling up computational models of narr...
 
Evaluating Named Entity Recognition and Disambiguation in News and Tweets
Evaluating Named Entity Recognition and Disambiguation in News and TweetsEvaluating Named Entity Recognition and Disambiguation in News and Tweets
Evaluating Named Entity Recognition and Disambiguation in News and Tweets
 

AI x Digital Humanities = > Inclusiviteit

  • 1. AI x Digital Humanities = >inclusiviteit Marieke.van.Erp@dh.huc.knaw.nl merpeltje D I G I TA L H U M A N I T I E S L A B ©Archief.AmsterdamKLAG06095000041
  • 2. D I G I TA L H U M A N I T I E S L A B Overzicht • Taalvariatiehobbels • Waarom AI context nodig heeft • Hoe we AI vooroordelen kunnen laten detecteren • Wrap up
  • 4. You know nothing AI… Project samen met: Niels Dekker & Tobias Kuhn Zie: https://peerj.com/articles/cs-189/ Image source: https://anibundel.files.wordpress.com/2015/04/jonsnow-leaves-ygritte.jpg
  • 5. Achtergrond • Karakters en relaties vormen de kern van veel verhalen • Computationele methodes maken het mogelijk om op grote schaal verhalen te analyseren • Hiervoor is het wel nodig om eerst namen te herkennen • Het meeste werk aan naamherkenningssoftware is gemaakt voor kranten, tweets en in veel mindere mate voor laat 19e en begin 20e eeuwse boeken D I G I TA L H U M A N I T I E S L A B
  • 6.
  • 7.
  • 9. The Three Musketeers nadat we d’Artagnan hebben herschreven naar Dartagnan
  • 10. Performance fixes • ‘Wordnamen’ vervangen met generieke namen • Verwijder apostrofs van namen • Maar: • Handwerk • Schaalt niet • Vervolgproject literatuur samen met Rositsa Ivanova en Sabrina Kirrane (Wirtschaftsuniversität Wien) • Voor VOC data: Barry Hendriks, Paul Groth, Marieke van Erp (2020) Recognising and Linking Entities in Old DutchText: A Case Study on VOC Notary Records. Geaccepteerd voor: Collect & Connect. 23 & 24 November, Leiden. D I G I TA L H U M A N I T I E S L A B
  • 12. D I G I TA L H U M A N I T I E S L A B Wie is de grootste zoetekauw? • Historische suikerconsumptiepatronen zijn moeilijk te traceren • Historische appeltaartrecepten als ‘proxy’ • Maar er zijn hobbels Marieke van Erp & Ulbe Bosma: Divergent patterns of sugar consumption in the wake of the Industrial Revolution: an analysis on the basis of apple pie recipes. Forthcoming
  • 13. D I G I TA L H U M A N I T I E S L A B Analyse van historische recepten • Niet alle bronnen zijn even toegankelijk • Artefacten van digitalisatie (OCR fouten) • Normalisatie van hoeveelheden en eenheden (een Amerikaans theekopje ≠ een Nederlands theekopje • Combinatie kwantitatieve en kwalitatieve methoden Marieke van Erp & Ulbe Bosma: Divergent patterns of sugar consumption in the wake of the Industrial Revolution: an analysis on the basis of apple pie recipes. (Forthcoming) Image source: https://en.wikipedia.org/wiki/Apple_pie#/media/File:For_to_Make_Tartys_in_Applis_(1381).gif
  • 14. D I G I TA L H U M A N I T I E S L A B Culturele Context ● Hoe veel is ‘een beetje’ of ‘naar smaak’? ● Hoe groot is een portie? ● Hoe vaak eten mensen appeltaart? ● Apfelstrudel == appeltaart? Tabea Tietz et al. Challenges of Knowledge Graph Evolution from an NLP Perspective. WHiSe Workshop @ ESWC 2020
  • 15. D I G I TA L H U M A N I T I E S L A B Eenheden ● Moderne eenheden ○ imperial vs. metrisch (ponden, kg) ● Historische eenheden ○ el, lood ● Beschrijvingen van hoeveelheden ○ “veel boter”, “een bord appelen” Tabea Tietz et al. Challenges of Knowledge Graph Evolution from an NLP Perspective. WHiSe Workshop @ ESWC 2020
  • 16.
  • 17.
  • 18. D I G I TA L H U M A N I T I E S L A B ‘Bias’ in erfgoedcollecties ○ Veel erfgoedcollecties zijn over een langere periode samengesteld ○ Niet alle perspectieven zijn even goed vertegenwoordigd ○ De erfgoedsector werkt aan het opsporen van sensitief taalgebruik in collectiebeschrijvingen
  • 19. D I G I TA L H U M A N I T I E S L A B SABIO The Social Bias Observatory ● Gefinancierd door Netwerk Digitaal Erfgoed ● KNAW Humanities Cluster, Nationaal Museum voor Wereldculturen, Koninklijke Bibliotheek, Nederlands Instituut voor Beeld en Geluid ● Looptijd: 1 jaar ● We zoeken nog een onderzoeker! (deadline sollicitaties 9 november) Image source: https://commons.wikimedia.org/wiki/File:%C5%BDebr%C3%A1k_observatory_at_night.jpg
  • 20. D I G I TA L H U M A N I T I E S L A B Aanpak ● Samen met de curatoren gaan we: ● Kijken ‘hoe’ bias eruit ziet ● Een computermodel trainen om nieuwe voorbeelden van bias te herkennen ● Nieuwe voorbeelden aanbieden aan een domeinexpert (human-in-the- loop) ● Fundamentele onderzoeksvragen, geen software ‘op de plank’ die dit oplost (op dit moment)
  • 21. D I G I TA L H U M A N I T I E S L A B Wrap up ● Computers kunnen nog maar mondjesmaat omgaan met dingen die buiten ‘de standaard’ liggen ● Context is nodig om de AI bij te sturen ● Hiervoor is samenwerking met domeinexperts cruciaal Trofeeschedel https://hdl.handle.net/20.500.11840/1037688
  • 22. https://dhlab.nl Acknowledgments: Cindy Zalm, Cultural AI Lab, Eleonora Marzi, Fabio Mariani, Harald Sack, ISWS Summer School, Johan Oomen Lientje Maas, Martijn Kleppe, Mehwish Alam, Mortaza Alinam, Paul Groth, Tabea Tietz, Ulbe Bosma & Wouter van den Berg