SlideShare a Scribd company logo
1 of 41
Download to read offline
Gaat Artificial
Intelligence helpen
het zoeken verder te
automatiseren?
3 Maart 2017
Prof dr ir Jan Scholtes
1
Er is natuurlijk hele goede zoeksoftware…
Zoek op alle
gestructureerde-,
ongestructureerde
informatie en alle
combinaties
Regular Expressions
+ matches the preceding element one or more times
{m} matches the preceding element m times exactly
{m,} matches the preceding element at least m times
{m,n} matches preceding element at least m times but not more than n times
• 𝑚 ≤ 𝑛, 𝑚, 𝑛 ∈ ℵ0 = {0, 1, 2, … }
• The element can be a literal, literal range, escaped wildcard, ? wildcard, and number
Examples:
• [abcte]+ = (cab or cat or bat or bet or tab …)
• appl[a-t]+ = (apple or apples or application or …)
• 10+ = (10 or 100 or 1000 or 100000 ...)
• [a-t]{0,10}dam = (amsterdam or dam or rotterdam or … )
• [0-9]{3}-[0-9]{4} = (123-4567 or 435-1539 or …)
• bo{1,}k{1,}* = (book or bookkeeper or Boké ...)
Voor de liefhebber: …
4
Building Backtracking NFA
Matches: Mississippi, mission, missing
Toch is de tijd van traditioneel zoeken wel een beetje voorbij
• Te veel data, teveel hits, geen
relevance ranking die altijd het beste
werkt;
• Je weet nooit precies wat je krijgt en
wat je mist;
• Te veel (geografisch verspreide)
bronnen;
• Te veel talen;
• Allerlei spellingsvariaties;
• Steeds meer niet-tekstuele formaten;
Artificial Intelligence kan ons verder helpen
Wat is Artificial Intelligence?
“State-of-the Art”:
• Intelligent zoeken
• Informatie detective en
extractie
• Classificatie van informatie
• Representeren van kennis
• Overdragen van kennis
• Redeneren met kennis
• Machine Learning
Voorbeelden van AI om zoeken te verbeteren
• Intelligent zoeken
• Intelligent analyseren van
de inhoud van
documenten
• Identificatie en
extraheren relevante
informatie
• Classificatie van
informatie
• Leren en opslaan van
kennis van bepaalde
onderwerpen
• Machinaal vertalen
• Audio en video search
Geïntegreerde machine translation
Phonetic Audio Search
Wat is text-mining?
11
Ursus Wehrli: http://www.kunstaufraeumen.ch/en
Information Extraction Hierarchy
• Entities: the basis units that can be found in a text; for example: people,
companies, locations, products, medicines, and genes.
• Attributes: these are the properties of the found entities: consider function title, a
person’s age and social security number, addresses of locations, quantity of
products, car registration numbers, and the type of organisation.
• Facts: these are relationships between entities, for example, a contractual
relationship between a company and a person.
• Events: these are interesting events or activities that involve entities, such as: “one
person speaks to another person”, “a person travels to a location”, and “a
company transfers money to another company”.
• Concepts, Sentiments or Emotions: finding abstract entities such as problems,
requests, sentiments, emotions, etc.
Voorbeeld van informatie extractie
Zoeken op patronen in plaats van op
woorden
PERSON [visits | meets | lunches ]
PERSON
PERSON | COMPANY |
ORGANIZATION [pays | wires |
transfers] PERSON | COMPANY |
ORGANIZATION
• Zoeken op hoger (semantisch)
niveau.
• Automatisch vervoegen
werkwoorden
• Automatisch oplossen co-
referenties en persoonlijke
voornaamwoorden.
• Geen noodzaak meer om hele
lange queries te onderhouden.
14
15
Wat zijn de belangrijkste doelstellingen van
document classificatie?
• Documenten automatisch classifieren in relevant en niet
relevant.
• Documenten classificeren in diverse conceptuele
categorien.
• Maximaliseren recall (> 80%).
• Besparen op zoektijd.
• Relevante documenten automatisch vinden zonder te veel
afhankelijk te zijn van de zoekvaardigheden van een
eindgebruiker.
• Vinden zonder dat je precies weet wat je zoekt.
16
Hoe verhoudt dit zich t.o.v.
andere zoektechnieken?
• Supervised Document Classification
• Topic Modeling
Machine Learning
• OCR bitmaps
• Audio Search
• Text Mining & Regular Expressions
• Visual Classification
Advanced Processing
• Fuzzy & Wildcard Search
• Quorum & Proximity Search
• Ranking
• Regular Expressions
Advanced Search
• Document Properties
• File Properties
• Collection Properties
Metadata
Search
• Boolean Search
Standard
SearchRules Based TAR
Machine Learning
0%
100%
Recall
17
Welke technologien worden gebruikt?
Protocols supported Random Start, Search Start (Continuous Active Learning)
and Start with Topic Modeling or combine all methods
Supervised Machine Learning
Algorithm
Support Vector Machines (SVM)
Classifier type Binary
Document Representation Term Frequency–Inverse Document Frequency (TF-IDF) on
full-text or on extracted semantic document features*
(entities)
Evaluations 11-point precision/recall measurements in combinations
with 10-fold cross validation
18
* Patented by ZyLAB
Term-Document Matrix
For 800.000 Reuters documents this is a 1.2 million x 800.000 matrix
19
Term Frequency (TF)–Inverse Document Frequency (IDF)
• The TF-IDF weight of a term is the product of its TF weight and its
IDF weight.
• Best known weighting scheme in information retrieval
• Increases with the number of occurrences within a document
• Increases with the rarity of the term in the collection
• Automatically removes non-discriminating terms
20
Support Vector Machines (SVM)
• Best known text-classifier do far.
• Implements automatic feature selection: selects most discriminating
features automatically.
• SVMs support a highly dimensional spaces as seen in text
classification.
• SVMs have been reported to work better for text classification.
• ZyLAB is using a linear SVM which makes it very fast
• ZyLAB uses SVM as a binary classifier: one classifier per issue. Multi-
topic classification is possible by using multiple classifiers (one per
issue) at the same time.
• A SVM classifier returns a classification value between [0-1]. 0 is 100%
non-match, 1 is a 100% match. This is known as a confidence value.
21
Now imagine 1.2 million dimensional …
2-dimensional
3-dimensional
22
Automatisch Classificieren van Documenten
Voorbeeld uit de M&A
23
Defensibility volgens internationale standaarden
24
Clustering om process te beginnen
25
Machine Learning in de praktijk
Find Relevant
Documents using
standard Search
Techniques
Review Documents
for Correctness
_______
best matching first
Every X new correct
document, build
classifier with
manually reviewed
documents to
recognize similar
documents
Find potential
relevant documents
by matching
classifier with all
non-reviewed
documents in data
Calculate Precision
& Recall classifier
using 10-fold cross
validation on
Training Set.
Calculate precision
return set.
Stop if Precision and
Recall of the
Training Set or the
Return Set is Larger
than a pre-agreed
quality level
(typically 70-80%)
26
Return Best-Matching Documents
Wat is een stop conditie?
De classifier is goed genoeg om de rest van de
documenten automatisch te classificeren.
“Goed genoeg” kan zijn:
• Precisie – recall van de classifier is structureel
> 80% voor zowel precisie als de recall.
• Precisie van de classificatie van nieuwe
documenten is > 80%
• Precisie van de classificatie van nieuwe
documenten is < 10 % nadat het eerst naar
>80% is gegaan.
27
Simulatie op de Reuters Documenten Set
• 806.791 articles in total
• War, Civil War (GVIO):
32.615 articles (4,04%):
90% is found after
reviewing only 45.000
documents, which is
only 5.6% of full corpus.
• Sports (GSPO): 35.317
articles (4,38%): 90% is
found after reviewing
only 32.000 documents.
This is only 4% of full
corpus.
28
Evolutie van de kwaliteit van een classifier
29
Zijn er grote verschillen hoe je het process begint?
Niet echt…
30
Wat als de trainer fouten maakt, is dat
een problem? Ook niet echt…
31
Voorspellen hoe lang het nog duurt voor je
een goede classifier hebt
32
Presenteer informatie in facets
Hoe kunnen we
informatie nu nog
beter presenteren
voor optimale
toegankelijkheid?
Question Entities or patterns to address this
question
Visualization Options
Who is it about? PERSON, COMPANY, ORGANIZATION.
EMAIL ADDRESS
Pie Chart, Bar Graph
What is it about? Result of Topic Modeling (NMF) or
Document-Term Correlation Matrix
(A*AT)
Word cloud, Word wheel
When did it happen? DATE, TIME, MONTH, DAY WEEK, YEAR Time line with bar graph
Where did it happen? ADDRESS, CITY, COUNTRY, CONTINENT,
DEPARTMENT and other geo-locations
Geographical Mappings
Why did it happen? Sentiments, emotions and cursing Word Cloud, Word Sheel on
emitions and sentiments
How did it happen? Custom patterns to recognize events,
holistic OBJECT-PREDICATE-SUBJECT
and RDF extractions
Relation graphs
How much/often did it happen? Quantitative measures such as
amounts, currencies, and other
numbers. Also frequency and averages
on entity occurrences.
Bar graphs
35
Who When Where Why What How How Much
Who Centrality
(Eigenvalue)
Link Networks
Timeline Geo-mapping Centrality
(Eigenvalue)
Link Networks
Count
Average
Bar Graph
When Time Line Topic Rivers Count
Average
Bar Graph
Where Count
Average
Bar Graph
Why Centrality
(Eigenvalue)
Link Networks
Count
Average
Bar Graph
What Topic Rivers Automatic
Correlation
Detection of
synonyms
Count
Average
Bar Graph
How Count
Average
Bar Graph
How Much Count
Average
Bar Graph
Count
Average
Bar Graph
36
37
38
39
40
Gaat u de AI uitdaging aan, of ….
Nog meer te weten komen en
hands-on demo’s?
Meld u aan voor de relatiedag op donderdag 30 maart:
“Automatisch antwoord op al uw onderzoeksvragen”
Locatie: Amsterdam, WTC, 9:00 – 14:00 uur
Key-note van misdaadverslaggever Peter R. de Vries
“Op zoek naar wat niet in dossier staat. Het eerste spoor”
www.zylab.nl/relatiedag

More Related Content

Similar to Gaat Artificial Intelligence helpen het zoeken verder te automatiseren?

Semantische zoekmachines voor wetenschap: een stresstest
Semantische zoekmachines voor wetenschap: een stresstestSemantische zoekmachines voor wetenschap: een stresstest
Semantische zoekmachines voor wetenschap: een stresstestvoginip
 
Named entity recognition hoe werkt het wat kunnen we er mee doen nl
Named entity recognition hoe werkt het wat kunnen we er mee doen nlNamed entity recognition hoe werkt het wat kunnen we er mee doen nl
Named entity recognition hoe werkt het wat kunnen we er mee doen nlSmals
 
Knowledge Graphs: Concept, mogelijkheden en aandachtspunten
Knowledge Graphs: Concept, mogelijkheden en aandachtspuntenKnowledge Graphs: Concept, mogelijkheden en aandachtspunten
Knowledge Graphs: Concept, mogelijkheden en aandachtspuntenChristophe Debruyne
 
Semantisch Zoeken - knowledge graph, semantisch web, linked data, rdf, ontolo...
Semantisch Zoeken - knowledge graph, semantisch web, linked data, rdf, ontolo...Semantisch Zoeken - knowledge graph, semantisch web, linked data, rdf, ontolo...
Semantisch Zoeken - knowledge graph, semantisch web, linked data, rdf, ontolo...Eric Sieverts
 
Named entity recognition hoe werkt het wat kunnen we er mee doen
Named entity recognition hoe werkt het wat kunnen we er mee doenNamed entity recognition hoe werkt het wat kunnen we er mee doen
Named entity recognition hoe werkt het wat kunnen we er mee doenSmals
 
Semantisch zoeken - over knowledge graph, semantisch web, rdf enz.
Semantisch zoeken - over knowledge graph, semantisch web, rdf enz.Semantisch zoeken - over knowledge graph, semantisch web, rdf enz.
Semantisch zoeken - over knowledge graph, semantisch web, rdf enz.Eric Sieverts
 
Grote hoeveelheden tekst analyseren als data
Grote hoeveelheden tekst analyseren als dataGrote hoeveelheden tekst analyseren als data
Grote hoeveelheden tekst analyseren als datavoginip
 
Innovatieacademie innovatieve marketingcommunicatie uc leuven limburg - big d...
Innovatieacademie innovatieve marketingcommunicatie uc leuven limburg - big d...Innovatieacademie innovatieve marketingcommunicatie uc leuven limburg - big d...
Innovatieacademie innovatieve marketingcommunicatie uc leuven limburg - big d...Ikinnoveer
 
semantischzoeken-2013.ppt
semantischzoeken-2013.pptsemantischzoeken-2013.ppt
semantischzoeken-2013.pptvoginip
 
Workshop 2 ppt probleemanalyse[1][1]
Workshop 2  ppt probleemanalyse[1][1]Workshop 2  ppt probleemanalyse[1][1]
Workshop 2 ppt probleemanalyse[1][1]vri
 
IA Innovatieve marketingcommunicatie. Sessie 6. Werk met BIG DATA voor wijze ...
IA Innovatieve marketingcommunicatie. Sessie 6. Werk met BIG DATA voor wijze ...IA Innovatieve marketingcommunicatie. Sessie 6. Werk met BIG DATA voor wijze ...
IA Innovatieve marketingcommunicatie. Sessie 6. Werk met BIG DATA voor wijze ...Ikinnoveer
 
Software for big data - setting the scene
Software for big data -   setting the sceneSoftware for big data -   setting the scene
Software for big data - setting the sceneJurjen Helmus
 
Vogin-IP-lezing-Frank_Huysmans
Vogin-IP-lezing-Frank_HuysmansVogin-IP-lezing-Frank_Huysmans
Vogin-IP-lezing-Frank_Huysmansvoginip
 
Vinden dankzij / ondanks metadata
Vinden dankzij / ondanks metadataVinden dankzij / ondanks metadata
Vinden dankzij / ondanks metadataEric Sieverts
 
Presentatie Analistenmiddag Ambulancezorg 2021
Presentatie Analistenmiddag Ambulancezorg 2021Presentatie Analistenmiddag Ambulancezorg 2021
Presentatie Analistenmiddag Ambulancezorg 2021Tom Berger
 
Presentatie Trends, Innovaties & Analytics Noordhoff
Presentatie Trends, Innovaties & Analytics NoordhoffPresentatie Trends, Innovaties & Analytics Noordhoff
Presentatie Trends, Innovaties & Analytics Noordhofferikwoning
 
DDMA / DMS en Infosync: Datakwaliteit
DDMA / DMS en Infosync: DatakwaliteitDDMA / DMS en Infosync: Datakwaliteit
DDMA / DMS en Infosync: DatakwaliteitDDMA
 

Similar to Gaat Artificial Intelligence helpen het zoeken verder te automatiseren? (20)

Semantische zoekmachines voor wetenschap: een stresstest
Semantische zoekmachines voor wetenschap: een stresstestSemantische zoekmachines voor wetenschap: een stresstest
Semantische zoekmachines voor wetenschap: een stresstest
 
Named entity recognition hoe werkt het wat kunnen we er mee doen nl
Named entity recognition hoe werkt het wat kunnen we er mee doen nlNamed entity recognition hoe werkt het wat kunnen we er mee doen nl
Named entity recognition hoe werkt het wat kunnen we er mee doen nl
 
Knowledge Graphs: Concept, mogelijkheden en aandachtspunten
Knowledge Graphs: Concept, mogelijkheden en aandachtspuntenKnowledge Graphs: Concept, mogelijkheden en aandachtspunten
Knowledge Graphs: Concept, mogelijkheden en aandachtspunten
 
Semantisch Zoeken - knowledge graph, semantisch web, linked data, rdf, ontolo...
Semantisch Zoeken - knowledge graph, semantisch web, linked data, rdf, ontolo...Semantisch Zoeken - knowledge graph, semantisch web, linked data, rdf, ontolo...
Semantisch Zoeken - knowledge graph, semantisch web, linked data, rdf, ontolo...
 
Named entity recognition hoe werkt het wat kunnen we er mee doen
Named entity recognition hoe werkt het wat kunnen we er mee doenNamed entity recognition hoe werkt het wat kunnen we er mee doen
Named entity recognition hoe werkt het wat kunnen we er mee doen
 
Semantisch zoeken - over knowledge graph, semantisch web, rdf enz.
Semantisch zoeken - over knowledge graph, semantisch web, rdf enz.Semantisch zoeken - over knowledge graph, semantisch web, rdf enz.
Semantisch zoeken - over knowledge graph, semantisch web, rdf enz.
 
Grote hoeveelheden tekst analyseren als data
Grote hoeveelheden tekst analyseren als dataGrote hoeveelheden tekst analyseren als data
Grote hoeveelheden tekst analyseren als data
 
Innovatieacademie innovatieve marketingcommunicatie uc leuven limburg - big d...
Innovatieacademie innovatieve marketingcommunicatie uc leuven limburg - big d...Innovatieacademie innovatieve marketingcommunicatie uc leuven limburg - big d...
Innovatieacademie innovatieve marketingcommunicatie uc leuven limburg - big d...
 
semantischzoeken-2013.ppt
semantischzoeken-2013.pptsemantischzoeken-2013.ppt
semantischzoeken-2013.ppt
 
Workshop 2 ppt probleemanalyse[1][1]
Workshop 2  ppt probleemanalyse[1][1]Workshop 2  ppt probleemanalyse[1][1]
Workshop 2 ppt probleemanalyse[1][1]
 
Mis Hc4v2
Mis Hc4v2Mis Hc4v2
Mis Hc4v2
 
Mis Hc4v2
Mis Hc4v2Mis Hc4v2
Mis Hc4v2
 
IA Innovatieve marketingcommunicatie. Sessie 6. Werk met BIG DATA voor wijze ...
IA Innovatieve marketingcommunicatie. Sessie 6. Werk met BIG DATA voor wijze ...IA Innovatieve marketingcommunicatie. Sessie 6. Werk met BIG DATA voor wijze ...
IA Innovatieve marketingcommunicatie. Sessie 6. Werk met BIG DATA voor wijze ...
 
Computationeel denken
Computationeel denkenComputationeel denken
Computationeel denken
 
Software for big data - setting the scene
Software for big data -   setting the sceneSoftware for big data -   setting the scene
Software for big data - setting the scene
 
Vogin-IP-lezing-Frank_Huysmans
Vogin-IP-lezing-Frank_HuysmansVogin-IP-lezing-Frank_Huysmans
Vogin-IP-lezing-Frank_Huysmans
 
Vinden dankzij / ondanks metadata
Vinden dankzij / ondanks metadataVinden dankzij / ondanks metadata
Vinden dankzij / ondanks metadata
 
Presentatie Analistenmiddag Ambulancezorg 2021
Presentatie Analistenmiddag Ambulancezorg 2021Presentatie Analistenmiddag Ambulancezorg 2021
Presentatie Analistenmiddag Ambulancezorg 2021
 
Presentatie Trends, Innovaties & Analytics Noordhoff
Presentatie Trends, Innovaties & Analytics NoordhoffPresentatie Trends, Innovaties & Analytics Noordhoff
Presentatie Trends, Innovaties & Analytics Noordhoff
 
DDMA / DMS en Infosync: Datakwaliteit
DDMA / DMS en Infosync: DatakwaliteitDDMA / DMS en Infosync: Datakwaliteit
DDMA / DMS en Infosync: Datakwaliteit
 

More from voginip

Zo wordt je factchecker - Aafko Boonstra
Zo wordt je factchecker - Aafko BoonstraZo wordt je factchecker - Aafko Boonstra
Zo wordt je factchecker - Aafko Boonstravoginip
 
Automatisch metadateren - de kansen en de uitdagingen
Automatisch metadateren - de kansen en de uitdagingenAutomatisch metadateren - de kansen en de uitdagingen
Automatisch metadateren - de kansen en de uitdagingenvoginip
 
Hybride Intelligentie: de rol van Large Language Models in informatieverwerking
Hybride Intelligentie: de rol van Large Language Models in informatieverwerkingHybride Intelligentie: de rol van Large Language Models in informatieverwerking
Hybride Intelligentie: de rol van Large Language Models in informatieverwerkingvoginip
 
Solving World War II Photo Mysteries with Open Source Techniques
Solving World War II Photo Mysteries with Open Source TechniquesSolving World War II Photo Mysteries with Open Source Techniques
Solving World War II Photo Mysteries with Open Source Techniquesvoginip
 
PiCo: Historische personen beter vindbaar maken
PiCo: Historische personen beter vindbaar makenPiCo: Historische personen beter vindbaar maken
PiCo: Historische personen beter vindbaar makenvoginip
 
Red het internet! Op weg naar de online publieke ruimte
Red het internet! Op weg naar de online publieke ruimteRed het internet! Op weg naar de online publieke ruimte
Red het internet! Op weg naar de online publieke ruimtevoginip
 
AI en IP (Artificieele Intelligentie en Intellectueel Eigendom)
AI en IP (Artificieele Intelligentie en Intellectueel Eigendom)AI en IP (Artificieele Intelligentie en Intellectueel Eigendom)
AI en IP (Artificieele Intelligentie en Intellectueel Eigendom)voginip
 
ASML's Taxonomy Adventure by Daniel Canter
ASML's Taxonomy Adventure by Daniel CanterASML's Taxonomy Adventure by Daniel Canter
ASML's Taxonomy Adventure by Daniel Cantervoginip
 
The Dark Side of Science: Misconduct in Biomedical Research
The Dark Side of Science: Misconduct in Biomedical ResearchThe Dark Side of Science: Misconduct in Biomedical Research
The Dark Side of Science: Misconduct in Biomedical Researchvoginip
 
Oude boeken, nieuwe vaardigheden en Wikipedia
Oude boeken, nieuwe vaardigheden en WikipediaOude boeken, nieuwe vaardigheden en Wikipedia
Oude boeken, nieuwe vaardigheden en Wikipediavoginip
 
De kracht van samenwerking: hoe de Universiteitsbibliotheek Gent open kennisc...
De kracht van samenwerking: hoe de Universiteitsbibliotheek Gent open kennisc...De kracht van samenwerking: hoe de Universiteitsbibliotheek Gent open kennisc...
De kracht van samenwerking: hoe de Universiteitsbibliotheek Gent open kennisc...voginip
 
Open yet everywhere in chains: Where next for open knowledge?
Open yet everywhere in chains: Where next for open knowledge?Open yet everywhere in chains: Where next for open knowledge?
Open yet everywhere in chains: Where next for open knowledge?voginip
 
The three layers of a knowledge graph and what it means for authoring, storag...
The three layers of a knowledge graph and what it means for authoring, storag...The three layers of a knowledge graph and what it means for authoring, storag...
The three layers of a knowledge graph and what it means for authoring, storag...voginip
 
Vijf vindbaarheidsproblemen waar een taxonomie de schuld van krijgt (maar nik...
Vijf vindbaarheidsproblemen waar een taxonomie de schuld van krijgt (maar nik...Vijf vindbaarheidsproblemen waar een taxonomie de schuld van krijgt (maar nik...
Vijf vindbaarheidsproblemen waar een taxonomie de schuld van krijgt (maar nik...voginip
 
Why one-size-fits all does not work in Explainable Artificial Intelligence!
Why one-size-fits all does not work in Explainable Artificial Intelligence!Why one-size-fits all does not work in Explainable Artificial Intelligence!
Why one-size-fits all does not work in Explainable Artificial Intelligence!voginip
 
Systematisch zoeken op het web
Systematisch zoeken op het webSystematisch zoeken op het web
Systematisch zoeken op het webvoginip
 
Werken met Wikidata
Werken met WikidataWerken met Wikidata
Werken met Wikidatavoginip
 
Een gereedschapskist voor digitale vaardigheden
Een gereedschapskist voor digitale vaardighedenEen gereedschapskist voor digitale vaardigheden
Een gereedschapskist voor digitale vaardighedenvoginip
 
Een startende éénpitter in informatieland: wat goed ging en wat niet
Een startende éénpitter in informatieland: wat goed ging en wat nietEen startende éénpitter in informatieland: wat goed ging en wat niet
Een startende éénpitter in informatieland: wat goed ging en wat nietvoginip
 
Van de droom van het Semantic Web naar de realiteit van Linked Open
Van de droom van het Semantic Web naar de realiteit van Linked Open Van de droom van het Semantic Web naar de realiteit van Linked Open
Van de droom van het Semantic Web naar de realiteit van Linked Open voginip
 

More from voginip (20)

Zo wordt je factchecker - Aafko Boonstra
Zo wordt je factchecker - Aafko BoonstraZo wordt je factchecker - Aafko Boonstra
Zo wordt je factchecker - Aafko Boonstra
 
Automatisch metadateren - de kansen en de uitdagingen
Automatisch metadateren - de kansen en de uitdagingenAutomatisch metadateren - de kansen en de uitdagingen
Automatisch metadateren - de kansen en de uitdagingen
 
Hybride Intelligentie: de rol van Large Language Models in informatieverwerking
Hybride Intelligentie: de rol van Large Language Models in informatieverwerkingHybride Intelligentie: de rol van Large Language Models in informatieverwerking
Hybride Intelligentie: de rol van Large Language Models in informatieverwerking
 
Solving World War II Photo Mysteries with Open Source Techniques
Solving World War II Photo Mysteries with Open Source TechniquesSolving World War II Photo Mysteries with Open Source Techniques
Solving World War II Photo Mysteries with Open Source Techniques
 
PiCo: Historische personen beter vindbaar maken
PiCo: Historische personen beter vindbaar makenPiCo: Historische personen beter vindbaar maken
PiCo: Historische personen beter vindbaar maken
 
Red het internet! Op weg naar de online publieke ruimte
Red het internet! Op weg naar de online publieke ruimteRed het internet! Op weg naar de online publieke ruimte
Red het internet! Op weg naar de online publieke ruimte
 
AI en IP (Artificieele Intelligentie en Intellectueel Eigendom)
AI en IP (Artificieele Intelligentie en Intellectueel Eigendom)AI en IP (Artificieele Intelligentie en Intellectueel Eigendom)
AI en IP (Artificieele Intelligentie en Intellectueel Eigendom)
 
ASML's Taxonomy Adventure by Daniel Canter
ASML's Taxonomy Adventure by Daniel CanterASML's Taxonomy Adventure by Daniel Canter
ASML's Taxonomy Adventure by Daniel Canter
 
The Dark Side of Science: Misconduct in Biomedical Research
The Dark Side of Science: Misconduct in Biomedical ResearchThe Dark Side of Science: Misconduct in Biomedical Research
The Dark Side of Science: Misconduct in Biomedical Research
 
Oude boeken, nieuwe vaardigheden en Wikipedia
Oude boeken, nieuwe vaardigheden en WikipediaOude boeken, nieuwe vaardigheden en Wikipedia
Oude boeken, nieuwe vaardigheden en Wikipedia
 
De kracht van samenwerking: hoe de Universiteitsbibliotheek Gent open kennisc...
De kracht van samenwerking: hoe de Universiteitsbibliotheek Gent open kennisc...De kracht van samenwerking: hoe de Universiteitsbibliotheek Gent open kennisc...
De kracht van samenwerking: hoe de Universiteitsbibliotheek Gent open kennisc...
 
Open yet everywhere in chains: Where next for open knowledge?
Open yet everywhere in chains: Where next for open knowledge?Open yet everywhere in chains: Where next for open knowledge?
Open yet everywhere in chains: Where next for open knowledge?
 
The three layers of a knowledge graph and what it means for authoring, storag...
The three layers of a knowledge graph and what it means for authoring, storag...The three layers of a knowledge graph and what it means for authoring, storag...
The three layers of a knowledge graph and what it means for authoring, storag...
 
Vijf vindbaarheidsproblemen waar een taxonomie de schuld van krijgt (maar nik...
Vijf vindbaarheidsproblemen waar een taxonomie de schuld van krijgt (maar nik...Vijf vindbaarheidsproblemen waar een taxonomie de schuld van krijgt (maar nik...
Vijf vindbaarheidsproblemen waar een taxonomie de schuld van krijgt (maar nik...
 
Why one-size-fits all does not work in Explainable Artificial Intelligence!
Why one-size-fits all does not work in Explainable Artificial Intelligence!Why one-size-fits all does not work in Explainable Artificial Intelligence!
Why one-size-fits all does not work in Explainable Artificial Intelligence!
 
Systematisch zoeken op het web
Systematisch zoeken op het webSystematisch zoeken op het web
Systematisch zoeken op het web
 
Werken met Wikidata
Werken met WikidataWerken met Wikidata
Werken met Wikidata
 
Een gereedschapskist voor digitale vaardigheden
Een gereedschapskist voor digitale vaardighedenEen gereedschapskist voor digitale vaardigheden
Een gereedschapskist voor digitale vaardigheden
 
Een startende éénpitter in informatieland: wat goed ging en wat niet
Een startende éénpitter in informatieland: wat goed ging en wat nietEen startende éénpitter in informatieland: wat goed ging en wat niet
Een startende éénpitter in informatieland: wat goed ging en wat niet
 
Van de droom van het Semantic Web naar de realiteit van Linked Open
Van de droom van het Semantic Web naar de realiteit van Linked Open Van de droom van het Semantic Web naar de realiteit van Linked Open
Van de droom van het Semantic Web naar de realiteit van Linked Open
 

Gaat Artificial Intelligence helpen het zoeken verder te automatiseren?

  • 1. Gaat Artificial Intelligence helpen het zoeken verder te automatiseren? 3 Maart 2017 Prof dr ir Jan Scholtes 1
  • 2. Er is natuurlijk hele goede zoeksoftware… Zoek op alle gestructureerde-, ongestructureerde informatie en alle combinaties
  • 3. Regular Expressions + matches the preceding element one or more times {m} matches the preceding element m times exactly {m,} matches the preceding element at least m times {m,n} matches preceding element at least m times but not more than n times • 𝑚 ≤ 𝑛, 𝑚, 𝑛 ∈ ℵ0 = {0, 1, 2, … } • The element can be a literal, literal range, escaped wildcard, ? wildcard, and number Examples: • [abcte]+ = (cab or cat or bat or bet or tab …) • appl[a-t]+ = (apple or apples or application or …) • 10+ = (10 or 100 or 1000 or 100000 ...) • [a-t]{0,10}dam = (amsterdam or dam or rotterdam or … ) • [0-9]{3}-[0-9]{4} = (123-4567 or 435-1539 or …) • bo{1,}k{1,}* = (book or bookkeeper or Boké ...)
  • 4. Voor de liefhebber: … 4 Building Backtracking NFA Matches: Mississippi, mission, missing
  • 5. Toch is de tijd van traditioneel zoeken wel een beetje voorbij • Te veel data, teveel hits, geen relevance ranking die altijd het beste werkt; • Je weet nooit precies wat je krijgt en wat je mist; • Te veel (geografisch verspreide) bronnen; • Te veel talen; • Allerlei spellingsvariaties; • Steeds meer niet-tekstuele formaten;
  • 6. Artificial Intelligence kan ons verder helpen
  • 7. Wat is Artificial Intelligence? “State-of-the Art”: • Intelligent zoeken • Informatie detective en extractie • Classificatie van informatie • Representeren van kennis • Overdragen van kennis • Redeneren met kennis • Machine Learning
  • 8. Voorbeelden van AI om zoeken te verbeteren • Intelligent zoeken • Intelligent analyseren van de inhoud van documenten • Identificatie en extraheren relevante informatie • Classificatie van informatie • Leren en opslaan van kennis van bepaalde onderwerpen • Machinaal vertalen • Audio en video search
  • 11. Wat is text-mining? 11 Ursus Wehrli: http://www.kunstaufraeumen.ch/en
  • 12. Information Extraction Hierarchy • Entities: the basis units that can be found in a text; for example: people, companies, locations, products, medicines, and genes. • Attributes: these are the properties of the found entities: consider function title, a person’s age and social security number, addresses of locations, quantity of products, car registration numbers, and the type of organisation. • Facts: these are relationships between entities, for example, a contractual relationship between a company and a person. • Events: these are interesting events or activities that involve entities, such as: “one person speaks to another person”, “a person travels to a location”, and “a company transfers money to another company”. • Concepts, Sentiments or Emotions: finding abstract entities such as problems, requests, sentiments, emotions, etc.
  • 14. Zoeken op patronen in plaats van op woorden PERSON [visits | meets | lunches ] PERSON PERSON | COMPANY | ORGANIZATION [pays | wires | transfers] PERSON | COMPANY | ORGANIZATION • Zoeken op hoger (semantisch) niveau. • Automatisch vervoegen werkwoorden • Automatisch oplossen co- referenties en persoonlijke voornaamwoorden. • Geen noodzaak meer om hele lange queries te onderhouden. 14
  • 15. 15
  • 16. Wat zijn de belangrijkste doelstellingen van document classificatie? • Documenten automatisch classifieren in relevant en niet relevant. • Documenten classificeren in diverse conceptuele categorien. • Maximaliseren recall (> 80%). • Besparen op zoektijd. • Relevante documenten automatisch vinden zonder te veel afhankelijk te zijn van de zoekvaardigheden van een eindgebruiker. • Vinden zonder dat je precies weet wat je zoekt. 16
  • 17. Hoe verhoudt dit zich t.o.v. andere zoektechnieken? • Supervised Document Classification • Topic Modeling Machine Learning • OCR bitmaps • Audio Search • Text Mining & Regular Expressions • Visual Classification Advanced Processing • Fuzzy & Wildcard Search • Quorum & Proximity Search • Ranking • Regular Expressions Advanced Search • Document Properties • File Properties • Collection Properties Metadata Search • Boolean Search Standard SearchRules Based TAR Machine Learning 0% 100% Recall 17
  • 18. Welke technologien worden gebruikt? Protocols supported Random Start, Search Start (Continuous Active Learning) and Start with Topic Modeling or combine all methods Supervised Machine Learning Algorithm Support Vector Machines (SVM) Classifier type Binary Document Representation Term Frequency–Inverse Document Frequency (TF-IDF) on full-text or on extracted semantic document features* (entities) Evaluations 11-point precision/recall measurements in combinations with 10-fold cross validation 18 * Patented by ZyLAB
  • 19. Term-Document Matrix For 800.000 Reuters documents this is a 1.2 million x 800.000 matrix 19
  • 20. Term Frequency (TF)–Inverse Document Frequency (IDF) • The TF-IDF weight of a term is the product of its TF weight and its IDF weight. • Best known weighting scheme in information retrieval • Increases with the number of occurrences within a document • Increases with the rarity of the term in the collection • Automatically removes non-discriminating terms 20
  • 21. Support Vector Machines (SVM) • Best known text-classifier do far. • Implements automatic feature selection: selects most discriminating features automatically. • SVMs support a highly dimensional spaces as seen in text classification. • SVMs have been reported to work better for text classification. • ZyLAB is using a linear SVM which makes it very fast • ZyLAB uses SVM as a binary classifier: one classifier per issue. Multi- topic classification is possible by using multiple classifiers (one per issue) at the same time. • A SVM classifier returns a classification value between [0-1]. 0 is 100% non-match, 1 is a 100% match. This is known as a confidence value. 21
  • 22. Now imagine 1.2 million dimensional … 2-dimensional 3-dimensional 22
  • 23. Automatisch Classificieren van Documenten Voorbeeld uit de M&A 23
  • 25. Clustering om process te beginnen 25
  • 26. Machine Learning in de praktijk Find Relevant Documents using standard Search Techniques Review Documents for Correctness _______ best matching first Every X new correct document, build classifier with manually reviewed documents to recognize similar documents Find potential relevant documents by matching classifier with all non-reviewed documents in data Calculate Precision & Recall classifier using 10-fold cross validation on Training Set. Calculate precision return set. Stop if Precision and Recall of the Training Set or the Return Set is Larger than a pre-agreed quality level (typically 70-80%) 26 Return Best-Matching Documents
  • 27. Wat is een stop conditie? De classifier is goed genoeg om de rest van de documenten automatisch te classificeren. “Goed genoeg” kan zijn: • Precisie – recall van de classifier is structureel > 80% voor zowel precisie als de recall. • Precisie van de classificatie van nieuwe documenten is > 80% • Precisie van de classificatie van nieuwe documenten is < 10 % nadat het eerst naar >80% is gegaan. 27
  • 28. Simulatie op de Reuters Documenten Set • 806.791 articles in total • War, Civil War (GVIO): 32.615 articles (4,04%): 90% is found after reviewing only 45.000 documents, which is only 5.6% of full corpus. • Sports (GSPO): 35.317 articles (4,38%): 90% is found after reviewing only 32.000 documents. This is only 4% of full corpus. 28
  • 29. Evolutie van de kwaliteit van een classifier 29
  • 30. Zijn er grote verschillen hoe je het process begint? Niet echt… 30
  • 31. Wat als de trainer fouten maakt, is dat een problem? Ook niet echt… 31
  • 32. Voorspellen hoe lang het nog duurt voor je een goede classifier hebt 32
  • 34. Hoe kunnen we informatie nu nog beter presenteren voor optimale toegankelijkheid?
  • 35. Question Entities or patterns to address this question Visualization Options Who is it about? PERSON, COMPANY, ORGANIZATION. EMAIL ADDRESS Pie Chart, Bar Graph What is it about? Result of Topic Modeling (NMF) or Document-Term Correlation Matrix (A*AT) Word cloud, Word wheel When did it happen? DATE, TIME, MONTH, DAY WEEK, YEAR Time line with bar graph Where did it happen? ADDRESS, CITY, COUNTRY, CONTINENT, DEPARTMENT and other geo-locations Geographical Mappings Why did it happen? Sentiments, emotions and cursing Word Cloud, Word Sheel on emitions and sentiments How did it happen? Custom patterns to recognize events, holistic OBJECT-PREDICATE-SUBJECT and RDF extractions Relation graphs How much/often did it happen? Quantitative measures such as amounts, currencies, and other numbers. Also frequency and averages on entity occurrences. Bar graphs 35
  • 36. Who When Where Why What How How Much Who Centrality (Eigenvalue) Link Networks Timeline Geo-mapping Centrality (Eigenvalue) Link Networks Count Average Bar Graph When Time Line Topic Rivers Count Average Bar Graph Where Count Average Bar Graph Why Centrality (Eigenvalue) Link Networks Count Average Bar Graph What Topic Rivers Automatic Correlation Detection of synonyms Count Average Bar Graph How Count Average Bar Graph How Much Count Average Bar Graph Count Average Bar Graph 36
  • 37. 37
  • 38. 38
  • 39. 39
  • 40. 40 Gaat u de AI uitdaging aan, of ….
  • 41. Nog meer te weten komen en hands-on demo’s? Meld u aan voor de relatiedag op donderdag 30 maart: “Automatisch antwoord op al uw onderzoeksvragen” Locatie: Amsterdam, WTC, 9:00 – 14:00 uur Key-note van misdaadverslaggever Peter R. de Vries “Op zoek naar wat niet in dossier staat. Het eerste spoor” www.zylab.nl/relatiedag