SlideShare a Scribd company logo
1 of 47
Onderdeel van FD MediagroepOnderdeel van FD Mediagroep
Financial News Mining
Data Science Northeast Netherlands Meetup, 16 Nov 2017
Onderdeel van FD Mediagroep
Onderdeel van FD Mediagroep
Who am I?
•
• BA. Media Studies (UvA)
• Science editor (NTR)
• MSc. Media Technology (Leiden)
• Ph.D Information Retrieval @ UvA (2017)
• “Entities of Interest --- Discovery in Digital Traces”
• Data Scientist at FD Mediagroep/Company.info
2
Onderdeel van FD Mediagroep
Outline
• Financial News @ FDMG/Company.info
• Entity Linking
• What is
• Entity Linking with custom KB:
• Approach
• Results
• Applications
3
Onderdeel van FD Mediagroep
FD Mediagroep
4
Onderdeel van FD Mediagroep5
Onderdeel van FD Mediagroep6
Onderdeel van FD Mediagroep7
Onderdeel van FD Mediagroep8
Onderdeel van FD Mediagroep9
Financial News
Onderdeel van FD Mediagroep10
Onderdeel van FD Mediagroep11
Onderdeel van FD Mediagroep12
Onderdeel van FD Mediagroep13
Onderdeel van FD Mediagroep14
Onderdeel van FD Mediagroep
Data
• News articles:
• Hundreds of sources (Dutch, online)
• From Het Financieele Dagblad to the Groninger Gezinsbode
• Thousands of articles per day
• Multiple years of archive
• Knowledge Base:
• ~2.7M companies & organisations
• Rich metadata: sector information, financial information, people,
buildings, etc…
15
Onderdeel van FD Mediagroep
Linking companies in news
• Before: humans
• Now: machines
16
Onderdeel van FD Mediagroep17
Entity Linking
Onderdeel van FD Mediagroep
Entity Linking
1. Identify entity mentions (words that refer to organisations)
• NER: Named-entity Recognition
2. Link entity mentions to unique ID of entities in KB (KvK #)
• EL: Entity Linking
• Aka Entity Resolution
• Aka Entity Disambiguation
18
Onderdeel van FD Mediagroep19
Onderdeel van FD Mediagroep
Step 1: NER
• De Hoge Dennen Capital heeft een minderheidsbelang genomen in
Pseudonimiseer, een Amsterdamse start-up die is gespecialiseerd in
privacybescherming bij data-analyse.
20
Onderdeel van FD Mediagroep
Step 1: NER
• De Hoge Dennen Capital heeft een minderheidsbelang genomen in
Pseudonimiseer, een Amsterdamse start-up die is gespecialiseerd in
privacybescherming bij data-analyse.
21
Onderdeel van FD Mediagroep
Step 2: EL
• De Hoge Dennen Capital heeft een minderheidsbelang genomen in
Pseudonimiseer, een Amsterdamse start-up die is gespecialiseerd in
privacybescherming bij data-analyse.
• Hoge Dennen Capital -> 32102936 0000
• Pseudonimiseer -> 58388702 0000
22
Onderdeel van FD Mediagroep
Step 2: EL
• De Hoge Dennen Capital heeft een minderheidsbelang genomen in
Pseudonimiseer, een Amsterdamse start-up die is gespecialiseerd in
privacybescherming bij data-analyse.
• Hoge Dennen Capital -> 32102936 0000 (De Hoge Dennen Capital B.V.)
• Pseudonimiseer -> 58388702 0000 (Viacryp B.V.)
23
Onderdeel van FD Mediagroep
Challenges
• A single entity mention can refer to multiple entities
24
Onderdeel van FD Mediagroep
Challenges
• A single entity can be referred to by multiple entity mentions
25
Onderdeel van FD Mediagroep26
Approach
Onderdeel van FD Mediagroep
Approach: NER
• NER: Sequence Prediction
• Based on [Graus et al., ECIR ‘14]
• B-I-O scheme
• Beginning of entity mention
• Inside entity mention
• Outside entity mention
• E.g.: “Daarnaast sloot het bedrijf twee nieuwe
overeenkomsten met Xenos en Big Bazar
voor in totaal 2000 vierkante meter voor
een periode van 10 jaar.”
27
Daarnaast
sloot
het
bedrijf
twee
nieuwe
overeenkomsten
met
Xenos
en
Big
Bazar
voor
in
totaal
2000
vierkante
meter
voor
een
periode
van
10
jaar
.
Onderdeel van FD Mediagroep
Approach: NER
• NER: Sequence Prediction
• Based on [Graus et al., ECIR ‘14]
• B-I-O scheme
• Beginning of entity mention
• Inside entity mention
• Outside entity mention
• E.g.: “Daarnaast sloot het bedrijf twee nieuwe
overeenkomsten met Xenos en Big Bazar
voor in totaal 2000 vierkante meter voor
een periode van 10 jaar.”
28
Daarnaast O
sloot O
het O
bedrijf O
twee O
nieuwe O
overeenkomsten O
met O
Xenos B-ORG
en O
Big B-ORG
Bazar I-ORG
voor O
in O
totaal O
2000 O
vierkante O
meter O
voor O
een O
periode O
van O
10 O
jaar O
. O
Onderdeel van FD Mediagroep
Approach: NER
• Features (for token t in sentence s):
• Token-identity: token=Xenos
• Word-shape: TokenIsCaps={1,0},
TokenIsNumber={1,0}, …
• Context: prevToken=met, nextToken=en, …
• Dictionary: TokenInCompanyDict={1,0},
InPersonNameDict={1,0}, …
• Corpus: token’s TF-IDF weight, token’s word-cluster
membership, …
• And more…
• Structured Perceptron
• Predict tag {B, I, O}
29
Daarnaast O
sloot O
het O
bedrijf O
twee O
nieuwe O
overeenkomsten O
met O
Xenos B-ORG
en O
Big B-ORG
Bazar I-ORG
voor O
in O
totaal O
2000 O
vierkante O
meter O
voor O
een O
periode O
van O
10 O
jaar O
. O
Onderdeel van FD Mediagroep
Approach: EL
• Common: Linking to Wikipedia
30
Onderdeel van FD Mediagroep
EL 2 Wikipedia
• Use mappings;
• Anchor texts to Wikipedia pages.
• Kendrick Lamar -> Kendrick_Lamar
• Kendrick Duckworth -> Kendrick_Lamar
• Use statistics;
• How often are words used as anchor?
• To which pages do they link?
31
Onderdeel van FD Mediagroep
Approach: EL
• Custom KB – Custom features
• Based on [Meij et al., WSDM ‘12]
1. Binary classification, for each mention m:
• Retrieve candidate organisations (query CI database with m)
2. For c in candidates:
• Entity features: Turnover, Size, etc…
• Mention features: MentionLength, etc…
• Entity-Mention features: MentionTitleOverlap, etc…
• Doc features: WoonplaatsInDocument, etc…
• Classify(m, c, doc) -> score
3. Take top-ranked entity
32
Onderdeel van FD Mediagroep
Data
• Multiple years of (hand-labeled) articles.
• NER:
• Split article into sentences
• Filter sentences with at least 2 entity mentions
• EL:
• Apply NER to article
• For each mention (m) in doc:
• Query KB (retrieve 20 candidates)
• For each <m, c, doc>-tuple:
• Extract features
• Label: If c == groundtruth: label POS, else NEG
• Train binary classifier
33
Onderdeel van FD Mediagroep
Evaluation
• Take data, make train/test-split
• NER: ~85%
• EL: ~85%
• But: Data is noisy/biased
• + Manual inspection
34
Onderdeel van FD Mediagroep
Bonus: Entity Salience
• Based on [Reinanda et al., CIKM ‘16]
• Simple baseline approach:
• Prominence: where in the document is entity first mentioned?
• Frequency: how often is entity mentioned?
• Salience: math.sqrt(Prominence*Frequency)
35
Onderdeel van FD Mediagroep
Bonus: Sentiment analysis
• Simple Bag-of-Words binary classifier (Naive Bayes)
• Trained on hand-labeled data (~10k articles) (labeled POS/NEG.)
• Given article (TF-IDF weighted vector), predict {POS, NEG}
36
Onderdeel van FD Mediagroep
Document Enrichment
• On average; 0.24s/article;
1. NER: Feature extraction + Prediction
2. EL: Retrieve Candidates (one query per mention)
3. EL: Feature Extraction+Classification (for each candidate)
4. Entity Salience Scoring
5. Sentiment analysis
• Number of published articles per day: approx. +160%
• Number of linked orgs: approx. +310%
• Works 24h/day
• More “long tail” articles
37
Onderdeel van FD Mediagroep38
Applications
Onderdeel van FD Mediagroep
Burst detection/summarization
• Simple burst detection algo:
• Take rolling average of time series
• Take cutoff (e.g., mean+std)
• Any point over cutoff = burst
39
Nederlandse Aardolie Maatschappij B.V.
Onderdeel van FD Mediagroep
Burst detection/summarization
• Simple burst detection algo:
• Take rolling average of time series
• Take cutoff (e.g., mean+std)
• Any point over cutoff = burst
40
2016-08
• Groen licht voor oliewinning in Drenthe
• Robotkraan RoBorg aan boord van de Kroonborg
• Afvalwater NAM weer door Hardenberg naar Twente
• Minister Kamp: NAM mag weer afvalwater injecteren in Twentse bodem
• Nam hervat volgende maand waterinjectie
• “Vertrouwen in NAM en CVW naar absoluut dieptepunt.”
• Groen licht voor herstart oliewinning in Schoonebeek
• Groen licht voor oliewinning in Drenthe
• Oliewinning in Schoonebeek half september hervat
• TU Delft: 'Schadeonderzoek Arcadis deugt niet'
Nederlandse Aardolie Maatschappij B.V.
Onderdeel van FD Mediagroep
Burst detection/summarization
• Simple burst detection algo:
• Take rolling average of time series
• Take cutoff (e.g., mean+std)
• Any point over cutoff = burst
41
2016-08
• Groen licht voor oliewinning in Drenthe
• Robotkraan RoBorg aan boord van de Kroonborg
• Afvalwater NAM weer door Hardenberg naar Twente
• Minister Kamp: NAM mag weer afvalwater injecteren in Twentse bodem
• Nam hervat volgende maand waterinjectie
• “Vertrouwen in NAM en CVW naar absoluut dieptepunt.”
• Groen licht voor herstart oliewinning in Schoonebeek
• Groen licht voor oliewinning in Drenthe
• Oliewinning in Schoonebeek half september hervat
• TU Delft: 'Schadeonderzoek Arcadis deugt niet'
2017-03
- NAM aansprakelijk voor immateriële schade aardbevingen
- NAM aansprakelijk psychologische schade aardbevingen
- Aardbevingsellende: 'Het vreet aan ons'
- NAM aansprakelijk voor psychische schade bewoners aardbevingsgebied
- NAM aansprakelijk immateriële schade inwoners Groningenveld
- NAM ook aansprakelijk voor immateriële schade door aardbevingen
- Live: Rechtszaak immateriële schade door aardbevingen [afgelopen]
- NAM moet ook immateriële schade aardbevingen vergoeden
- 'Uitspraak is een mokerslag voor NAM en minister Kamp'
Nederlandse Aardolie Maatschappij B.V.
Onderdeel van FD Mediagroep
Sentiment+events
42
Onderdeel van FD Mediagroep
Sentiment+events
43
Onderdeel van FD Mediagroep
Sentiment+events
44
Onderdeel van FD Mediagroep
Affiliation Networks
45
Onderdeel van FD Mediagroep
As a feature
46
Onderdeel van FD Mediagroep
Fin
Questions?
@dvdgrs
www.graus.co
david.graus@fdmediagroep.nl
Refs:
D. Graus, M. Tsagkias, L. Buitinck, and M. de Rijke, “Generating pseudo-ground truth for predicting new concepts in social streams,” ECIR 2014
E. Meij, W. Weerkamp, and M. de Rijke, “Adding semantics to microblog posts,” WSDM 2012
R. Reinanda, E. Meij, and M. de Rijke, “Document Filtering for Long-tail Entities,” CIKM 2016
47

More Related Content

Similar to Financial News Mining @ FD Mediagroep/Company.info

Middagsessie 24 april 2015
Middagsessie 24 april 2015Middagsessie 24 april 2015
Middagsessie 24 april 2015Walter Grabner
 
Bi dutch meeting data science
Bi dutch meeting data scienceBi dutch meeting data science
Bi dutch meeting data sciencePiet J.H. Daas
 
HSB - NWO Onderzoeksprojecten - Jan Piet Barthel
HSB - NWO Onderzoeksprojecten - Jan Piet BarthelHSB - NWO Onderzoeksprojecten - Jan Piet Barthel
HSB - NWO Onderzoeksprojecten - Jan Piet BarthelSplend
 
Oktober 2012 Mediatraining TU Delft Roy Meijer en Michel van Baal
Oktober 2012 Mediatraining TU Delft Roy Meijer en Michel van BaalOktober 2012 Mediatraining TU Delft Roy Meijer en Michel van Baal
Oktober 2012 Mediatraining TU Delft Roy Meijer en Michel van BaalRoy Meijer
 
Waag Society, Apps for Amsterdam 2012
Waag Society, Apps for Amsterdam 2012Waag Society, Apps for Amsterdam 2012
Waag Society, Apps for Amsterdam 2012Ivonne Jansen
 
Datajournalistiek voor redacteuren van de telegraaf
Datajournalistiek voor redacteuren van de telegraafDatajournalistiek voor redacteuren van de telegraaf
Datajournalistiek voor redacteuren van de telegraafpeterverweij
 
Statistiek en Big Data: de kracht van visualizaties
Statistiek en Big Data: de kracht van visualizatiesStatistiek en Big Data: de kracht van visualizaties
Statistiek en Big Data: de kracht van visualizatiesPiet J.H. Daas
 
Nederland van boven - Kadaster - Open Data
Nederland van boven - Kadaster - Open DataNederland van boven - Kadaster - Open Data
Nederland van boven - Kadaster - Open DataJene van der Heide
 
Zoeken, vinden, en aanbevelen: personalisatie vs. privacy
Zoeken, vinden, en aanbevelen: personalisatie vs. privacyZoeken, vinden, en aanbevelen: personalisatie vs. privacy
Zoeken, vinden, en aanbevelen: personalisatie vs. privacyDavid Graus
 
Ontdek hoe 4 technologieën helpen bij fondsenwerving
Ontdek hoe 4 technologieën helpen bij fondsenwervingOntdek hoe 4 technologieën helpen bij fondsenwerving
Ontdek hoe 4 technologieën helpen bij fondsenwervingTechne IT Solutions
 
Wegwijs in EU-subsidies 2014-2020
Wegwijs in EU-subsidies 2014-2020Wegwijs in EU-subsidies 2014-2020
Wegwijs in EU-subsidies 2014-2020Joke Hofmans
 
Big data cbs_piet_daas
Big data cbs_piet_daasBig data cbs_piet_daas
Big data cbs_piet_daasPiet J.H. Daas
 
PhD Defense presentation - 16/12/2011
PhD Defense presentation - 16/12/2011PhD Defense presentation - 16/12/2011
PhD Defense presentation - 16/12/2011Ghent University
 
Krijgen we ooit de beschikking over slimme zoektechnologie?
Krijgen we ooit de beschikking over slimme zoektechnologie?Krijgen we ooit de beschikking over slimme zoektechnologie?
Krijgen we ooit de beschikking over slimme zoektechnologie?Leiden University
 

Similar to Financial News Mining @ FD Mediagroep/Company.info (17)

Middagsessie 24 april 2015
Middagsessie 24 april 2015Middagsessie 24 april 2015
Middagsessie 24 april 2015
 
Bi dutch meeting data science
Bi dutch meeting data scienceBi dutch meeting data science
Bi dutch meeting data science
 
HSB - NWO Onderzoeksprojecten - Jan Piet Barthel
HSB - NWO Onderzoeksprojecten - Jan Piet BarthelHSB - NWO Onderzoeksprojecten - Jan Piet Barthel
HSB - NWO Onderzoeksprojecten - Jan Piet Barthel
 
Oktober 2012 Mediatraining TU Delft Roy Meijer en Michel van Baal
Oktober 2012 Mediatraining TU Delft Roy Meijer en Michel van BaalOktober 2012 Mediatraining TU Delft Roy Meijer en Michel van Baal
Oktober 2012 Mediatraining TU Delft Roy Meijer en Michel van Baal
 
Waag Society, Apps for Amsterdam 2012
Waag Society, Apps for Amsterdam 2012Waag Society, Apps for Amsterdam 2012
Waag Society, Apps for Amsterdam 2012
 
Datajournalistiek voor redacteuren van de telegraaf
Datajournalistiek voor redacteuren van de telegraafDatajournalistiek voor redacteuren van de telegraaf
Datajournalistiek voor redacteuren van de telegraaf
 
Statistiek en Big Data: de kracht van visualizaties
Statistiek en Big Data: de kracht van visualizatiesStatistiek en Big Data: de kracht van visualizaties
Statistiek en Big Data: de kracht van visualizaties
 
Nederland van boven - Kadaster - Open Data
Nederland van boven - Kadaster - Open DataNederland van boven - Kadaster - Open Data
Nederland van boven - Kadaster - Open Data
 
Dhr Jos Lobee
Dhr Jos LobeeDhr Jos Lobee
Dhr Jos Lobee
 
Zoeken, vinden, en aanbevelen: personalisatie vs. privacy
Zoeken, vinden, en aanbevelen: personalisatie vs. privacyZoeken, vinden, en aanbevelen: personalisatie vs. privacy
Zoeken, vinden, en aanbevelen: personalisatie vs. privacy
 
Ontdek hoe 4 technologieën helpen bij fondsenwerving
Ontdek hoe 4 technologieën helpen bij fondsenwervingOntdek hoe 4 technologieën helpen bij fondsenwerving
Ontdek hoe 4 technologieën helpen bij fondsenwerving
 
Wegwijs in EU-subsidies 2014-2020
Wegwijs in EU-subsidies 2014-2020Wegwijs in EU-subsidies 2014-2020
Wegwijs in EU-subsidies 2014-2020
 
Big data cbs_piet_daas
Big data cbs_piet_daasBig data cbs_piet_daas
Big data cbs_piet_daas
 
BeBright MROC
BeBright MROCBeBright MROC
BeBright MROC
 
Werkgroep Open Data
Werkgroep Open DataWerkgroep Open Data
Werkgroep Open Data
 
PhD Defense presentation - 16/12/2011
PhD Defense presentation - 16/12/2011PhD Defense presentation - 16/12/2011
PhD Defense presentation - 16/12/2011
 
Krijgen we ooit de beschikking over slimme zoektechnologie?
Krijgen we ooit de beschikking over slimme zoektechnologie?Krijgen we ooit de beschikking over slimme zoektechnologie?
Krijgen we ooit de beschikking over slimme zoektechnologie?
 

More from David Graus

Pragmatic ethical and fair AI for data scientists
Pragmatic ethical and fair AI for data scientistsPragmatic ethical and fair AI for data scientists
Pragmatic ethical and fair AI for data scientistsDavid Graus
 
Bias in Recommendations
Bias in RecommendationsBias in Recommendations
Bias in RecommendationsDavid Graus
 
RecSys in the Media Industry: Relevance, Recency, Popularity, and Diversity.
RecSys in the Media Industry: Relevance, Recency, Popularity, and Diversity.RecSys in the Media Industry: Relevance, Recency, Popularity, and Diversity.
RecSys in the Media Industry: Relevance, Recency, Popularity, and Diversity.David Graus
 
CAT/AI: Computer Assisted Translation 
Assessment for Impact
CAT/AI: Computer Assisted Translation 
Assessment for ImpactCAT/AI: Computer Assisted Translation 
Assessment for Impact
CAT/AI: Computer Assisted Translation 
Assessment for ImpactDavid Graus
 
Opening the Black Box of User Profiles in Content-based Recommender Systems
Opening the Black Box of User Profiles in Content-based Recommender SystemsOpening the Black Box of User Profiles in Content-based Recommender Systems
Opening the Black Box of User Profiles in Content-based Recommender SystemsDavid Graus
 
Layman's Talk: Entities of Interest --- Discovery in Digital Traces
Layman's Talk: Entities of Interest --- Discovery in Digital TracesLayman's Talk: Entities of Interest --- Discovery in Digital Traces
Layman's Talk: Entities of Interest --- Discovery in Digital TracesDavid Graus
 
De Macht van Data --- Hoe algoritmen ons leven vormgeven
De Macht van Data --- Hoe algoritmen ons leven vormgevenDe Macht van Data --- Hoe algoritmen ons leven vormgeven
De Macht van Data --- Hoe algoritmen ons leven vormgevenDavid Graus
 
Big Data & Machine Learning - Mogelijkheden & Valkuilen
Big Data & Machine Learning - Mogelijkheden & ValkuilenBig Data & Machine Learning - Mogelijkheden & Valkuilen
Big Data & Machine Learning - Mogelijkheden & ValkuilenDavid Graus
 
Analyzing and Predicting Task Reminders
Analyzing and Predicting Task RemindersAnalyzing and Predicting Task Reminders
Analyzing and Predicting Task RemindersDavid Graus
 
Dynamic Collective Entity Representations for Entity Ranking
Dynamic Collective Entity Representations for Entity RankingDynamic Collective Entity Representations for Entity Ranking
Dynamic Collective Entity Representations for Entity RankingDavid Graus
 
Dynamic Collective Entity Representations for Entity Ranking
Dynamic Collective Entity Representations for Entity RankingDynamic Collective Entity Representations for Entity Ranking
Dynamic Collective Entity Representations for Entity RankingDavid Graus
 
Understanding Email Traffic
Understanding Email TrafficUnderstanding Email Traffic
Understanding Email TrafficDavid Graus
 
David Graus - Entity Linking (at SEA), Search Engines Amsterdam, Fri June 27th
David Graus - Entity Linking (at SEA), Search Engines Amsterdam, Fri June 27thDavid Graus - Entity Linking (at SEA), Search Engines Amsterdam, Fri June 27th
David Graus - Entity Linking (at SEA), Search Engines Amsterdam, Fri June 27thDavid Graus
 
Understanding Email Traffic (talk @ E-Discovery NL Symposium)
Understanding Email Traffic (talk @ E-Discovery NL Symposium)Understanding Email Traffic (talk @ E-Discovery NL Symposium)
Understanding Email Traffic (talk @ E-Discovery NL Symposium)David Graus
 
Generating Pseudo-ground Truth for Detecting New Concepts in Social Streams
Generating Pseudo-ground Truth for Detecting New Concepts in Social StreamsGenerating Pseudo-ground Truth for Detecting New Concepts in Social Streams
Generating Pseudo-ground Truth for Detecting New Concepts in Social StreamsDavid Graus
 
yourHistory - entity linking for a personalized timeline of historic events
yourHistory - entity linking for a personalized timeline of historic eventsyourHistory - entity linking for a personalized timeline of historic events
yourHistory - entity linking for a personalized timeline of historic eventsDavid Graus
 
Semantic Search in E-Discovery
Semantic Search in E-DiscoverySemantic Search in E-Discovery
Semantic Search in E-DiscoveryDavid Graus
 
Semantic Annotation of the Cyttron Database
Semantic Annotation of the Cyttron DatabaseSemantic Annotation of the Cyttron Database
Semantic Annotation of the Cyttron DatabaseDavid Graus
 
Semantic annotation, clustering and visualization
Semantic annotation, clustering and visualizationSemantic annotation, clustering and visualization
Semantic annotation, clustering and visualizationDavid Graus
 

More from David Graus (19)

Pragmatic ethical and fair AI for data scientists
Pragmatic ethical and fair AI for data scientistsPragmatic ethical and fair AI for data scientists
Pragmatic ethical and fair AI for data scientists
 
Bias in Recommendations
Bias in RecommendationsBias in Recommendations
Bias in Recommendations
 
RecSys in the Media Industry: Relevance, Recency, Popularity, and Diversity.
RecSys in the Media Industry: Relevance, Recency, Popularity, and Diversity.RecSys in the Media Industry: Relevance, Recency, Popularity, and Diversity.
RecSys in the Media Industry: Relevance, Recency, Popularity, and Diversity.
 
CAT/AI: Computer Assisted Translation 
Assessment for Impact
CAT/AI: Computer Assisted Translation 
Assessment for ImpactCAT/AI: Computer Assisted Translation 
Assessment for Impact
CAT/AI: Computer Assisted Translation 
Assessment for Impact
 
Opening the Black Box of User Profiles in Content-based Recommender Systems
Opening the Black Box of User Profiles in Content-based Recommender SystemsOpening the Black Box of User Profiles in Content-based Recommender Systems
Opening the Black Box of User Profiles in Content-based Recommender Systems
 
Layman's Talk: Entities of Interest --- Discovery in Digital Traces
Layman's Talk: Entities of Interest --- Discovery in Digital TracesLayman's Talk: Entities of Interest --- Discovery in Digital Traces
Layman's Talk: Entities of Interest --- Discovery in Digital Traces
 
De Macht van Data --- Hoe algoritmen ons leven vormgeven
De Macht van Data --- Hoe algoritmen ons leven vormgevenDe Macht van Data --- Hoe algoritmen ons leven vormgeven
De Macht van Data --- Hoe algoritmen ons leven vormgeven
 
Big Data & Machine Learning - Mogelijkheden & Valkuilen
Big Data & Machine Learning - Mogelijkheden & ValkuilenBig Data & Machine Learning - Mogelijkheden & Valkuilen
Big Data & Machine Learning - Mogelijkheden & Valkuilen
 
Analyzing and Predicting Task Reminders
Analyzing and Predicting Task RemindersAnalyzing and Predicting Task Reminders
Analyzing and Predicting Task Reminders
 
Dynamic Collective Entity Representations for Entity Ranking
Dynamic Collective Entity Representations for Entity RankingDynamic Collective Entity Representations for Entity Ranking
Dynamic Collective Entity Representations for Entity Ranking
 
Dynamic Collective Entity Representations for Entity Ranking
Dynamic Collective Entity Representations for Entity RankingDynamic Collective Entity Representations for Entity Ranking
Dynamic Collective Entity Representations for Entity Ranking
 
Understanding Email Traffic
Understanding Email TrafficUnderstanding Email Traffic
Understanding Email Traffic
 
David Graus - Entity Linking (at SEA), Search Engines Amsterdam, Fri June 27th
David Graus - Entity Linking (at SEA), Search Engines Amsterdam, Fri June 27thDavid Graus - Entity Linking (at SEA), Search Engines Amsterdam, Fri June 27th
David Graus - Entity Linking (at SEA), Search Engines Amsterdam, Fri June 27th
 
Understanding Email Traffic (talk @ E-Discovery NL Symposium)
Understanding Email Traffic (talk @ E-Discovery NL Symposium)Understanding Email Traffic (talk @ E-Discovery NL Symposium)
Understanding Email Traffic (talk @ E-Discovery NL Symposium)
 
Generating Pseudo-ground Truth for Detecting New Concepts in Social Streams
Generating Pseudo-ground Truth for Detecting New Concepts in Social StreamsGenerating Pseudo-ground Truth for Detecting New Concepts in Social Streams
Generating Pseudo-ground Truth for Detecting New Concepts in Social Streams
 
yourHistory - entity linking for a personalized timeline of historic events
yourHistory - entity linking for a personalized timeline of historic eventsyourHistory - entity linking for a personalized timeline of historic events
yourHistory - entity linking for a personalized timeline of historic events
 
Semantic Search in E-Discovery
Semantic Search in E-DiscoverySemantic Search in E-Discovery
Semantic Search in E-Discovery
 
Semantic Annotation of the Cyttron Database
Semantic Annotation of the Cyttron DatabaseSemantic Annotation of the Cyttron Database
Semantic Annotation of the Cyttron Database
 
Semantic annotation, clustering and visualization
Semantic annotation, clustering and visualizationSemantic annotation, clustering and visualization
Semantic annotation, clustering and visualization
 

Financial News Mining @ FD Mediagroep/Company.info

  • 1. Onderdeel van FD MediagroepOnderdeel van FD Mediagroep Financial News Mining Data Science Northeast Netherlands Meetup, 16 Nov 2017 Onderdeel van FD Mediagroep
  • 2. Onderdeel van FD Mediagroep Who am I? • • BA. Media Studies (UvA) • Science editor (NTR) • MSc. Media Technology (Leiden) • Ph.D Information Retrieval @ UvA (2017) • “Entities of Interest --- Discovery in Digital Traces” • Data Scientist at FD Mediagroep/Company.info 2
  • 3. Onderdeel van FD Mediagroep Outline • Financial News @ FDMG/Company.info • Entity Linking • What is • Entity Linking with custom KB: • Approach • Results • Applications 3
  • 4. Onderdeel van FD Mediagroep FD Mediagroep 4
  • 5. Onderdeel van FD Mediagroep5
  • 6. Onderdeel van FD Mediagroep6
  • 7. Onderdeel van FD Mediagroep7
  • 8. Onderdeel van FD Mediagroep8
  • 9. Onderdeel van FD Mediagroep9 Financial News
  • 10. Onderdeel van FD Mediagroep10
  • 11. Onderdeel van FD Mediagroep11
  • 12. Onderdeel van FD Mediagroep12
  • 13. Onderdeel van FD Mediagroep13
  • 14. Onderdeel van FD Mediagroep14
  • 15. Onderdeel van FD Mediagroep Data • News articles: • Hundreds of sources (Dutch, online) • From Het Financieele Dagblad to the Groninger Gezinsbode • Thousands of articles per day • Multiple years of archive • Knowledge Base: • ~2.7M companies & organisations • Rich metadata: sector information, financial information, people, buildings, etc… 15
  • 16. Onderdeel van FD Mediagroep Linking companies in news • Before: humans • Now: machines 16
  • 17. Onderdeel van FD Mediagroep17 Entity Linking
  • 18. Onderdeel van FD Mediagroep Entity Linking 1. Identify entity mentions (words that refer to organisations) • NER: Named-entity Recognition 2. Link entity mentions to unique ID of entities in KB (KvK #) • EL: Entity Linking • Aka Entity Resolution • Aka Entity Disambiguation 18
  • 19. Onderdeel van FD Mediagroep19
  • 20. Onderdeel van FD Mediagroep Step 1: NER • De Hoge Dennen Capital heeft een minderheidsbelang genomen in Pseudonimiseer, een Amsterdamse start-up die is gespecialiseerd in privacybescherming bij data-analyse. 20
  • 21. Onderdeel van FD Mediagroep Step 1: NER • De Hoge Dennen Capital heeft een minderheidsbelang genomen in Pseudonimiseer, een Amsterdamse start-up die is gespecialiseerd in privacybescherming bij data-analyse. 21
  • 22. Onderdeel van FD Mediagroep Step 2: EL • De Hoge Dennen Capital heeft een minderheidsbelang genomen in Pseudonimiseer, een Amsterdamse start-up die is gespecialiseerd in privacybescherming bij data-analyse. • Hoge Dennen Capital -> 32102936 0000 • Pseudonimiseer -> 58388702 0000 22
  • 23. Onderdeel van FD Mediagroep Step 2: EL • De Hoge Dennen Capital heeft een minderheidsbelang genomen in Pseudonimiseer, een Amsterdamse start-up die is gespecialiseerd in privacybescherming bij data-analyse. • Hoge Dennen Capital -> 32102936 0000 (De Hoge Dennen Capital B.V.) • Pseudonimiseer -> 58388702 0000 (Viacryp B.V.) 23
  • 24. Onderdeel van FD Mediagroep Challenges • A single entity mention can refer to multiple entities 24
  • 25. Onderdeel van FD Mediagroep Challenges • A single entity can be referred to by multiple entity mentions 25
  • 26. Onderdeel van FD Mediagroep26 Approach
  • 27. Onderdeel van FD Mediagroep Approach: NER • NER: Sequence Prediction • Based on [Graus et al., ECIR ‘14] • B-I-O scheme • Beginning of entity mention • Inside entity mention • Outside entity mention • E.g.: “Daarnaast sloot het bedrijf twee nieuwe overeenkomsten met Xenos en Big Bazar voor in totaal 2000 vierkante meter voor een periode van 10 jaar.” 27 Daarnaast sloot het bedrijf twee nieuwe overeenkomsten met Xenos en Big Bazar voor in totaal 2000 vierkante meter voor een periode van 10 jaar .
  • 28. Onderdeel van FD Mediagroep Approach: NER • NER: Sequence Prediction • Based on [Graus et al., ECIR ‘14] • B-I-O scheme • Beginning of entity mention • Inside entity mention • Outside entity mention • E.g.: “Daarnaast sloot het bedrijf twee nieuwe overeenkomsten met Xenos en Big Bazar voor in totaal 2000 vierkante meter voor een periode van 10 jaar.” 28 Daarnaast O sloot O het O bedrijf O twee O nieuwe O overeenkomsten O met O Xenos B-ORG en O Big B-ORG Bazar I-ORG voor O in O totaal O 2000 O vierkante O meter O voor O een O periode O van O 10 O jaar O . O
  • 29. Onderdeel van FD Mediagroep Approach: NER • Features (for token t in sentence s): • Token-identity: token=Xenos • Word-shape: TokenIsCaps={1,0}, TokenIsNumber={1,0}, … • Context: prevToken=met, nextToken=en, … • Dictionary: TokenInCompanyDict={1,0}, InPersonNameDict={1,0}, … • Corpus: token’s TF-IDF weight, token’s word-cluster membership, … • And more… • Structured Perceptron • Predict tag {B, I, O} 29 Daarnaast O sloot O het O bedrijf O twee O nieuwe O overeenkomsten O met O Xenos B-ORG en O Big B-ORG Bazar I-ORG voor O in O totaal O 2000 O vierkante O meter O voor O een O periode O van O 10 O jaar O . O
  • 30. Onderdeel van FD Mediagroep Approach: EL • Common: Linking to Wikipedia 30
  • 31. Onderdeel van FD Mediagroep EL 2 Wikipedia • Use mappings; • Anchor texts to Wikipedia pages. • Kendrick Lamar -> Kendrick_Lamar • Kendrick Duckworth -> Kendrick_Lamar • Use statistics; • How often are words used as anchor? • To which pages do they link? 31
  • 32. Onderdeel van FD Mediagroep Approach: EL • Custom KB – Custom features • Based on [Meij et al., WSDM ‘12] 1. Binary classification, for each mention m: • Retrieve candidate organisations (query CI database with m) 2. For c in candidates: • Entity features: Turnover, Size, etc… • Mention features: MentionLength, etc… • Entity-Mention features: MentionTitleOverlap, etc… • Doc features: WoonplaatsInDocument, etc… • Classify(m, c, doc) -> score 3. Take top-ranked entity 32
  • 33. Onderdeel van FD Mediagroep Data • Multiple years of (hand-labeled) articles. • NER: • Split article into sentences • Filter sentences with at least 2 entity mentions • EL: • Apply NER to article • For each mention (m) in doc: • Query KB (retrieve 20 candidates) • For each <m, c, doc>-tuple: • Extract features • Label: If c == groundtruth: label POS, else NEG • Train binary classifier 33
  • 34. Onderdeel van FD Mediagroep Evaluation • Take data, make train/test-split • NER: ~85% • EL: ~85% • But: Data is noisy/biased • + Manual inspection 34
  • 35. Onderdeel van FD Mediagroep Bonus: Entity Salience • Based on [Reinanda et al., CIKM ‘16] • Simple baseline approach: • Prominence: where in the document is entity first mentioned? • Frequency: how often is entity mentioned? • Salience: math.sqrt(Prominence*Frequency) 35
  • 36. Onderdeel van FD Mediagroep Bonus: Sentiment analysis • Simple Bag-of-Words binary classifier (Naive Bayes) • Trained on hand-labeled data (~10k articles) (labeled POS/NEG.) • Given article (TF-IDF weighted vector), predict {POS, NEG} 36
  • 37. Onderdeel van FD Mediagroep Document Enrichment • On average; 0.24s/article; 1. NER: Feature extraction + Prediction 2. EL: Retrieve Candidates (one query per mention) 3. EL: Feature Extraction+Classification (for each candidate) 4. Entity Salience Scoring 5. Sentiment analysis • Number of published articles per day: approx. +160% • Number of linked orgs: approx. +310% • Works 24h/day • More “long tail” articles 37
  • 38. Onderdeel van FD Mediagroep38 Applications
  • 39. Onderdeel van FD Mediagroep Burst detection/summarization • Simple burst detection algo: • Take rolling average of time series • Take cutoff (e.g., mean+std) • Any point over cutoff = burst 39 Nederlandse Aardolie Maatschappij B.V.
  • 40. Onderdeel van FD Mediagroep Burst detection/summarization • Simple burst detection algo: • Take rolling average of time series • Take cutoff (e.g., mean+std) • Any point over cutoff = burst 40 2016-08 • Groen licht voor oliewinning in Drenthe • Robotkraan RoBorg aan boord van de Kroonborg • Afvalwater NAM weer door Hardenberg naar Twente • Minister Kamp: NAM mag weer afvalwater injecteren in Twentse bodem • Nam hervat volgende maand waterinjectie • “Vertrouwen in NAM en CVW naar absoluut dieptepunt.” • Groen licht voor herstart oliewinning in Schoonebeek • Groen licht voor oliewinning in Drenthe • Oliewinning in Schoonebeek half september hervat • TU Delft: 'Schadeonderzoek Arcadis deugt niet' Nederlandse Aardolie Maatschappij B.V.
  • 41. Onderdeel van FD Mediagroep Burst detection/summarization • Simple burst detection algo: • Take rolling average of time series • Take cutoff (e.g., mean+std) • Any point over cutoff = burst 41 2016-08 • Groen licht voor oliewinning in Drenthe • Robotkraan RoBorg aan boord van de Kroonborg • Afvalwater NAM weer door Hardenberg naar Twente • Minister Kamp: NAM mag weer afvalwater injecteren in Twentse bodem • Nam hervat volgende maand waterinjectie • “Vertrouwen in NAM en CVW naar absoluut dieptepunt.” • Groen licht voor herstart oliewinning in Schoonebeek • Groen licht voor oliewinning in Drenthe • Oliewinning in Schoonebeek half september hervat • TU Delft: 'Schadeonderzoek Arcadis deugt niet' 2017-03 - NAM aansprakelijk voor immateriële schade aardbevingen - NAM aansprakelijk psychologische schade aardbevingen - Aardbevingsellende: 'Het vreet aan ons' - NAM aansprakelijk voor psychische schade bewoners aardbevingsgebied - NAM aansprakelijk immateriële schade inwoners Groningenveld - NAM ook aansprakelijk voor immateriële schade door aardbevingen - Live: Rechtszaak immateriële schade door aardbevingen [afgelopen] - NAM moet ook immateriële schade aardbevingen vergoeden - 'Uitspraak is een mokerslag voor NAM en minister Kamp' Nederlandse Aardolie Maatschappij B.V.
  • 42. Onderdeel van FD Mediagroep Sentiment+events 42
  • 43. Onderdeel van FD Mediagroep Sentiment+events 43
  • 44. Onderdeel van FD Mediagroep Sentiment+events 44
  • 45. Onderdeel van FD Mediagroep Affiliation Networks 45
  • 46. Onderdeel van FD Mediagroep As a feature 46
  • 47. Onderdeel van FD Mediagroep Fin Questions? @dvdgrs www.graus.co david.graus@fdmediagroep.nl Refs: D. Graus, M. Tsagkias, L. Buitinck, and M. de Rijke, “Generating pseudo-ground truth for predicting new concepts in social streams,” ECIR 2014 E. Meij, W. Weerkamp, and M. de Rijke, “Adding semantics to microblog posts,” WSDM 2012 R. Reinanda, E. Meij, and M. de Rijke, “Document Filtering for Long-tail Entities,” CIKM 2016 47

Editor's Notes

  1. - age-old problem, particularly when ‘clean data’ is available pretty much solved
  2. 10 years ago very popular. Adding semantics to documents, more explicit than implicit models (e.g., topic models).
  3. Some issues w/ evaluation; the ‘ground truth’ data is biased, manual inspection
  4. + Competitor networks + Sector classification + Relatedness
  5. In CI, but why not in recommender systems, etc.?