SlideShare a Scribd company logo
1 of 76
Download to read offline
Zoeken, vinden, en
aanbevelen:
personalisatie vs. privacy
David Graus
@dvdgrs
VOGIN-IP-lezing / 28 maart 2018
Wie ben ik?
Wie ben ik?
Wie ben ik?
Wie ben ik?
Vandaag
1. Inleiding

a. Wat is personalisatie?

b. Waarom?

2. Inhoud: Hoe personalisatie?

3. De filter bubbel bestaat niet
Subjectiviteit!
1a. Wat is personalisatie?
Personalized results
Personalisatie is:
• Zoeken en vinden

• op basis van persoonlijke {context, voorkeuren, smaak,
profiel}
1b. Waarom personaliseren?
1: het MOET
1: het MOET
• Relevantie van zoekresultaten is:

• Subjectief [low inter-annotator agreement]
• Afhankelijk van (voor)kennis

• Afhankelijk van interesse in onderwerp

• Dynamisch
• Afhankelijk van tijd

• Afhankelijk van welke resultaten zijn bekeken
[1] Mizarro, “Relevance: The Whole History” (1997)
1: het MOET
• Hoeveelheid data

• “High-precision” search
Personalized results
2: het is GOED
• Iedereen wint: 

• “Consument” 

• “Discover items you might not have found otherwise”
• “Producent”

• Vergroot bereik

• Ontsluit de long-tail
https://www.slideshare.net/DungManhChu/fd-recommendation-engine-in-personalized-newsletters
https://www.slideshare.net/DungManhChu/fd-recommendation-engine-in-personalized-newsletters
Click through A/B-test groups
https://www.slideshare.net/DungManhChu/fd-recommendation-engine-in-personalized-newsletters
https://www.slideshare.net/DungManhChu/fd-recommendation-engine-in-personalized-newsletters
Samenvattend
• Personalisatie moet: 

• Relevantie is persoonsgebonden & contextafhankelijk.

• Noodzakelijk om dingen te kunnen vinden op web-
schaal.

• Personalisatie is goed: 

• Lever de juiste info bij de juist doelgroep, verbeter
informatieontsluiting.
2. Hoe?
User profiling!
I. Content-based
• Op basis van (meta)data van items
Content-based op basis
van gebruikersprofiel
Content-based op basis
van gebruikersprofiel
Users Items
RecSys
MatchingUser Profile Item profile
Users
User Profile
Qualcomm krijgt bijna €1 mrd
boete van Brussel
Tags: Boete, Chips, EU, Mededinging, …
Rubriek: Ondernemen
Stylometrie: Aantal woorden: 635
Entities: Qualcomm, Apple, NXP, Intel, Google
Tags: Boete, Chips, EU, Mededinging, …
Rubriek: Ondernemen
Stylometrie: Aantal woorden: 635
Entities: Qualcomm, Apple, NXP, Intel, Google
Content-based op basis
van gebruikersprofiel
Users
User Profile
Qualcomm krijgt bijna €1 mrd
boete van Brussel
Tags: Boete, Chips, EU, Mededinging, …
Big Data, Blog, Davos, Google, Technologie
Rubriek: Ondernemen, Davos
Stylometrie: 635 woorden, 524 woorden
Entities: Qualcomm, Apple (2), NXP, Intel,
Google (2), Microsoft, Salesforce
Topman van softwaremaker Salesforce
kraakt grote techbedrijven
Tags: Big Data, Blog, Davos, Google,
Technologie
Rubriek: Davos
Stylometrie: 524 woorden
Entities: Google, Apple, Microsoft, Salesforce
Content-based op basis
van gebruikersprofiel
Users Items
RecSys
Matching
0.352
0.795
0.125
0.643
Content-based op basis
van gebruikersprofiel
II. Collaborative Filtering
Make predictions (“filtering”) about the interests of a user, by
collecting preferences from many users (“collaborating”)
Collaborative Filtering
Moshanin, CC BY-SA 3.0, https://commons.wikimedia.org/w/index.php?curid=24097346
Collaborative Filtering
Moshanin, CC BY-SA 3.0, https://commons.wikimedia.org/w/index.php?curid=24097346
Collaborative Filtering
Moshanin, CC BY-SA 3.0, https://commons.wikimedia.org/w/index.php?curid=24097346
Collaborative Filtering
Moshanin, CC BY-SA 3.0, https://commons.wikimedia.org/w/index.php?curid=24097346
Collaborative Filtering
Moshanin, CC BY-SA 3.0, https://commons.wikimedia.org/w/index.php?curid=24097346
Collaborative Filtering
• Voordelen:

• Surprising effect
• Nadelen:

• Veel ‘gedrag’ nodig

• “Cold start”
III. Evalueer+leer
• Korte termijn: Genereer rankings op basis van
voorspellingen, meet ‘kwaliteit’

• Lange(re) termijn: average time on page, aantal bezochte
pagina’s, returning visits, etc.
Samenvattend
• Schat voorkeuren in op basis van gedrag;

• Van één gebruiker

• Van een groep/alle gebruikers

• Voorspel voorkeuren

• Meet effect (evalueer)
What about
the Filter Bubbel?
By Knight Foundation - Eli Pariser, author of The Filter Bubble, 

CC BY-SA 2.0, https://commons.wikimedia.org/w/index.php?curid=19516187
Filter bubbel
“A filter bubble is a state of intellectual isolation that can
result from personalized searches when a
website algorithm selectively guesses what information a user
would like to see based on information about the user.”
Filter bubbel
“Users become separated from information that disagrees
with their viewpoints, effectively isolating them in their own
cultural or ideological bubbles.”
De filterbubbel
bestaat niet!
1. Moeten we ons zorgen
maken?
1. Moeten we ons zorgen
maken?
[We] focus on empirical evidence of the spread of
personalised news services and its likely effects on
political polarisation and political information.
[Zuiderveen Borgesius et al., 2016]
1. Moeten we ons zorgen
maken?
• Het blijkt moeilijk jezelf volledig in een bubbel op te sluiten:

• Zowel offline:

• “Those who use a lot of partisan information also use an above-average
amount of mainstream news.”

• “[M]ost people by far still get their news via traditional sources, most
notably public-service television.”

• Als online:

• “People who choose personalisation are more likely to use an above-
average amount of general-interest news as well.”

• “A recent study suggests that the influence of [the Facebook] algorithm is
lower than the influence of the user’s choices.”
[Zuiderveen Borgesius et al., 2016]
1. Moeten we ons zorgen
maken?
• “[T]here is no empirical evidence that warrants any
strong worries about filter bubbles.”

• “One lesson we should have learned from the past is that
panic does not lead to sane policies. More evidence is
needed on the process and effects of personalisation,
so we can shift the basis of policy discussions from fear
to insight.”
[Zuiderveen Borgesius et al., 2016]
1. Moeten we ons zorgen
maken?
“Personalisation on news sites is still at an infant stage, and
personalised content does not constitute a substantial
information source for most citizens.”
[Zuiderveen Borgesius et al., 2016]
Take-home
• We hoeven ons geen zorgen te maken.
2. Kom maar op met dat
empirisch bewijs
2. Methode
1. 👤
1. Verzamel 200 vrijwilligers met Google accounts.

2. Laat ze dezelfde zoekopdrachten invoeren.

3. Vergelijk resultaten.

2. 🤖
1. Maak Google “bots” (kunstmatige accounts). 

• Varieer aspecten als locatie, demografische informatie, klikgedrag,
browsegeschiedenis, zoekgeschiedenis, etc.

2. Laat ze dezelfde zoekopdrachten invoeren.

3. Vergelijk resultaten.
[Hannák et al., 2013]
2. Bevindingen 👤
• On average, 11.7% of results show differences due to
personalization on Google. 

• Top ranks tend to be less personalized than bottom
ranks.
[Hannák et al., 2013]
2. Bevindingen 👤
• ✅ A great deal of
personalization based on
location (especially for
company names, where users
received different store
locations). 

• ❌ The least personalized
results tend to be factual and
health related queries.
[Hannák et al., 2013]
2. Bevindingen 🤖
✅ Ingelogde vs. “cleared cookies” gebruikers

✅ Geolocatie

❌ Gender 

❌ Age

❌ Search history

❌ Click history

❌ Browsing history
[Hannák et al., 2013]
Take-home
• Het valt allemaal wel mee, met die filter bubbel…
3. Meer empirisch bewijs
3. Methode
• Deel MovieLens (een film aanbeveling (CF) & rating site)
gebruikers in twee groepen:

• Volgers: gebruikers die films uit hun aanbevelingen raten.

• Negeerders: gebruikers die films raten die niet in hun
aanbevelingen staan. 

• Vergelijk tussen beide groepen, over tijd:

• Diversiteit van aanbevelingen

• Waardering voor films
[Nguyen et al., 2014]
3. Bevindingen
1. Diversiteit: 

• Bij zowel volgers als negeerders daalt de diversiteit van
hun aanbevelingen over tijd.

• Die daling is sterker bij negeerders dan bij volgers (!)

2. Waardering:
• Bij negeerders daalt de gemiddelde score (3.74 naar 3.55).

• Bij volgers blijft hij stabiel (rond de 3.68).
[Nguyen et al., 2014]
Take-home
Een aanbevelingssysteem kan een bubbel-vertragend-effect hebben.
4. Breek de bubbel
4. Doel
Increase exposure to varied political opinions 

with a goal of improving civil discourse
[Yom-Tov et al. 2014]
4. Methode
• Deel zoekmachinegebruikers in op political leaning (op
basis van geo/kiesdistrict)
[Yom-Tov et al. 2014]
4. Methode
• Ken (op basis van gebruikers+bezochte nieuwssites) de
onderliggende nieuwsbronnen political leaning-score toe.
[Yom-Tov et al. 2014]
4. Methode
• Identificeer gepolariseerde zoekopdrachten (met sterke
political leaning beide kanten op).
[Yom-Tov et al. 2014]
4. Methode
• Treatment group: Meng bij zoekresultaten bij blauwe
gebruikers rode websites in, en bij rode gebruikers
blauwe websites.

• Control group: Pas de zoekresultaten niet aan.
[Yom-Tov et al. 2014]
4. Methode
1. Korte termijn: Vergelijk clicks/gedrag tussen treatment
group & control group.

2. Lange termijn: meet gedurende twee weken, per
gebruiker:

1. Polarisatie: Het verschil tussen leaning-score van een
gebruiker t.o.v. de gemiddelde leaning van alle
bronnen.

2. Engagement: Gemiddeld aantal zoekopdrachten +
gemiddeld aantal gelezen artikelen.
4. Bevindingen 1
• Minder clicks op de ingemengde opposing
nieuwsbronnen.

• Maar, wanneer een opposing nieuwsbron kwa taalgebruik
lijkt op dat van (wat) de gebruiker (leest), is een gebruiker
eerder geneigd het artikel te lezen. 

• “Results pages of the opposing viewpoint which had a
similarity higher than the average tended to be
clicked 38% more than those below the average.”
[Yom-Tov et al. 2014]
4. Bevindingen 2
• Polarisatie: 

• Treatment: gemiddelde leaning ‘daalt’ ~25% naar centrum

• Control: verwaarloosbare verschuiving (1%)

• Engagement: 

• Treatment: Aantal zoekopdrachten: +9% / artikelen: +4%

• Control: Lichte afname in beiden (~2.5%)
[Yom-Tov et al. 2014]
Take-home
• Je kunt mensen ‘nudgen’ om hun gedrag te ‘manipuleren’

• [Vermoedelijk] alleen bij mensen die ‘zweven’/niet sterk
gepolariseerd zijn.

• Is in die context een nudge niet een democratisch goed?
[Yom-Tov et al. 2014]
5. Hoe vergelijkt een aanbeveling
van een 🤖 met die van een 👤
5. Methode
• 🤖 Genereer aanbevelingen bij Volkskrant artikelen op basis van
verschillende (standaard) aanbevelingssystemen (CF & CB).

• 👤 Vergelijk met handgeselecteerde aanbevelingen van redactie.

• Meet “diversiteit” van artikelen in een set aanbevelingen:

• artikelinhoud

• tags

• categorieën

• sentiment/subjectiviteit
[Möller et al. 2018]
5. Bevindingen
“Conventional recommendation algorithms at least preserve
the topic/sentiment diversity of the article supply.”
[Möller et al. 2018]
Take-home
• Diversiteit blijft behouden bij geautomatiseerde
aanbevelingen.
[Möller et al. 2018]
Daarnaast
• Technisch: Diversiteit kun je kwantificeren én inbouwen
(en willekeur is triviaal).

• Technisch: Feedback loop + “diversity in recommendation
sets increases user satisfaction” — aannemelijk dat
diversiteit ingebakken zit/als bijeffect komt.

• Technisch: Je weet nog niks van een nieuw item; je zult
die moeten aanbieden om signaal te krijgen.
Refs
1. Zuiderveen Borgesius, F. & Trilling, D. & Möller, J. & Bodó, B. & de Vreese, C. & Helberger, N. (2016).
Should we worry about filter bubbles?. Internet Policy Review, 5(1). DOI: 10.14763/2016.1.401

2. Hannák, A. & Sapiezynski, P & Kakhki, A.M. & Krishnamurthy, B. & Lazer, D. & Mislove, A, & Wilson, C,
(2013). Measuring personalization of web search. In Proceedings of the 22nd international conference
on World Wide Web (WWW '13). ACM, New York, NY, USA, 527-538. DOI: 10.1145/2488388.2488435

3. Nguyen, T. T. & Hui, P. M. & Harper, F. M. & Terveen, L. & Konstan, J. A. (2014). Exploring the filter
bubble: the effect of using recommender systems on content diversity. In Proceedings of the 23rd
international conference on World wide web (WWW '14). ACM, New York, NY, USA, 677-686. DOI:
10.1145/2566486.2568012

4. Yom-Tov, E. & Dumais, S. & Guo, Q. (2014). Promoting Civil Discourse Through Search Engine
Diversity. Soc. Sci. Comput. Rev. 32, 2 (April 2014), 145-154. DOI: 10.1177/0894439313506838 

5. Möller, J. & Trilling, D. & Helberger, N. & van Es, B. (2018). Do not blame it on the algorithm: an
empirical assessment of multiple recommender systems and their impact on content
diversity. Information, Communication & Society, DOI: 10.1080/1369118X.2018.1444076
Dank!
David Graus
@dvdgrs

More Related Content

Similar to Zoeken, vinden, en aanbevelen: personalisatie vs. privacy

Workshop social media en arbeidsmarktcommunicatie
Workshop social media en arbeidsmarktcommunicatieWorkshop social media en arbeidsmarktcommunicatie
Workshop social media en arbeidsmarktcommunicatieErnst Schipper
 
Digital Marketing Live! 2019 | Data Driven Personas
Digital Marketing Live! 2019 | Data Driven PersonasDigital Marketing Live! 2019 | Data Driven Personas
Digital Marketing Live! 2019 | Data Driven PersonasOrangeValley
 
Social media & economie | Mediamanagement Masterclass | 24 april 2012
Social media & economie | Mediamanagement Masterclass | 24 april 2012Social media & economie | Mediamanagement Masterclass | 24 april 2012
Social media & economie | Mediamanagement Masterclass | 24 april 2012Empuls
 
Godfried van Loo (Yoctor) @ CMC Media & Data
Godfried van Loo (Yoctor) @ CMC Media & DataGodfried van Loo (Yoctor) @ CMC Media & Data
Godfried van Loo (Yoctor) @ CMC Media & DataMedia Perspectives
 
Kunst & Cultuur Drenthe
Kunst & Cultuur DrentheKunst & Cultuur Drenthe
Kunst & Cultuur DrentheErik Koorman
 
Hoe zoeken mensen door historische kranten? | Netwerkdag Oorlogsbronnen 2018
Hoe zoeken mensen door historische kranten? | Netwerkdag Oorlogsbronnen 2018Hoe zoeken mensen door historische kranten? | Netwerkdag Oorlogsbronnen 2018
Hoe zoeken mensen door historische kranten? | Netwerkdag Oorlogsbronnen 2018Netwerk Oorlogsbronnen
 
Hoe organiseer je mediamonitoring en webcare binnen je organisatie anne-fra...
Hoe organiseer je mediamonitoring en webcare binnen je organisatie   anne-fra...Hoe organiseer je mediamonitoring en webcare binnen je organisatie   anne-fra...
Hoe organiseer je mediamonitoring en webcare binnen je organisatie anne-fra...cascadis
 
Havenmeester ronde 1 presentatie solviteers da2020
Havenmeester ronde 1 presentatie solviteers da2020 Havenmeester ronde 1 presentatie solviteers da2020
Havenmeester ronde 1 presentatie solviteers da2020 CongresDA2020
 
Bouw uw beleid rond sociale media
Bouw uw beleid rond sociale mediaBouw uw beleid rond sociale media
Bouw uw beleid rond sociale mediaRob Heyman
 
Zo zet u in 3 stappen een pakkende contentstrategie neer
Zo zet u in 3 stappen een pakkende contentstrategie neer  Zo zet u in 3 stappen een pakkende contentstrategie neer
Zo zet u in 3 stappen een pakkende contentstrategie neer valantic NL
 
De Persgroep Big Data Expo
De Persgroep Big Data ExpoDe Persgroep Big Data Expo
De Persgroep Big Data ExpoBigDataExpo
 
Presentatie social media voor broodfonds
Presentatie social media voor broodfondsPresentatie social media voor broodfonds
Presentatie social media voor broodfondsHarald van Engelen
 
Acw studiedag sociale media 24.11.2011
Acw studiedag sociale media   24.11.2011Acw studiedag sociale media   24.11.2011
Acw studiedag sociale media 24.11.2011Fishtank
 
Presentatie Social Media Barometer - WDM Nederland
Presentatie Social Media Barometer - WDM NederlandPresentatie Social Media Barometer - WDM Nederland
Presentatie Social Media Barometer - WDM NederlandHans van der Meulen
 
Hip & Hot en good practices buiten de beweging
Hip & Hot en good practices buiten de bewegingHip & Hot en good practices buiten de beweging
Hip & Hot en good practices buiten de bewegingbeweging.net
 
Privacy First Digital Marketing Event 2024 - De impact op social media.pdf
Privacy First Digital Marketing Event 2024 - De impact op social media.pdfPrivacy First Digital Marketing Event 2024 - De impact op social media.pdf
Privacy First Digital Marketing Event 2024 - De impact op social media.pdfOrangeValley
 

Similar to Zoeken, vinden, en aanbevelen: personalisatie vs. privacy (20)

Workshop social media en arbeidsmarktcommunicatie
Workshop social media en arbeidsmarktcommunicatieWorkshop social media en arbeidsmarktcommunicatie
Workshop social media en arbeidsmarktcommunicatie
 
Digital Marketing Live! 2019 | Data Driven Personas
Digital Marketing Live! 2019 | Data Driven PersonasDigital Marketing Live! 2019 | Data Driven Personas
Digital Marketing Live! 2019 | Data Driven Personas
 
Ontwikkelingen in Search
Ontwikkelingen in SearchOntwikkelingen in Search
Ontwikkelingen in Search
 
social media & economie voor Masterclass Mediamanagement Hasselt
social media & economie voor Masterclass Mediamanagement Hasseltsocial media & economie voor Masterclass Mediamanagement Hasselt
social media & economie voor Masterclass Mediamanagement Hasselt
 
Social media & economie | Mediamanagement Masterclass | 24 april 2012
Social media & economie | Mediamanagement Masterclass | 24 april 2012Social media & economie | Mediamanagement Masterclass | 24 april 2012
Social media & economie | Mediamanagement Masterclass | 24 april 2012
 
Godfried van Loo (Yoctor) @ CMC Media & Data
Godfried van Loo (Yoctor) @ CMC Media & DataGodfried van Loo (Yoctor) @ CMC Media & Data
Godfried van Loo (Yoctor) @ CMC Media & Data
 
BeBright MROC
BeBright MROCBeBright MROC
BeBright MROC
 
Kunst & Cultuur Drenthe
Kunst & Cultuur DrentheKunst & Cultuur Drenthe
Kunst & Cultuur Drenthe
 
Facebook
FacebookFacebook
Facebook
 
Hoe zoeken mensen door historische kranten? | Netwerkdag Oorlogsbronnen 2018
Hoe zoeken mensen door historische kranten? | Netwerkdag Oorlogsbronnen 2018Hoe zoeken mensen door historische kranten? | Netwerkdag Oorlogsbronnen 2018
Hoe zoeken mensen door historische kranten? | Netwerkdag Oorlogsbronnen 2018
 
Hoe organiseer je mediamonitoring en webcare binnen je organisatie anne-fra...
Hoe organiseer je mediamonitoring en webcare binnen je organisatie   anne-fra...Hoe organiseer je mediamonitoring en webcare binnen je organisatie   anne-fra...
Hoe organiseer je mediamonitoring en webcare binnen je organisatie anne-fra...
 
Havenmeester ronde 1 presentatie solviteers da2020
Havenmeester ronde 1 presentatie solviteers da2020 Havenmeester ronde 1 presentatie solviteers da2020
Havenmeester ronde 1 presentatie solviteers da2020
 
Bouw uw beleid rond sociale media
Bouw uw beleid rond sociale mediaBouw uw beleid rond sociale media
Bouw uw beleid rond sociale media
 
Zo zet u in 3 stappen een pakkende contentstrategie neer
Zo zet u in 3 stappen een pakkende contentstrategie neer  Zo zet u in 3 stappen een pakkende contentstrategie neer
Zo zet u in 3 stappen een pakkende contentstrategie neer
 
De Persgroep Big Data Expo
De Persgroep Big Data ExpoDe Persgroep Big Data Expo
De Persgroep Big Data Expo
 
Presentatie social media voor broodfonds
Presentatie social media voor broodfondsPresentatie social media voor broodfonds
Presentatie social media voor broodfonds
 
Acw studiedag sociale media 24.11.2011
Acw studiedag sociale media   24.11.2011Acw studiedag sociale media   24.11.2011
Acw studiedag sociale media 24.11.2011
 
Presentatie Social Media Barometer - WDM Nederland
Presentatie Social Media Barometer - WDM NederlandPresentatie Social Media Barometer - WDM Nederland
Presentatie Social Media Barometer - WDM Nederland
 
Hip & Hot en good practices buiten de beweging
Hip & Hot en good practices buiten de bewegingHip & Hot en good practices buiten de beweging
Hip & Hot en good practices buiten de beweging
 
Privacy First Digital Marketing Event 2024 - De impact op social media.pdf
Privacy First Digital Marketing Event 2024 - De impact op social media.pdfPrivacy First Digital Marketing Event 2024 - De impact op social media.pdf
Privacy First Digital Marketing Event 2024 - De impact op social media.pdf
 

More from David Graus

Pragmatic ethical and fair AI for data scientists
Pragmatic ethical and fair AI for data scientistsPragmatic ethical and fair AI for data scientists
Pragmatic ethical and fair AI for data scientistsDavid Graus
 
Bias in Recommendations
Bias in RecommendationsBias in Recommendations
Bias in RecommendationsDavid Graus
 
RecSys in the Media Industry: Relevance, Recency, Popularity, and Diversity.
RecSys in the Media Industry: Relevance, Recency, Popularity, and Diversity.RecSys in the Media Industry: Relevance, Recency, Popularity, and Diversity.
RecSys in the Media Industry: Relevance, Recency, Popularity, and Diversity.David Graus
 
CAT/AI: Computer Assisted Translation 
Assessment for Impact
CAT/AI: Computer Assisted Translation 
Assessment for ImpactCAT/AI: Computer Assisted Translation 
Assessment for Impact
CAT/AI: Computer Assisted Translation 
Assessment for ImpactDavid Graus
 
Opening the Black Box of User Profiles in Content-based Recommender Systems
Opening the Black Box of User Profiles in Content-based Recommender SystemsOpening the Black Box of User Profiles in Content-based Recommender Systems
Opening the Black Box of User Profiles in Content-based Recommender SystemsDavid Graus
 
Layman's Talk: Entities of Interest --- Discovery in Digital Traces
Layman's Talk: Entities of Interest --- Discovery in Digital TracesLayman's Talk: Entities of Interest --- Discovery in Digital Traces
Layman's Talk: Entities of Interest --- Discovery in Digital TracesDavid Graus
 
Financial News Mining @ PyData Amsterdam
Financial News Mining @ PyData AmsterdamFinancial News Mining @ PyData Amsterdam
Financial News Mining @ PyData AmsterdamDavid Graus
 
De Macht van Data --- Hoe algoritmen ons leven vormgeven
De Macht van Data --- Hoe algoritmen ons leven vormgevenDe Macht van Data --- Hoe algoritmen ons leven vormgeven
De Macht van Data --- Hoe algoritmen ons leven vormgevenDavid Graus
 
Financial News Mining @ FD Mediagroep/Company.info
Financial News Mining @ FD Mediagroep/Company.infoFinancial News Mining @ FD Mediagroep/Company.info
Financial News Mining @ FD Mediagroep/Company.infoDavid Graus
 
Big Data & Machine Learning - Mogelijkheden & Valkuilen
Big Data & Machine Learning - Mogelijkheden & ValkuilenBig Data & Machine Learning - Mogelijkheden & Valkuilen
Big Data & Machine Learning - Mogelijkheden & ValkuilenDavid Graus
 
Analyzing and Predicting Task Reminders
Analyzing and Predicting Task RemindersAnalyzing and Predicting Task Reminders
Analyzing and Predicting Task RemindersDavid Graus
 
Dynamic Collective Entity Representations for Entity Ranking
Dynamic Collective Entity Representations for Entity RankingDynamic Collective Entity Representations for Entity Ranking
Dynamic Collective Entity Representations for Entity RankingDavid Graus
 
Dynamic Collective Entity Representations for Entity Ranking
Dynamic Collective Entity Representations for Entity RankingDynamic Collective Entity Representations for Entity Ranking
Dynamic Collective Entity Representations for Entity RankingDavid Graus
 
Understanding Email Traffic
Understanding Email TrafficUnderstanding Email Traffic
Understanding Email TrafficDavid Graus
 
David Graus - Entity Linking (at SEA), Search Engines Amsterdam, Fri June 27th
David Graus - Entity Linking (at SEA), Search Engines Amsterdam, Fri June 27thDavid Graus - Entity Linking (at SEA), Search Engines Amsterdam, Fri June 27th
David Graus - Entity Linking (at SEA), Search Engines Amsterdam, Fri June 27thDavid Graus
 
Understanding Email Traffic (talk @ E-Discovery NL Symposium)
Understanding Email Traffic (talk @ E-Discovery NL Symposium)Understanding Email Traffic (talk @ E-Discovery NL Symposium)
Understanding Email Traffic (talk @ E-Discovery NL Symposium)David Graus
 
Generating Pseudo-ground Truth for Detecting New Concepts in Social Streams
Generating Pseudo-ground Truth for Detecting New Concepts in Social StreamsGenerating Pseudo-ground Truth for Detecting New Concepts in Social Streams
Generating Pseudo-ground Truth for Detecting New Concepts in Social StreamsDavid Graus
 
yourHistory - entity linking for a personalized timeline of historic events
yourHistory - entity linking for a personalized timeline of historic eventsyourHistory - entity linking for a personalized timeline of historic events
yourHistory - entity linking for a personalized timeline of historic eventsDavid Graus
 
Semantic Search in E-Discovery
Semantic Search in E-DiscoverySemantic Search in E-Discovery
Semantic Search in E-DiscoveryDavid Graus
 
Semantic Annotation of the Cyttron Database
Semantic Annotation of the Cyttron DatabaseSemantic Annotation of the Cyttron Database
Semantic Annotation of the Cyttron DatabaseDavid Graus
 

More from David Graus (20)

Pragmatic ethical and fair AI for data scientists
Pragmatic ethical and fair AI for data scientistsPragmatic ethical and fair AI for data scientists
Pragmatic ethical and fair AI for data scientists
 
Bias in Recommendations
Bias in RecommendationsBias in Recommendations
Bias in Recommendations
 
RecSys in the Media Industry: Relevance, Recency, Popularity, and Diversity.
RecSys in the Media Industry: Relevance, Recency, Popularity, and Diversity.RecSys in the Media Industry: Relevance, Recency, Popularity, and Diversity.
RecSys in the Media Industry: Relevance, Recency, Popularity, and Diversity.
 
CAT/AI: Computer Assisted Translation 
Assessment for Impact
CAT/AI: Computer Assisted Translation 
Assessment for ImpactCAT/AI: Computer Assisted Translation 
Assessment for Impact
CAT/AI: Computer Assisted Translation 
Assessment for Impact
 
Opening the Black Box of User Profiles in Content-based Recommender Systems
Opening the Black Box of User Profiles in Content-based Recommender SystemsOpening the Black Box of User Profiles in Content-based Recommender Systems
Opening the Black Box of User Profiles in Content-based Recommender Systems
 
Layman's Talk: Entities of Interest --- Discovery in Digital Traces
Layman's Talk: Entities of Interest --- Discovery in Digital TracesLayman's Talk: Entities of Interest --- Discovery in Digital Traces
Layman's Talk: Entities of Interest --- Discovery in Digital Traces
 
Financial News Mining @ PyData Amsterdam
Financial News Mining @ PyData AmsterdamFinancial News Mining @ PyData Amsterdam
Financial News Mining @ PyData Amsterdam
 
De Macht van Data --- Hoe algoritmen ons leven vormgeven
De Macht van Data --- Hoe algoritmen ons leven vormgevenDe Macht van Data --- Hoe algoritmen ons leven vormgeven
De Macht van Data --- Hoe algoritmen ons leven vormgeven
 
Financial News Mining @ FD Mediagroep/Company.info
Financial News Mining @ FD Mediagroep/Company.infoFinancial News Mining @ FD Mediagroep/Company.info
Financial News Mining @ FD Mediagroep/Company.info
 
Big Data & Machine Learning - Mogelijkheden & Valkuilen
Big Data & Machine Learning - Mogelijkheden & ValkuilenBig Data & Machine Learning - Mogelijkheden & Valkuilen
Big Data & Machine Learning - Mogelijkheden & Valkuilen
 
Analyzing and Predicting Task Reminders
Analyzing and Predicting Task RemindersAnalyzing and Predicting Task Reminders
Analyzing and Predicting Task Reminders
 
Dynamic Collective Entity Representations for Entity Ranking
Dynamic Collective Entity Representations for Entity RankingDynamic Collective Entity Representations for Entity Ranking
Dynamic Collective Entity Representations for Entity Ranking
 
Dynamic Collective Entity Representations for Entity Ranking
Dynamic Collective Entity Representations for Entity RankingDynamic Collective Entity Representations for Entity Ranking
Dynamic Collective Entity Representations for Entity Ranking
 
Understanding Email Traffic
Understanding Email TrafficUnderstanding Email Traffic
Understanding Email Traffic
 
David Graus - Entity Linking (at SEA), Search Engines Amsterdam, Fri June 27th
David Graus - Entity Linking (at SEA), Search Engines Amsterdam, Fri June 27thDavid Graus - Entity Linking (at SEA), Search Engines Amsterdam, Fri June 27th
David Graus - Entity Linking (at SEA), Search Engines Amsterdam, Fri June 27th
 
Understanding Email Traffic (talk @ E-Discovery NL Symposium)
Understanding Email Traffic (talk @ E-Discovery NL Symposium)Understanding Email Traffic (talk @ E-Discovery NL Symposium)
Understanding Email Traffic (talk @ E-Discovery NL Symposium)
 
Generating Pseudo-ground Truth for Detecting New Concepts in Social Streams
Generating Pseudo-ground Truth for Detecting New Concepts in Social StreamsGenerating Pseudo-ground Truth for Detecting New Concepts in Social Streams
Generating Pseudo-ground Truth for Detecting New Concepts in Social Streams
 
yourHistory - entity linking for a personalized timeline of historic events
yourHistory - entity linking for a personalized timeline of historic eventsyourHistory - entity linking for a personalized timeline of historic events
yourHistory - entity linking for a personalized timeline of historic events
 
Semantic Search in E-Discovery
Semantic Search in E-DiscoverySemantic Search in E-Discovery
Semantic Search in E-Discovery
 
Semantic Annotation of the Cyttron Database
Semantic Annotation of the Cyttron DatabaseSemantic Annotation of the Cyttron Database
Semantic Annotation of the Cyttron Database
 

Zoeken, vinden, en aanbevelen: personalisatie vs. privacy

  • 1. Zoeken, vinden, en aanbevelen: personalisatie vs. privacy David Graus @dvdgrs VOGIN-IP-lezing / 28 maart 2018
  • 6. Vandaag 1. Inleiding a. Wat is personalisatie? b. Waarom? 2. Inhoud: Hoe personalisatie? 3. De filter bubbel bestaat niet Subjectiviteit!
  • 7. 1a. Wat is personalisatie?
  • 9.
  • 10.
  • 11.
  • 12. Personalisatie is: • Zoeken en vinden • op basis van persoonlijke {context, voorkeuren, smaak, profiel}
  • 15. 1: het MOET • Relevantie van zoekresultaten is: • Subjectief [low inter-annotator agreement] • Afhankelijk van (voor)kennis • Afhankelijk van interesse in onderwerp • Dynamisch • Afhankelijk van tijd • Afhankelijk van welke resultaten zijn bekeken [1] Mizarro, “Relevance: The Whole History” (1997)
  • 16. 1: het MOET • Hoeveelheid data • “High-precision” search Personalized results
  • 17. 2: het is GOED • Iedereen wint: • “Consument” • “Discover items you might not have found otherwise” • “Producent” • Vergroot bereik • Ontsluit de long-tail
  • 20. Click through A/B-test groups https://www.slideshare.net/DungManhChu/fd-recommendation-engine-in-personalized-newsletters
  • 22. Samenvattend • Personalisatie moet: • Relevantie is persoonsgebonden & contextafhankelijk. • Noodzakelijk om dingen te kunnen vinden op web- schaal. • Personalisatie is goed: • Lever de juiste info bij de juist doelgroep, verbeter informatieontsluiting.
  • 25. I. Content-based • Op basis van (meta)data van items
  • 26. Content-based op basis van gebruikersprofiel
  • 27. Content-based op basis van gebruikersprofiel Users Items RecSys MatchingUser Profile Item profile
  • 28. Users User Profile Qualcomm krijgt bijna €1 mrd boete van Brussel Tags: Boete, Chips, EU, Mededinging, … Rubriek: Ondernemen Stylometrie: Aantal woorden: 635 Entities: Qualcomm, Apple, NXP, Intel, Google Tags: Boete, Chips, EU, Mededinging, … Rubriek: Ondernemen Stylometrie: Aantal woorden: 635 Entities: Qualcomm, Apple, NXP, Intel, Google Content-based op basis van gebruikersprofiel
  • 29. Users User Profile Qualcomm krijgt bijna €1 mrd boete van Brussel Tags: Boete, Chips, EU, Mededinging, … Big Data, Blog, Davos, Google, Technologie Rubriek: Ondernemen, Davos Stylometrie: 635 woorden, 524 woorden Entities: Qualcomm, Apple (2), NXP, Intel, Google (2), Microsoft, Salesforce Topman van softwaremaker Salesforce kraakt grote techbedrijven Tags: Big Data, Blog, Davos, Google, Technologie Rubriek: Davos Stylometrie: 524 woorden Entities: Google, Apple, Microsoft, Salesforce Content-based op basis van gebruikersprofiel
  • 31. II. Collaborative Filtering Make predictions (“filtering”) about the interests of a user, by collecting preferences from many users (“collaborating”)
  • 32. Collaborative Filtering Moshanin, CC BY-SA 3.0, https://commons.wikimedia.org/w/index.php?curid=24097346
  • 33. Collaborative Filtering Moshanin, CC BY-SA 3.0, https://commons.wikimedia.org/w/index.php?curid=24097346
  • 34. Collaborative Filtering Moshanin, CC BY-SA 3.0, https://commons.wikimedia.org/w/index.php?curid=24097346
  • 35. Collaborative Filtering Moshanin, CC BY-SA 3.0, https://commons.wikimedia.org/w/index.php?curid=24097346
  • 36. Collaborative Filtering Moshanin, CC BY-SA 3.0, https://commons.wikimedia.org/w/index.php?curid=24097346
  • 37. Collaborative Filtering • Voordelen: • Surprising effect • Nadelen: • Veel ‘gedrag’ nodig • “Cold start”
  • 38. III. Evalueer+leer • Korte termijn: Genereer rankings op basis van voorspellingen, meet ‘kwaliteit’ • Lange(re) termijn: average time on page, aantal bezochte pagina’s, returning visits, etc.
  • 39. Samenvattend • Schat voorkeuren in op basis van gedrag; • Van één gebruiker • Van een groep/alle gebruikers • Voorspel voorkeuren • Meet effect (evalueer)
  • 40. What about the Filter Bubbel? By Knight Foundation - Eli Pariser, author of The Filter Bubble, 
 CC BY-SA 2.0, https://commons.wikimedia.org/w/index.php?curid=19516187
  • 41. Filter bubbel “A filter bubble is a state of intellectual isolation that can result from personalized searches when a website algorithm selectively guesses what information a user would like to see based on information about the user.”
  • 42. Filter bubbel “Users become separated from information that disagrees with their viewpoints, effectively isolating them in their own cultural or ideological bubbles.”
  • 44. 1. Moeten we ons zorgen maken?
  • 45. 1. Moeten we ons zorgen maken? [We] focus on empirical evidence of the spread of personalised news services and its likely effects on political polarisation and political information. [Zuiderveen Borgesius et al., 2016]
  • 46. 1. Moeten we ons zorgen maken? • Het blijkt moeilijk jezelf volledig in een bubbel op te sluiten: • Zowel offline: • “Those who use a lot of partisan information also use an above-average amount of mainstream news.” • “[M]ost people by far still get their news via traditional sources, most notably public-service television.” • Als online: • “People who choose personalisation are more likely to use an above- average amount of general-interest news as well.” • “A recent study suggests that the influence of [the Facebook] algorithm is lower than the influence of the user’s choices.” [Zuiderveen Borgesius et al., 2016]
  • 47. 1. Moeten we ons zorgen maken? • “[T]here is no empirical evidence that warrants any strong worries about filter bubbles.” • “One lesson we should have learned from the past is that panic does not lead to sane policies. More evidence is needed on the process and effects of personalisation, so we can shift the basis of policy discussions from fear to insight.” [Zuiderveen Borgesius et al., 2016]
  • 48. 1. Moeten we ons zorgen maken? “Personalisation on news sites is still at an infant stage, and personalised content does not constitute a substantial information source for most citizens.” [Zuiderveen Borgesius et al., 2016]
  • 49. Take-home • We hoeven ons geen zorgen te maken.
  • 50. 2. Kom maar op met dat empirisch bewijs
  • 51. 2. Methode 1. 👤 1. Verzamel 200 vrijwilligers met Google accounts. 2. Laat ze dezelfde zoekopdrachten invoeren. 3. Vergelijk resultaten. 2. 🤖 1. Maak Google “bots” (kunstmatige accounts). • Varieer aspecten als locatie, demografische informatie, klikgedrag, browsegeschiedenis, zoekgeschiedenis, etc. 2. Laat ze dezelfde zoekopdrachten invoeren. 3. Vergelijk resultaten. [Hannák et al., 2013]
  • 52. 2. Bevindingen 👤 • On average, 11.7% of results show differences due to personalization on Google. • Top ranks tend to be less personalized than bottom ranks. [Hannák et al., 2013]
  • 53. 2. Bevindingen 👤 • ✅ A great deal of personalization based on location (especially for company names, where users received different store locations). • ❌ The least personalized results tend to be factual and health related queries. [Hannák et al., 2013]
  • 54. 2. Bevindingen 🤖 ✅ Ingelogde vs. “cleared cookies” gebruikers ✅ Geolocatie ❌ Gender ❌ Age ❌ Search history ❌ Click history ❌ Browsing history [Hannák et al., 2013]
  • 55. Take-home • Het valt allemaal wel mee, met die filter bubbel…
  • 57. 3. Methode • Deel MovieLens (een film aanbeveling (CF) & rating site) gebruikers in twee groepen: • Volgers: gebruikers die films uit hun aanbevelingen raten. • Negeerders: gebruikers die films raten die niet in hun aanbevelingen staan. • Vergelijk tussen beide groepen, over tijd: • Diversiteit van aanbevelingen • Waardering voor films [Nguyen et al., 2014]
  • 58. 3. Bevindingen 1. Diversiteit: • Bij zowel volgers als negeerders daalt de diversiteit van hun aanbevelingen over tijd. • Die daling is sterker bij negeerders dan bij volgers (!) 2. Waardering: • Bij negeerders daalt de gemiddelde score (3.74 naar 3.55). • Bij volgers blijft hij stabiel (rond de 3.68). [Nguyen et al., 2014]
  • 59. Take-home Een aanbevelingssysteem kan een bubbel-vertragend-effect hebben.
  • 60. 4. Breek de bubbel
  • 61. 4. Doel Increase exposure to varied political opinions 
 with a goal of improving civil discourse [Yom-Tov et al. 2014]
  • 62. 4. Methode • Deel zoekmachinegebruikers in op political leaning (op basis van geo/kiesdistrict) [Yom-Tov et al. 2014]
  • 63. 4. Methode • Ken (op basis van gebruikers+bezochte nieuwssites) de onderliggende nieuwsbronnen political leaning-score toe. [Yom-Tov et al. 2014]
  • 64. 4. Methode • Identificeer gepolariseerde zoekopdrachten (met sterke political leaning beide kanten op). [Yom-Tov et al. 2014]
  • 65. 4. Methode • Treatment group: Meng bij zoekresultaten bij blauwe gebruikers rode websites in, en bij rode gebruikers blauwe websites. • Control group: Pas de zoekresultaten niet aan. [Yom-Tov et al. 2014]
  • 66. 4. Methode 1. Korte termijn: Vergelijk clicks/gedrag tussen treatment group & control group. 2. Lange termijn: meet gedurende twee weken, per gebruiker: 1. Polarisatie: Het verschil tussen leaning-score van een gebruiker t.o.v. de gemiddelde leaning van alle bronnen. 2. Engagement: Gemiddeld aantal zoekopdrachten + gemiddeld aantal gelezen artikelen.
  • 67. 4. Bevindingen 1 • Minder clicks op de ingemengde opposing nieuwsbronnen. • Maar, wanneer een opposing nieuwsbron kwa taalgebruik lijkt op dat van (wat) de gebruiker (leest), is een gebruiker eerder geneigd het artikel te lezen. • “Results pages of the opposing viewpoint which had a similarity higher than the average tended to be clicked 38% more than those below the average.” [Yom-Tov et al. 2014]
  • 68. 4. Bevindingen 2 • Polarisatie: • Treatment: gemiddelde leaning ‘daalt’ ~25% naar centrum • Control: verwaarloosbare verschuiving (1%) • Engagement: • Treatment: Aantal zoekopdrachten: +9% / artikelen: +4% • Control: Lichte afname in beiden (~2.5%) [Yom-Tov et al. 2014]
  • 69. Take-home • Je kunt mensen ‘nudgen’ om hun gedrag te ‘manipuleren’ • [Vermoedelijk] alleen bij mensen die ‘zweven’/niet sterk gepolariseerd zijn. • Is in die context een nudge niet een democratisch goed? [Yom-Tov et al. 2014]
  • 70. 5. Hoe vergelijkt een aanbeveling van een 🤖 met die van een 👤
  • 71. 5. Methode • 🤖 Genereer aanbevelingen bij Volkskrant artikelen op basis van verschillende (standaard) aanbevelingssystemen (CF & CB). • 👤 Vergelijk met handgeselecteerde aanbevelingen van redactie. • Meet “diversiteit” van artikelen in een set aanbevelingen: • artikelinhoud • tags • categorieën • sentiment/subjectiviteit [Möller et al. 2018]
  • 72. 5. Bevindingen “Conventional recommendation algorithms at least preserve the topic/sentiment diversity of the article supply.” [Möller et al. 2018]
  • 73. Take-home • Diversiteit blijft behouden bij geautomatiseerde aanbevelingen. [Möller et al. 2018]
  • 74. Daarnaast • Technisch: Diversiteit kun je kwantificeren én inbouwen (en willekeur is triviaal). • Technisch: Feedback loop + “diversity in recommendation sets increases user satisfaction” — aannemelijk dat diversiteit ingebakken zit/als bijeffect komt. • Technisch: Je weet nog niks van een nieuw item; je zult die moeten aanbieden om signaal te krijgen.
  • 75. Refs 1. Zuiderveen Borgesius, F. & Trilling, D. & Möller, J. & Bodó, B. & de Vreese, C. & Helberger, N. (2016). Should we worry about filter bubbles?. Internet Policy Review, 5(1). DOI: 10.14763/2016.1.401
 2. Hannák, A. & Sapiezynski, P & Kakhki, A.M. & Krishnamurthy, B. & Lazer, D. & Mislove, A, & Wilson, C, (2013). Measuring personalization of web search. In Proceedings of the 22nd international conference on World Wide Web (WWW '13). ACM, New York, NY, USA, 527-538. DOI: 10.1145/2488388.2488435
 3. Nguyen, T. T. & Hui, P. M. & Harper, F. M. & Terveen, L. & Konstan, J. A. (2014). Exploring the filter bubble: the effect of using recommender systems on content diversity. In Proceedings of the 23rd international conference on World wide web (WWW '14). ACM, New York, NY, USA, 677-686. DOI: 10.1145/2566486.2568012
 4. Yom-Tov, E. & Dumais, S. & Guo, Q. (2014). Promoting Civil Discourse Through Search Engine Diversity. Soc. Sci. Comput. Rev. 32, 2 (April 2014), 145-154. DOI: 10.1177/0894439313506838 
 5. Möller, J. & Trilling, D. & Helberger, N. & van Es, B. (2018). Do not blame it on the algorithm: an empirical assessment of multiple recommender systems and their impact on content diversity. Information, Communication & Society, DOI: 10.1080/1369118X.2018.1444076