SlideShare a Scribd company logo
1 of 29
Bever Finale 2017 - 2018
Lezing over Big Data
Prof.dr.ir. Arjen P. de Vries
arjen@acm.org
Nijmegen, March 16th, 2018
Big Data
 De 3 Vs van Big Data:
- Volume
We meten steeds meer, en wat we aan data verkrijgen groeit
sneller en sneller
- Velocity
Data komt sneller binnen dan we het kunnen analyseren –
aardbeving waarschuwing alleen nuttig als het voor de beving
is uitgerekend!
- Variety
Data is steeds vaker ongestructureerd, in de vorm van tekst,
beeld of video.
Big Data: nieuwe mogelijkheden!
Om
 Data te genereren,
 Delen,
 Combineren
 Analyseren
.. die leiden tot nieuwe inzichten en een nieuwe manier van
redeneren.
(bron: Definitie van big data van de Nationale DenkTank)
Herken eigennamen
Ordenen zoekresultaten
Voorspel wat jij wilt vinden
Suggesties andere vragen
Spelfouten corrigeren
Wat zou de gebruiker willen?
Orden de “verticals”
Suggesties zoekvragen
Big Data in NL
 Aankopen bij bol.com
 Bestemmingen van Booking.com op maat
 Advertenties real-time verkopen, bv. bij nu.nl (Sanoma)
 Nieuwsbrieven Blendle.nl
 Kinderzoekmachine WizeNoze.com
Etc. etc.
Twitter
Twitter
 Wie leest er weleens een Tweet?
 Wie weet er wat een “hashtag” is?
#WIDM
 Wie verstuurt er weleens een Tweet?
Je bent niet de enige!
 6000 Tweets per seconde
 500.000.000 Tweets per dag
 200.000.000.000 Tweets per jaar
internetlivestats.com
Al het werk van William Shakespeare:
5.500.000 letters…
Duurt slechts 11,6 Twitter-seconde!
quora.com/How-much-data-does-Twitter-store-daily
Hoeveel data is dat dan?
Hoeveel data is dat dan?
 Byte = getal tussen 0 en 255
of een getal tussen -128 en +127 
 Hoe zit dan dan met letters?
Hoeveel data is dat dan?
 6000 / s
x 1 KB /
= 6 MB / s
= 500 GB / dag
Alleen nog maar de Tweet tekst...
… dus we missen:
Plaatjes
Web pagina’s
Filmpjes
Etc.
Hoeveel informatie is er eigenlijk?
 We denken dat er elke seconde 30.000 GigaByte aan data
bijkomt!
BIG Data (Opdracht)
 Nieuwe data:
30.000 GigaByte/s = 3x104x109 B/s = 3x1013 B/s
 Hardeschijf: 2 TB = 2x1012 B
 Dus, na 0,07 seconden is jouw harde schijf al vol!!
Bedenk hoe groot de harde schijf is die in jouw computer zit.
Weet je dat niet? Ga er dan maar van uit dat je een harde
schijf ter beschikking hebt van 2 TB (terabyte).
 Hoeveel seconden (of minuten, uren of dagen) kun je aan
data op slaan, uitgaande van 30.000 gigabytes per
seconde?
BIG Data
 24 uur = 86400 seconden
 Met 3x1013 B/s is dat dan 2,6x1018 B aan data
 Met 2x1012 B per schijf is dat 1.300.000 schijven
per seconde!
 Dus zo big is big!
Hoeveel harde schijven van 2 TB heb je nodig om alle data
van een dag op te slaan?
Terug naar Twitter:
Een wonderlijke puzzel!
slideshare.net/raffikrikorian/twitter-by-the-numbers
@CWI – 2011
Source: Google
Data Center (is the Computer)
Twitter Trends
Den Bosch - Dordrecht
Hoe maakt Twitter die Trends?
 Tel hashtags of namen!
 Bepaal het gemiddeld aantal keer dat #TheVoiceKids
wordt genoemd in, zeg, de laatste 10 minuten
- In jouw buurt (voor Twitter is Den Bosch vlakbij Nijmegen)
- Bij jouw tijdlijn (ik volg veel Amerikaanse onderzoekers)
- Etc.
 #TheVoiceKids 10m – 9m : 10
 #TheVoiceKids 9m – 8m : 8
 #TheVoiceKids 8m – 7m : 12
 #TheVoiceKids etc.
 #TheVoiceKids 2m – 1m : 11
 #TheVoiceKids 1m – 0m : 9
#TheVoiceKids
#TheVoiceKids (1 minuut later)
 #TheVoiceKids 11m –10m : 10
 #TheVoiceKids 10m – 9m : 8
 #TheVoiceKids 9m – 8m : 12
 #TheVoiceKids etc.
 #TheVoiceKids 3m – 2m : 11
 #TheVoiceKids 2m – 1m : 9
 #TheVoiceKids 1m – 0m : 7
Praktische opdracht (gemiddelde):
 Hoe bereken je zo’n gemiddelde eigenlijk?
 Eerst een klein voorbeeldje uitwerken:
1) Gemiddelde van: 10,8,12,11,9?
2) Daar komt nu 7 bij, wat is nu het gemiddelde?
3) Hoe zou je de gemiddelde uitrekenen als je weet dat:
gemiddelde tot nu toe is 10
het 6e getal dat er bij komt gelijk is aan 7
… dit kun je telkens bij grotere datasets uitrekenen zonder steeds
de hele rij getallen weer op te tellen en te delen
Uitdagingen “lopend gemiddelde”
 Welke #hastags zijn er misschien trending?
- We moeten het lopend gemiddelde bijhouden voor elke
mogelijke trend!
#paashaas
#sinterklaas
#jufank
- Gebruik zo min mogelijk geheugen!
6000 nieuwe tweets per seconde…
Gemiddelde over laatste 10 minuten?!
 #TheVoiceKids 11m –10m : 10
 #TheVoiceKids 10m – 9m : 8
 #TheVoiceKids 9m – 8m : 12
 #TheVoiceKids etc.
 #TheVoiceKids 3m – 2m : 11
 #TheVoiceKids 2m – 1m : 9
 #TheVoiceKids 1m – 0m : 7
Mogelijke oplossingen
 Exact:
- Bewaar alle 10 de deelgetallen, en haal telkens oudste eraf
- Duur! Je moet 10x zoveel gegevens bewaren!
 Benadering:
- Haal 1x het huidige gemiddelde / 10 eraf, voor je het nieuwe
gemiddelde berekent
- Gaat alleen maar goed als de getallen niet teveel variëren
Nog slimmere trucjes zijn al bedacht, en…
… er komen nog steeds nieuwe trucjes bij!
Wat heb je geleerd?
 Nieuwe mogelijkheden door meer data
 Voor de computer zijn alle data niet meer dan getallen
 Bedrijven als Google en Twitter hebben heel veel
computers nodig – elke 12 seconden meer data op Twitter
dan wat Shakespeare in zijn hele leven heeft geschreven!
 Met slimme algorithmen kunnen we hetzelfde werk met
minder computers af
Informatica is heel erg leuk!

More Related Content

Similar to Beverwedstrijd Big Data (groep 5/6 en klas 1/2)

Worden machinesslimmerdanmensen
Worden machinesslimmerdanmensenWorden machinesslimmerdanmensen
Worden machinesslimmerdanmensenMax Welling
 
Key-Note Big Data - In a Nutshell (Big Data symposium provincies april 2016)
Key-Note Big Data - In a Nutshell (Big Data symposium provincies april 2016)Key-Note Big Data - In a Nutshell (Big Data symposium provincies april 2016)
Key-Note Big Data - In a Nutshell (Big Data symposium provincies april 2016)Erik Van Der Zee
 
Trendrapport 2013 wijs
Trendrapport  2013  wijsTrendrapport  2013  wijs
Trendrapport 2013 wijsLucie Evers
 
a.s.r. masterclass digital and social media by TIAS
a.s.r. masterclass digital and social media by TIASa.s.r. masterclass digital and social media by TIAS
a.s.r. masterclass digital and social media by TIASrobineffing
 
Data Pioneers - Remco Wilting (VODW) - Mythes en feiten rondom big data
Data Pioneers -  Remco Wilting (VODW) - Mythes en feiten rondom big data Data Pioneers -  Remco Wilting (VODW) - Mythes en feiten rondom big data
Data Pioneers - Remco Wilting (VODW) - Mythes en feiten rondom big data Multiscope
 
John Post - Hoe wordt onze energietoekomst beïnvloed door Big Data en ICT
John Post - Hoe wordt onze energietoekomst beïnvloed door Big Data en ICTJohn Post - Hoe wordt onze energietoekomst beïnvloed door Big Data en ICT
John Post - Hoe wordt onze energietoekomst beïnvloed door Big Data en ICTDutch Power
 
Ordina - VisionWorks Seminar: Bi Innovation Radar Part1
Ordina - VisionWorks Seminar: Bi Innovation Radar Part1Ordina - VisionWorks Seminar: Bi Innovation Radar Part1
Ordina - VisionWorks Seminar: Bi Innovation Radar Part1Ordina
 
GoDataDriven op de hogeschool van Amsterdam: gastcollege door Ivo Everts
GoDataDriven op de hogeschool van Amsterdam: gastcollege door Ivo EvertsGoDataDriven op de hogeschool van Amsterdam: gastcollege door Ivo Everts
GoDataDriven op de hogeschool van Amsterdam: gastcollege door Ivo EvertsIvo Everts
 
RWS Lichtkogel Cahier Big Data 2014_LR
RWS Lichtkogel Cahier Big Data 2014_LRRWS Lichtkogel Cahier Big Data 2014_LR
RWS Lichtkogel Cahier Big Data 2014_LRJasmina Tepic MA
 
Geography of Everything - Big Data en de rol van Locatie
Geography of Everything - Big Data en de rol van LocatieGeography of Everything - Big Data en de rol van Locatie
Geography of Everything - Big Data en de rol van LocatieErik Van Der Zee
 
Big data analytics johan quist
Big data analytics johan quistBig data analytics johan quist
Big data analytics johan quistJohan Quist
 
Big Data Expo 2015 - Doorbraakproject Big Data
Big Data Expo 2015 - Doorbraakproject Big DataBig Data Expo 2015 - Doorbraakproject Big Data
Big Data Expo 2015 - Doorbraakproject Big DataBigDataExpo
 
It Trends Ede 20090130
It Trends Ede 20090130It Trends Ede 20090130
It Trends Ede 20090130Raoul Teeuwen
 
IT trends with focus on connecting
IT trends with focus on connectingIT trends with focus on connecting
IT trends with focus on connectingRaoul Teeuwen
 
INFORUM - VEILIGHEIDSPROBLEMEN VOOR BIBLIOTHEEK EN ARCHIEF IN HET DIGITALE TI...
INFORUM - VEILIGHEIDSPROBLEMEN VOOR BIBLIOTHEEK EN ARCHIEF IN HET DIGITALE TI...INFORUM - VEILIGHEIDSPROBLEMEN VOOR BIBLIOTHEEK EN ARCHIEF IN HET DIGITALE TI...
INFORUM - VEILIGHEIDSPROBLEMEN VOOR BIBLIOTHEEK EN ARCHIEF IN HET DIGITALE TI...B.A.
 
Nieuwe concepten in de wereld van zoektechnologie
Nieuwe concepten in de wereld van zoektechnologieNieuwe concepten in de wereld van zoektechnologie
Nieuwe concepten in de wereld van zoektechnologieErik Oltmans
 
IA Innovatieve marketingcommunicatie. Sessie 6. Werk met BIG DATA voor wijze ...
IA Innovatieve marketingcommunicatie. Sessie 6. Werk met BIG DATA voor wijze ...IA Innovatieve marketingcommunicatie. Sessie 6. Werk met BIG DATA voor wijze ...
IA Innovatieve marketingcommunicatie. Sessie 6. Werk met BIG DATA voor wijze ...Ikinnoveer
 

Similar to Beverwedstrijd Big Data (groep 5/6 en klas 1/2) (20)

Worden machinesslimmerdanmensen
Worden machinesslimmerdanmensenWorden machinesslimmerdanmensen
Worden machinesslimmerdanmensen
 
Key-Note Big Data - In a Nutshell (Big Data symposium provincies april 2016)
Key-Note Big Data - In a Nutshell (Big Data symposium provincies april 2016)Key-Note Big Data - In a Nutshell (Big Data symposium provincies april 2016)
Key-Note Big Data - In a Nutshell (Big Data symposium provincies april 2016)
 
Open Data Publishing
Open Data PublishingOpen Data Publishing
Open Data Publishing
 
Trendrapport 2013 wijs
Trendrapport  2013  wijsTrendrapport  2013  wijs
Trendrapport 2013 wijs
 
a.s.r. masterclass digital and social media by TIAS
a.s.r. masterclass digital and social media by TIASa.s.r. masterclass digital and social media by TIAS
a.s.r. masterclass digital and social media by TIAS
 
BDDD Mieke de Ketelaere
BDDD Mieke de KetelaereBDDD Mieke de Ketelaere
BDDD Mieke de Ketelaere
 
Data Pioneers - Remco Wilting (VODW) - Mythes en feiten rondom big data
Data Pioneers -  Remco Wilting (VODW) - Mythes en feiten rondom big data Data Pioneers -  Remco Wilting (VODW) - Mythes en feiten rondom big data
Data Pioneers - Remco Wilting (VODW) - Mythes en feiten rondom big data
 
John Post - Hoe wordt onze energietoekomst beïnvloed door Big Data en ICT
John Post - Hoe wordt onze energietoekomst beïnvloed door Big Data en ICTJohn Post - Hoe wordt onze energietoekomst beïnvloed door Big Data en ICT
John Post - Hoe wordt onze energietoekomst beïnvloed door Big Data en ICT
 
Ordina - VisionWorks Seminar: Bi Innovation Radar Part1
Ordina - VisionWorks Seminar: Bi Innovation Radar Part1Ordina - VisionWorks Seminar: Bi Innovation Radar Part1
Ordina - VisionWorks Seminar: Bi Innovation Radar Part1
 
Data visualisatie
Data visualisatieData visualisatie
Data visualisatie
 
GoDataDriven op de hogeschool van Amsterdam: gastcollege door Ivo Everts
GoDataDriven op de hogeschool van Amsterdam: gastcollege door Ivo EvertsGoDataDriven op de hogeschool van Amsterdam: gastcollege door Ivo Everts
GoDataDriven op de hogeschool van Amsterdam: gastcollege door Ivo Everts
 
RWS Lichtkogel Cahier Big Data 2014_LR
RWS Lichtkogel Cahier Big Data 2014_LRRWS Lichtkogel Cahier Big Data 2014_LR
RWS Lichtkogel Cahier Big Data 2014_LR
 
Geography of Everything - Big Data en de rol van Locatie
Geography of Everything - Big Data en de rol van LocatieGeography of Everything - Big Data en de rol van Locatie
Geography of Everything - Big Data en de rol van Locatie
 
Big data analytics johan quist
Big data analytics johan quistBig data analytics johan quist
Big data analytics johan quist
 
Big Data Expo 2015 - Doorbraakproject Big Data
Big Data Expo 2015 - Doorbraakproject Big DataBig Data Expo 2015 - Doorbraakproject Big Data
Big Data Expo 2015 - Doorbraakproject Big Data
 
It Trends Ede 20090130
It Trends Ede 20090130It Trends Ede 20090130
It Trends Ede 20090130
 
IT trends with focus on connecting
IT trends with focus on connectingIT trends with focus on connecting
IT trends with focus on connecting
 
INFORUM - VEILIGHEIDSPROBLEMEN VOOR BIBLIOTHEEK EN ARCHIEF IN HET DIGITALE TI...
INFORUM - VEILIGHEIDSPROBLEMEN VOOR BIBLIOTHEEK EN ARCHIEF IN HET DIGITALE TI...INFORUM - VEILIGHEIDSPROBLEMEN VOOR BIBLIOTHEEK EN ARCHIEF IN HET DIGITALE TI...
INFORUM - VEILIGHEIDSPROBLEMEN VOOR BIBLIOTHEEK EN ARCHIEF IN HET DIGITALE TI...
 
Nieuwe concepten in de wereld van zoektechnologie
Nieuwe concepten in de wereld van zoektechnologieNieuwe concepten in de wereld van zoektechnologie
Nieuwe concepten in de wereld van zoektechnologie
 
IA Innovatieve marketingcommunicatie. Sessie 6. Werk met BIG DATA voor wijze ...
IA Innovatieve marketingcommunicatie. Sessie 6. Werk met BIG DATA voor wijze ...IA Innovatieve marketingcommunicatie. Sessie 6. Werk met BIG DATA voor wijze ...
IA Innovatieve marketingcommunicatie. Sessie 6. Werk met BIG DATA voor wijze ...
 

More from Arjen de Vries

Beverwedstrijd Big Data (klas 3/4/5/6)
Beverwedstrijd Big Data (klas 3/4/5/6) Beverwedstrijd Big Data (klas 3/4/5/6)
Beverwedstrijd Big Data (klas 3/4/5/6) Arjen de Vries
 
Web Archives and the dream of the Personal Search Engine
Web Archives and the dream of the Personal Search EngineWeb Archives and the dream of the Personal Search Engine
Web Archives and the dream of the Personal Search EngineArjen de Vries
 
Information Retrieval and Social Media
Information Retrieval and Social MediaInformation Retrieval and Social Media
Information Retrieval and Social MediaArjen de Vries
 
Information Retrieval intro TMM
Information Retrieval intro TMMInformation Retrieval intro TMM
Information Retrieval intro TMMArjen de Vries
 
ACM SIGIR 2017 - Opening - PC Chairs
ACM SIGIR 2017 - Opening - PC ChairsACM SIGIR 2017 - Opening - PC Chairs
ACM SIGIR 2017 - Opening - PC ChairsArjen de Vries
 
Data Science Master Specialisation
Data Science Master SpecialisationData Science Master Specialisation
Data Science Master SpecialisationArjen de Vries
 
PUC Masterclass Big Data
PUC Masterclass Big DataPUC Masterclass Big Data
PUC Masterclass Big DataArjen de Vries
 
Bigdata processing with Spark - part II
Bigdata processing with Spark - part IIBigdata processing with Spark - part II
Bigdata processing with Spark - part IIArjen de Vries
 
Bigdata processing with Spark
Bigdata processing with SparkBigdata processing with Spark
Bigdata processing with SparkArjen de Vries
 
TREC 2016: Looking Forward Panel
TREC 2016: Looking Forward PanelTREC 2016: Looking Forward Panel
TREC 2016: Looking Forward PanelArjen de Vries
 
The personal search engine
The personal search engineThe personal search engine
The personal search engineArjen de Vries
 
Models for Information Retrieval and Recommendation
Models for Information Retrieval and RecommendationModels for Information Retrieval and Recommendation
Models for Information Retrieval and RecommendationArjen de Vries
 
Better Contextual Suggestions by Applying Domain Knowledge
Better Contextual Suggestions by Applying Domain KnowledgeBetter Contextual Suggestions by Applying Domain Knowledge
Better Contextual Suggestions by Applying Domain KnowledgeArjen de Vries
 
Similarity & Recommendation - CWI Scientific Meeting - Sep 27th, 2013
Similarity & Recommendation - CWI Scientific Meeting - Sep 27th, 2013Similarity & Recommendation - CWI Scientific Meeting - Sep 27th, 2013
Similarity & Recommendation - CWI Scientific Meeting - Sep 27th, 2013Arjen de Vries
 
ESSIR 2013 - IR and Social Media
ESSIR 2013 - IR and Social MediaESSIR 2013 - IR and Social Media
ESSIR 2013 - IR and Social MediaArjen de Vries
 
Looking beyond plain text for document representation in the enterprise
Looking beyond plain text for document representation in the enterpriseLooking beyond plain text for document representation in the enterprise
Looking beyond plain text for document representation in the enterpriseArjen de Vries
 
Recommendation and Information Retrieval: Two Sides of the Same Coin?
Recommendation and Information Retrieval: Two Sides of the Same Coin?Recommendation and Information Retrieval: Two Sides of the Same Coin?
Recommendation and Information Retrieval: Two Sides of the Same Coin?Arjen de Vries
 
Searching Political Data by Strategy
Searching Political Data by StrategySearching Political Data by Strategy
Searching Political Data by StrategyArjen de Vries
 
How to Search Annotated Text by Strategy?
How to Search Annotated Text by Strategy?How to Search Annotated Text by Strategy?
How to Search Annotated Text by Strategy?Arjen de Vries
 

More from Arjen de Vries (20)

Doing a PhD @ DOSSIER
Doing a PhD @ DOSSIERDoing a PhD @ DOSSIER
Doing a PhD @ DOSSIER
 
Beverwedstrijd Big Data (klas 3/4/5/6)
Beverwedstrijd Big Data (klas 3/4/5/6) Beverwedstrijd Big Data (klas 3/4/5/6)
Beverwedstrijd Big Data (klas 3/4/5/6)
 
Web Archives and the dream of the Personal Search Engine
Web Archives and the dream of the Personal Search EngineWeb Archives and the dream of the Personal Search Engine
Web Archives and the dream of the Personal Search Engine
 
Information Retrieval and Social Media
Information Retrieval and Social MediaInformation Retrieval and Social Media
Information Retrieval and Social Media
 
Information Retrieval intro TMM
Information Retrieval intro TMMInformation Retrieval intro TMM
Information Retrieval intro TMM
 
ACM SIGIR 2017 - Opening - PC Chairs
ACM SIGIR 2017 - Opening - PC ChairsACM SIGIR 2017 - Opening - PC Chairs
ACM SIGIR 2017 - Opening - PC Chairs
 
Data Science Master Specialisation
Data Science Master SpecialisationData Science Master Specialisation
Data Science Master Specialisation
 
PUC Masterclass Big Data
PUC Masterclass Big DataPUC Masterclass Big Data
PUC Masterclass Big Data
 
Bigdata processing with Spark - part II
Bigdata processing with Spark - part IIBigdata processing with Spark - part II
Bigdata processing with Spark - part II
 
Bigdata processing with Spark
Bigdata processing with SparkBigdata processing with Spark
Bigdata processing with Spark
 
TREC 2016: Looking Forward Panel
TREC 2016: Looking Forward PanelTREC 2016: Looking Forward Panel
TREC 2016: Looking Forward Panel
 
The personal search engine
The personal search engineThe personal search engine
The personal search engine
 
Models for Information Retrieval and Recommendation
Models for Information Retrieval and RecommendationModels for Information Retrieval and Recommendation
Models for Information Retrieval and Recommendation
 
Better Contextual Suggestions by Applying Domain Knowledge
Better Contextual Suggestions by Applying Domain KnowledgeBetter Contextual Suggestions by Applying Domain Knowledge
Better Contextual Suggestions by Applying Domain Knowledge
 
Similarity & Recommendation - CWI Scientific Meeting - Sep 27th, 2013
Similarity & Recommendation - CWI Scientific Meeting - Sep 27th, 2013Similarity & Recommendation - CWI Scientific Meeting - Sep 27th, 2013
Similarity & Recommendation - CWI Scientific Meeting - Sep 27th, 2013
 
ESSIR 2013 - IR and Social Media
ESSIR 2013 - IR and Social MediaESSIR 2013 - IR and Social Media
ESSIR 2013 - IR and Social Media
 
Looking beyond plain text for document representation in the enterprise
Looking beyond plain text for document representation in the enterpriseLooking beyond plain text for document representation in the enterprise
Looking beyond plain text for document representation in the enterprise
 
Recommendation and Information Retrieval: Two Sides of the Same Coin?
Recommendation and Information Retrieval: Two Sides of the Same Coin?Recommendation and Information Retrieval: Two Sides of the Same Coin?
Recommendation and Information Retrieval: Two Sides of the Same Coin?
 
Searching Political Data by Strategy
Searching Political Data by StrategySearching Political Data by Strategy
Searching Political Data by Strategy
 
How to Search Annotated Text by Strategy?
How to Search Annotated Text by Strategy?How to Search Annotated Text by Strategy?
How to Search Annotated Text by Strategy?
 

Beverwedstrijd Big Data (groep 5/6 en klas 1/2)

  • 1. Bever Finale 2017 - 2018 Lezing over Big Data Prof.dr.ir. Arjen P. de Vries arjen@acm.org Nijmegen, March 16th, 2018
  • 2. Big Data  De 3 Vs van Big Data: - Volume We meten steeds meer, en wat we aan data verkrijgen groeit sneller en sneller - Velocity Data komt sneller binnen dan we het kunnen analyseren – aardbeving waarschuwing alleen nuttig als het voor de beving is uitgerekend! - Variety Data is steeds vaker ongestructureerd, in de vorm van tekst, beeld of video.
  • 3. Big Data: nieuwe mogelijkheden! Om  Data te genereren,  Delen,  Combineren  Analyseren .. die leiden tot nieuwe inzichten en een nieuwe manier van redeneren. (bron: Definitie van big data van de Nationale DenkTank)
  • 4. Herken eigennamen Ordenen zoekresultaten Voorspel wat jij wilt vinden Suggesties andere vragen
  • 5. Spelfouten corrigeren Wat zou de gebruiker willen? Orden de “verticals” Suggesties zoekvragen
  • 6. Big Data in NL  Aankopen bij bol.com  Bestemmingen van Booking.com op maat  Advertenties real-time verkopen, bv. bij nu.nl (Sanoma)  Nieuwsbrieven Blendle.nl  Kinderzoekmachine WizeNoze.com Etc. etc.
  • 8.
  • 9. Twitter  Wie leest er weleens een Tweet?  Wie weet er wat een “hashtag” is? #WIDM  Wie verstuurt er weleens een Tweet?
  • 10. Je bent niet de enige!  6000 Tweets per seconde  500.000.000 Tweets per dag  200.000.000.000 Tweets per jaar internetlivestats.com
  • 11. Al het werk van William Shakespeare: 5.500.000 letters… Duurt slechts 11,6 Twitter-seconde! quora.com/How-much-data-does-Twitter-store-daily
  • 12. Hoeveel data is dat dan?
  • 13. Hoeveel data is dat dan?  Byte = getal tussen 0 en 255 of een getal tussen -128 en +127   Hoe zit dan dan met letters?
  • 14. Hoeveel data is dat dan?  6000 / s x 1 KB / = 6 MB / s = 500 GB / dag Alleen nog maar de Tweet tekst... … dus we missen: Plaatjes Web pagina’s Filmpjes Etc.
  • 15. Hoeveel informatie is er eigenlijk?  We denken dat er elke seconde 30.000 GigaByte aan data bijkomt!
  • 16. BIG Data (Opdracht)  Nieuwe data: 30.000 GigaByte/s = 3x104x109 B/s = 3x1013 B/s  Hardeschijf: 2 TB = 2x1012 B  Dus, na 0,07 seconden is jouw harde schijf al vol!! Bedenk hoe groot de harde schijf is die in jouw computer zit. Weet je dat niet? Ga er dan maar van uit dat je een harde schijf ter beschikking hebt van 2 TB (terabyte).  Hoeveel seconden (of minuten, uren of dagen) kun je aan data op slaan, uitgaande van 30.000 gigabytes per seconde?
  • 17. BIG Data  24 uur = 86400 seconden  Met 3x1013 B/s is dat dan 2,6x1018 B aan data  Met 2x1012 B per schijf is dat 1.300.000 schijven per seconde!  Dus zo big is big! Hoeveel harde schijven van 2 TB heb je nodig om alle data van een dag op te slaan?
  • 18. Terug naar Twitter: Een wonderlijke puzzel! slideshare.net/raffikrikorian/twitter-by-the-numbers
  • 20. Source: Google Data Center (is the Computer)
  • 22. Hoe maakt Twitter die Trends?  Tel hashtags of namen!  Bepaal het gemiddeld aantal keer dat #TheVoiceKids wordt genoemd in, zeg, de laatste 10 minuten - In jouw buurt (voor Twitter is Den Bosch vlakbij Nijmegen) - Bij jouw tijdlijn (ik volg veel Amerikaanse onderzoekers) - Etc.
  • 23.  #TheVoiceKids 10m – 9m : 10  #TheVoiceKids 9m – 8m : 8  #TheVoiceKids 8m – 7m : 12  #TheVoiceKids etc.  #TheVoiceKids 2m – 1m : 11  #TheVoiceKids 1m – 0m : 9 #TheVoiceKids
  • 24. #TheVoiceKids (1 minuut later)  #TheVoiceKids 11m –10m : 10  #TheVoiceKids 10m – 9m : 8  #TheVoiceKids 9m – 8m : 12  #TheVoiceKids etc.  #TheVoiceKids 3m – 2m : 11  #TheVoiceKids 2m – 1m : 9  #TheVoiceKids 1m – 0m : 7
  • 25. Praktische opdracht (gemiddelde):  Hoe bereken je zo’n gemiddelde eigenlijk?  Eerst een klein voorbeeldje uitwerken: 1) Gemiddelde van: 10,8,12,11,9? 2) Daar komt nu 7 bij, wat is nu het gemiddelde? 3) Hoe zou je de gemiddelde uitrekenen als je weet dat: gemiddelde tot nu toe is 10 het 6e getal dat er bij komt gelijk is aan 7 … dit kun je telkens bij grotere datasets uitrekenen zonder steeds de hele rij getallen weer op te tellen en te delen
  • 26. Uitdagingen “lopend gemiddelde”  Welke #hastags zijn er misschien trending? - We moeten het lopend gemiddelde bijhouden voor elke mogelijke trend! #paashaas #sinterklaas #jufank - Gebruik zo min mogelijk geheugen! 6000 nieuwe tweets per seconde…
  • 27. Gemiddelde over laatste 10 minuten?!  #TheVoiceKids 11m –10m : 10  #TheVoiceKids 10m – 9m : 8  #TheVoiceKids 9m – 8m : 12  #TheVoiceKids etc.  #TheVoiceKids 3m – 2m : 11  #TheVoiceKids 2m – 1m : 9  #TheVoiceKids 1m – 0m : 7
  • 28. Mogelijke oplossingen  Exact: - Bewaar alle 10 de deelgetallen, en haal telkens oudste eraf - Duur! Je moet 10x zoveel gegevens bewaren!  Benadering: - Haal 1x het huidige gemiddelde / 10 eraf, voor je het nieuwe gemiddelde berekent - Gaat alleen maar goed als de getallen niet teveel variëren Nog slimmere trucjes zijn al bedacht, en… … er komen nog steeds nieuwe trucjes bij!
  • 29. Wat heb je geleerd?  Nieuwe mogelijkheden door meer data  Voor de computer zijn alle data niet meer dan getallen  Bedrijven als Google en Twitter hebben heel veel computers nodig – elke 12 seconden meer data op Twitter dan wat Shakespeare in zijn hele leven heeft geschreven!  Met slimme algorithmen kunnen we hetzelfde werk met minder computers af Informatica is heel erg leuk!