SlideShare a Scribd company logo
1 of 43
Bever Finale 2017 - 2018
Lezing over Big Data
Prof.dr.ir. Arjen P. de Vries
arjen@acm.org
Nijmegen, March 16th, 2018
Big Data
 De 3 Vs van Big Data:
- Volume
We meten steeds meer, en wat we aan data verkrijgen groeit
sneller en sneller
- Velocity
Data komt sneller binnen dan we het kunnen analyseren –
aardbeving waarschuwing alleen nuttig als het voor de beving
is uitgerekend!
- Variety
Data is steeds vaker ongestructureerd, in de vorm van tekst,
beeld of video.
Big Data: nieuwe mogelijkheden!
Om
 Data te genereren,
 Delen,
 Combineren
 Analyseren
.. die leiden tot nieuwe inzichten en een nieuwe manier van
redeneren.
(bron: Definitie van big data van de Nationale DenkTank)
Bijvoorbeeld in de wetenschap!
(Banko and Brill, ACL 2001)
(Brants et al., EMNLP 2007)
Diversiteit aan data
 Tweets!
 Alles wat er op sociale netwerken wordt geplaatst
- Facebook, Instagram, Pinterest, …
 Alles wat er aan sociale media wordt geproduceerd
- YouTube, Flickr, …
 Communicatie:
- WhatsApp berichten en andere chat services als skype,
Snapchat, …
- Email
 Locatie-informatie
- De plek waar we ons bevinden, via smartphone GPS bv.
 Wat we kopen, bv. Bonuskaart, kortingsbonnen, …
en ga zo nog maar even door; denk bijvoorbeeld ook aan
het Internet of Things (Bv., de verwarmingsketel,
elektriceitsmeters, etc.)
Diversiteit aan data (Opdracht 1)
 Doe jij ook mee met het creëren van data? Ja, daar kun je
niet om heen. Denk er maar eens over na.
 Hoe creëer jij data?
 Kun jij je data voorstellen die jij zelf gecreëerd hebt maar
waarvan je eigenlijk niet wilt dat anderen daar iets mee
gaan doen?
 Kun jij je ook data voorstellen die, als dat op het internet
komt, voor jou nuttig kan zijn?
Herken eigennamen
Ordenen zoekresultaten
Voorspel wat jij wilt vinden
Suggesties andere vragen
Spelfouten corrigeren
Wat zou de gebruiker willen?
Orden de “verticals”
Suggesties zoekvragen
 August 4, 2006: Logs voor academici
 3 maanden, 650 duizend gebruikers, 20 miljoen zoekvragen
 Anonieme User IDs
 August 7, 2006: AOL haalde de data weg, maar… internet vergeet
nooit!
 August 9, 2006: New York Times identificeert Thelma Arnold
 “A Face Is Exposed for AOL Searcher No. 4417749”
 Zoekvragen in een kleine gemeenschap, Lilburn, GA (pop. 11k)
 Zoekvragen naar specifieke namen (Jarrett Arnold)
 NYT journalist benadert alle 14 mensen in Lilburn met achternaam
Arnold
 Thelma Arnold bevestigt haar zoekvragen
 August 21, 2006: 2 AOL werknemers ontslagen, CTO zelf weg
 September, 2006: “Class action rechtzaak” ingediend tegen AOL
AnonID Query QueryTime ItemRank ClickURL
---------- --------- --------------- ------------- ------------
1234567 uw cse 2006-04-04 18:18:18 1 http://www.cs.washington.edu/
1234567 uw admissions process 2006-04-04 18:18:18 3 http://admit.washington.edu/admission
1234567 computer science hci 2006-04-24 09:19:32
1234567 computer science hci 2006-04-24 09:20:04 2 http://www.hcii.cmu.edu
1234567 seattle restaurants 2006-04-24 09:25:50 2 http://seattletimes.nwsource.com/rests
1234567 perlman montreal 2006-04-24 10:15:14 4
http://oldwww.acm.org/perlman/guide.html
1234567 uw admissions notification 2006-05-20 13:13:13
…
AOL Search Dataset
Tnx Jamie Teevan
AOL Search Dataset
 Anonieme IDs geen garantie voor anonimiteit
 Logs bevatten direct identificerende informatie:
 Namen, telefoonnummers, credit cards, BSNs
 Tevens indirect identificerende informatie:
 Thelma’s vragen uit het NYT artikel
 Geboortedatum, geslacht en postcode is voldoende
om 87% van de Amerikanen uniek te identificeren!
Tnx Jamie Teevan
Big Data in NL
 Aankopen bij bol.com
 Bestemmingen van Booking.com op maat
 Advertenties real-time verkopen, bv. bij nu.nl (Sanoma)
 Nieuwsbrieven Blendle.nl
 Kinderzoekmachine WizeNoze.com
Etc. etc.
Twitter
Twitter
 Wie leest er weleens een Tweet?
 Wie weet er wat een “hashtag” is?
#WIDM
 Wie verstuurt er weleens een Tweet?
Je bent niet de enige!
 6000 Tweets per seconde
 500.000.000 Tweets per dag
 200.000.000.000 Tweets per jaar
internetlivestats.com
Al het werk van William Shakespeare:
5.500.000 letters…
Duurt slechts 11,6 Twitter-seconde!
quora.com/How-much-data-does-Twitter-store-daily
Hoeveel data is dat dan?
Hoeveel data is dat dan?
 Byte = getal tussen 0 en 255
of een getal tussen -128 en +127 
 Hoe zit dan dan met letters?
Hoeveel data is dat dan?
 6000 / s
x 1 KB /
= 6 MB / s
= 500 GB / dag
Alleen nog maar de Tweet tekst...
… dus we missen:
Plaatjes
Web pagina’s
Filmpjes
Etc.
BIG Data (Opdracht 2)
 Nieuwe data:
30.000 GigaByte/s = 3x104x109 B/s = 3x1013 B/s
 Hardeschijf: 2 TB = 2x1012 B
 Dus, na 0,07 seconden is jouw harde schijf al vol!!
Bedenk hoe groot de harde schijf is die in jouw computer zit.
Weet je dat niet? Ga er dan maar van uit dat je een harde
schijf ter beschikking hebt van 2 TB (terabyte).
 Hoeveel seconden (of minuten, uren of dagen) kun je aan
data op slaan, uitgaande van 30.000 gigabytes per
seconde?
BIG Data
 24 uur = 86400 seconden
 Met 3x1013 B/s is dat dan 2,6x1018 B aan data
 Met 2x1012 B per schijf is dat 1.300.000 schijven
per seconde!
 Dus zo big is big!
Hoeveel harde schijven van 2 TB heb je nodig om alle data
van een dag op te slaan?
Terug naar Twitter: Puzzeltje!
slideshare.net/raffikrikorian/twitter-by-the-numbers
@CWI – 2011
Source: Google
Data Center (is the Computer)
A Prototype “Big Data Analysis” Task
 Bekijk elk data-item
 Extraheer “iets interessants”
 Aggregeer de tussenresultaten
- Hiervoor moet je gewoonlijk alle data sorteren en herverdelen
over het datacentrum!
 Genereer de gevraagde analyse-resultaten
(Dean and Ghemawat, OSDI 2004)
Word Count: Baseline
MapReduce
mapmap map map
Shuffle and Sort: aggregate values by keys
reduce reduce reduce
k1 k2 k3 k4 k5 k6v1 v2 v3 v4 v5 v6
ba 1 2 c c3 6 a c5 2 b c7 8
a 1 5 b 2 7 c 2 3 6 8
r1 s1 r2 s2 r3 s3
mapmap map map
Shuffle and Sort: aggregate values by keys
reduce reduce reduce
k1 k2 k3 k4 k5 k6v1 v2 v3 v4 v5 v6k1 k2 k3 k4 k5 k6v1 v2 v3 v4 v5 v6
ba 1 2ba 1 2 c c3 6c c3 6 a c5 2a c5 2 b c7 8b c7 8
a 1 5a 1 5 b 2 7b 2 7 c 2 3 6 8c 2 3 6 8
r1 s1r1 s1 r2 s2r2 s2 r3 s3r3 s3
MapReduce
mapmap map map
Shuffle and Sort: aggregate values by keys
reduce reduce reduce
k1 k2 k3 k4 k5 k6v1 v2 v3 v4 v5 v6
ba 1 2 c c3 6 a c5 2 b c7 8
a 1 5 b 2 7 c 2 3 6 8
r1 s1 r2 s2 r3 s3
mapmap map map
Shuffle and Sort: aggregate values by keys
reduce reduce reduce
k1 k2 k3 k4 k5 k6v1 v2 v3 v4 v5 v6k1 k2 k3 k4 k5 k6v1 v2 v3 v4 v5 v6
ba 1 2ba 1 2 c c3 6c c3 6 a c5 2a c5 2 b c7 8b c7 8
a 1 5a 1 5 b 2 7b 2 7 c 2 3 6 8c 2 3 6 8
r1 s1r1 s1 r2 s2r2 s2 r3 s3r3 s3
MapReduce
mapmap map map
Shuffle and Sort: aggregate values by keys
reduce reduce reduce
k1 k2 k3 k4 k5 k6v1 v2 v3 v4 v5 v6
ba 1 2 c c3 6 a c5 2 b c7 8
a 1 5 b 2 7 c 2 3 6 8
r1 s1 r2 s2 r3 s3
mapmap map map
Shuffle and Sort: aggregate values by keys
reduce reduce reduce
k1 k2 k3 k4 k5 k6v1 v2 v3 v4 v5 v6k1 k2 k3 k4 k5 k6v1 v2 v3 v4 v5 v6
ba 1 2ba 1 2 c c3 6c c3 6 a c5 2a c5 2 b c7 8b c7 8
a 1 5a 1 5 b 2 7b 2 7 c 2 3 6 8c 2 3 6 8
r1 s1r1 s1 r2 s2r2 s2 r3 s3r3 s3
MapReduce
mapmap map map
Shuffle and Sort: aggregate values by keys
reduce reduce reduce
k1 k2 k3 k4 k5 k6v1 v2 v3 v4 v5 v6
ba 1 2 c c3 6 a c5 2 b c7 8
a 1 5 b 2 7 c 2 3 6 8
r1 s1 r2 s2 r3 s3
mapmap map map
Shuffle and Sort: aggregate values by keys
reduce reduce reduce
k1 k2 k3 k4 k5 k6v1 v2 v3 v4 v5 v6k1 k2 k3 k4 k5 k6v1 v2 v3 v4 v5 v6
ba 1 2ba 1 2 c c3 6c c3 6 a c5 2a c5 2 b c7 8b c7 8
a 1 5a 1 5 b 2 7b 2 7 c 2 3 6 8c 2 3 6 8
r1 s1r1 s1 r2 s2r2 s2 r3 s3r3 s3
Combiners
 Commutatieve en associatieve operators?
- Dan kan de reduce ook al voor de shuffle toegepast worden!
 Commutatieve operator:
A + B = B + A
 Associatieve operator:
(A + B) + C = A + (B + C)
combinecombine combine combine
ba 1 2 c 9 a c5 2 b c7 8
partition partition partition partition
mapmap map map
k1 k2 k3 k4 k5 k6v1 v2 v3 v4 v5 v6
ba 1 2 c c3 6 a c5 2 b c7 8
Shuffle and Sort: aggregate values by keys
reduce reduce reduce
a 1 5 b 2 7 c 2 9 8
r1 s1 r2 s2 r3 s3
c 2 3 6 8
combinecombine combine combine
ba 1 2 c 9 a c5 2 b c7 8
partition partition partition partition
mapmap map map
k1 k2 k3 k4 k5 k6v1 v2 v3 v4 v5 v6
ba 1 2 c c3 6 a c5 2 b c7 8
Shuffle and Sort: aggregate values by keys
reduce reduce reduce
a 1 5 b 2 7 c 2 9 8
r1 s1 r2 s2 r3 s3
c 2 3 6 8
combinecombine combine combine
ba 1 2 c 9 a c5 2 b c7 8
partition partition partition partition
mapmap map map
k1 k2 k3 k4 k5 k6v1 v2 v3 v4 v5 v6
ba 1 2 c c3 6 a c5 2 b c7 8
Shuffle and Sort: aggregate values by keys
reduce reduce reduce
a 1 5 b 2 7 c 2 9 8
r1 s1 r2 s2 r3 s3
c 2 3 6 8
Quiz: Waarom moet de operator associatief en
commutatief zijn?
Gemiddelde berekenen
Quiz: reducer als combiner?
Gemiddelde berekenen
Quiz: reducer als combiner?
Gemiddelde
 Niet associatief!
 “Het gemiddelde van een reeks gemiddelden is niet gelijk
aan het gemiddelde van de reeks oorspronkelijke getallen”
- Wanneer wel?!
Het kan toch!
Waarom werkt het nu wel?
 De operator “gemiddelde” werkt niet meer op getallen,
maar op de combinatie van deelsom en aantal
 Deze nieuwe operator is wel associatief en commutatief!
Wat heb je geleerd?
 Nieuwe mogelijkheden door meer data
 Bedrijven als Google en Twitter hebben heel veel
computers nodig – elke 12 seconden meer data op Twitter
dan wat Shakespeare in zijn hele leven heeft geschreven!
 Met kennis van algebra kunnen we algorithmen hetzelfde
werk met minder computers laten doen
Informatica is heel erg leuk!

More Related Content

More from Arjen de Vries

Beverwedstrijd Big Data (groep 5/6 en klas 1/2)
Beverwedstrijd Big Data (groep 5/6 en klas 1/2)Beverwedstrijd Big Data (groep 5/6 en klas 1/2)
Beverwedstrijd Big Data (groep 5/6 en klas 1/2)Arjen de Vries
 
Web Archives and the dream of the Personal Search Engine
Web Archives and the dream of the Personal Search EngineWeb Archives and the dream of the Personal Search Engine
Web Archives and the dream of the Personal Search EngineArjen de Vries
 
Information Retrieval and Social Media
Information Retrieval and Social MediaInformation Retrieval and Social Media
Information Retrieval and Social MediaArjen de Vries
 
Information Retrieval intro TMM
Information Retrieval intro TMMInformation Retrieval intro TMM
Information Retrieval intro TMMArjen de Vries
 
ACM SIGIR 2017 - Opening - PC Chairs
ACM SIGIR 2017 - Opening - PC ChairsACM SIGIR 2017 - Opening - PC Chairs
ACM SIGIR 2017 - Opening - PC ChairsArjen de Vries
 
Data Science Master Specialisation
Data Science Master SpecialisationData Science Master Specialisation
Data Science Master SpecialisationArjen de Vries
 
PUC Masterclass Big Data
PUC Masterclass Big DataPUC Masterclass Big Data
PUC Masterclass Big DataArjen de Vries
 
Bigdata processing with Spark - part II
Bigdata processing with Spark - part IIBigdata processing with Spark - part II
Bigdata processing with Spark - part IIArjen de Vries
 
Bigdata processing with Spark
Bigdata processing with SparkBigdata processing with Spark
Bigdata processing with SparkArjen de Vries
 
TREC 2016: Looking Forward Panel
TREC 2016: Looking Forward PanelTREC 2016: Looking Forward Panel
TREC 2016: Looking Forward PanelArjen de Vries
 
The personal search engine
The personal search engineThe personal search engine
The personal search engineArjen de Vries
 
Models for Information Retrieval and Recommendation
Models for Information Retrieval and RecommendationModels for Information Retrieval and Recommendation
Models for Information Retrieval and RecommendationArjen de Vries
 
Better Contextual Suggestions by Applying Domain Knowledge
Better Contextual Suggestions by Applying Domain KnowledgeBetter Contextual Suggestions by Applying Domain Knowledge
Better Contextual Suggestions by Applying Domain KnowledgeArjen de Vries
 
Similarity & Recommendation - CWI Scientific Meeting - Sep 27th, 2013
Similarity & Recommendation - CWI Scientific Meeting - Sep 27th, 2013Similarity & Recommendation - CWI Scientific Meeting - Sep 27th, 2013
Similarity & Recommendation - CWI Scientific Meeting - Sep 27th, 2013Arjen de Vries
 
ESSIR 2013 - IR and Social Media
ESSIR 2013 - IR and Social MediaESSIR 2013 - IR and Social Media
ESSIR 2013 - IR and Social MediaArjen de Vries
 
Looking beyond plain text for document representation in the enterprise
Looking beyond plain text for document representation in the enterpriseLooking beyond plain text for document representation in the enterprise
Looking beyond plain text for document representation in the enterpriseArjen de Vries
 
Recommendation and Information Retrieval: Two Sides of the Same Coin?
Recommendation and Information Retrieval: Two Sides of the Same Coin?Recommendation and Information Retrieval: Two Sides of the Same Coin?
Recommendation and Information Retrieval: Two Sides of the Same Coin?Arjen de Vries
 
Searching Political Data by Strategy
Searching Political Data by StrategySearching Political Data by Strategy
Searching Political Data by StrategyArjen de Vries
 
How to Search Annotated Text by Strategy?
How to Search Annotated Text by Strategy?How to Search Annotated Text by Strategy?
How to Search Annotated Text by Strategy?Arjen de Vries
 

More from Arjen de Vries (20)

Doing a PhD @ DOSSIER
Doing a PhD @ DOSSIERDoing a PhD @ DOSSIER
Doing a PhD @ DOSSIER
 
Beverwedstrijd Big Data (groep 5/6 en klas 1/2)
Beverwedstrijd Big Data (groep 5/6 en klas 1/2)Beverwedstrijd Big Data (groep 5/6 en klas 1/2)
Beverwedstrijd Big Data (groep 5/6 en klas 1/2)
 
Web Archives and the dream of the Personal Search Engine
Web Archives and the dream of the Personal Search EngineWeb Archives and the dream of the Personal Search Engine
Web Archives and the dream of the Personal Search Engine
 
Information Retrieval and Social Media
Information Retrieval and Social MediaInformation Retrieval and Social Media
Information Retrieval and Social Media
 
Information Retrieval intro TMM
Information Retrieval intro TMMInformation Retrieval intro TMM
Information Retrieval intro TMM
 
ACM SIGIR 2017 - Opening - PC Chairs
ACM SIGIR 2017 - Opening - PC ChairsACM SIGIR 2017 - Opening - PC Chairs
ACM SIGIR 2017 - Opening - PC Chairs
 
Data Science Master Specialisation
Data Science Master SpecialisationData Science Master Specialisation
Data Science Master Specialisation
 
PUC Masterclass Big Data
PUC Masterclass Big DataPUC Masterclass Big Data
PUC Masterclass Big Data
 
Bigdata processing with Spark - part II
Bigdata processing with Spark - part IIBigdata processing with Spark - part II
Bigdata processing with Spark - part II
 
Bigdata processing with Spark
Bigdata processing with SparkBigdata processing with Spark
Bigdata processing with Spark
 
TREC 2016: Looking Forward Panel
TREC 2016: Looking Forward PanelTREC 2016: Looking Forward Panel
TREC 2016: Looking Forward Panel
 
The personal search engine
The personal search engineThe personal search engine
The personal search engine
 
Models for Information Retrieval and Recommendation
Models for Information Retrieval and RecommendationModels for Information Retrieval and Recommendation
Models for Information Retrieval and Recommendation
 
Better Contextual Suggestions by Applying Domain Knowledge
Better Contextual Suggestions by Applying Domain KnowledgeBetter Contextual Suggestions by Applying Domain Knowledge
Better Contextual Suggestions by Applying Domain Knowledge
 
Similarity & Recommendation - CWI Scientific Meeting - Sep 27th, 2013
Similarity & Recommendation - CWI Scientific Meeting - Sep 27th, 2013Similarity & Recommendation - CWI Scientific Meeting - Sep 27th, 2013
Similarity & Recommendation - CWI Scientific Meeting - Sep 27th, 2013
 
ESSIR 2013 - IR and Social Media
ESSIR 2013 - IR and Social MediaESSIR 2013 - IR and Social Media
ESSIR 2013 - IR and Social Media
 
Looking beyond plain text for document representation in the enterprise
Looking beyond plain text for document representation in the enterpriseLooking beyond plain text for document representation in the enterprise
Looking beyond plain text for document representation in the enterprise
 
Recommendation and Information Retrieval: Two Sides of the Same Coin?
Recommendation and Information Retrieval: Two Sides of the Same Coin?Recommendation and Information Retrieval: Two Sides of the Same Coin?
Recommendation and Information Retrieval: Two Sides of the Same Coin?
 
Searching Political Data by Strategy
Searching Political Data by StrategySearching Political Data by Strategy
Searching Political Data by Strategy
 
How to Search Annotated Text by Strategy?
How to Search Annotated Text by Strategy?How to Search Annotated Text by Strategy?
How to Search Annotated Text by Strategy?
 

Beverwedstrijd Big Data (klas 3/4/5/6)

  • 1. Bever Finale 2017 - 2018 Lezing over Big Data Prof.dr.ir. Arjen P. de Vries arjen@acm.org Nijmegen, March 16th, 2018
  • 2. Big Data  De 3 Vs van Big Data: - Volume We meten steeds meer, en wat we aan data verkrijgen groeit sneller en sneller - Velocity Data komt sneller binnen dan we het kunnen analyseren – aardbeving waarschuwing alleen nuttig als het voor de beving is uitgerekend! - Variety Data is steeds vaker ongestructureerd, in de vorm van tekst, beeld of video.
  • 3. Big Data: nieuwe mogelijkheden! Om  Data te genereren,  Delen,  Combineren  Analyseren .. die leiden tot nieuwe inzichten en een nieuwe manier van redeneren. (bron: Definitie van big data van de Nationale DenkTank)
  • 4. Bijvoorbeeld in de wetenschap! (Banko and Brill, ACL 2001) (Brants et al., EMNLP 2007)
  • 5. Diversiteit aan data  Tweets!  Alles wat er op sociale netwerken wordt geplaatst - Facebook, Instagram, Pinterest, …  Alles wat er aan sociale media wordt geproduceerd - YouTube, Flickr, …  Communicatie: - WhatsApp berichten en andere chat services als skype, Snapchat, … - Email  Locatie-informatie - De plek waar we ons bevinden, via smartphone GPS bv.  Wat we kopen, bv. Bonuskaart, kortingsbonnen, … en ga zo nog maar even door; denk bijvoorbeeld ook aan het Internet of Things (Bv., de verwarmingsketel, elektriceitsmeters, etc.)
  • 6. Diversiteit aan data (Opdracht 1)  Doe jij ook mee met het creëren van data? Ja, daar kun je niet om heen. Denk er maar eens over na.  Hoe creëer jij data?  Kun jij je data voorstellen die jij zelf gecreëerd hebt maar waarvan je eigenlijk niet wilt dat anderen daar iets mee gaan doen?  Kun jij je ook data voorstellen die, als dat op het internet komt, voor jou nuttig kan zijn?
  • 7. Herken eigennamen Ordenen zoekresultaten Voorspel wat jij wilt vinden Suggesties andere vragen
  • 8. Spelfouten corrigeren Wat zou de gebruiker willen? Orden de “verticals” Suggesties zoekvragen
  • 9.  August 4, 2006: Logs voor academici  3 maanden, 650 duizend gebruikers, 20 miljoen zoekvragen  Anonieme User IDs  August 7, 2006: AOL haalde de data weg, maar… internet vergeet nooit!  August 9, 2006: New York Times identificeert Thelma Arnold  “A Face Is Exposed for AOL Searcher No. 4417749”  Zoekvragen in een kleine gemeenschap, Lilburn, GA (pop. 11k)  Zoekvragen naar specifieke namen (Jarrett Arnold)  NYT journalist benadert alle 14 mensen in Lilburn met achternaam Arnold  Thelma Arnold bevestigt haar zoekvragen  August 21, 2006: 2 AOL werknemers ontslagen, CTO zelf weg  September, 2006: “Class action rechtzaak” ingediend tegen AOL AnonID Query QueryTime ItemRank ClickURL ---------- --------- --------------- ------------- ------------ 1234567 uw cse 2006-04-04 18:18:18 1 http://www.cs.washington.edu/ 1234567 uw admissions process 2006-04-04 18:18:18 3 http://admit.washington.edu/admission 1234567 computer science hci 2006-04-24 09:19:32 1234567 computer science hci 2006-04-24 09:20:04 2 http://www.hcii.cmu.edu 1234567 seattle restaurants 2006-04-24 09:25:50 2 http://seattletimes.nwsource.com/rests 1234567 perlman montreal 2006-04-24 10:15:14 4 http://oldwww.acm.org/perlman/guide.html 1234567 uw admissions notification 2006-05-20 13:13:13 … AOL Search Dataset Tnx Jamie Teevan
  • 10. AOL Search Dataset  Anonieme IDs geen garantie voor anonimiteit  Logs bevatten direct identificerende informatie:  Namen, telefoonnummers, credit cards, BSNs  Tevens indirect identificerende informatie:  Thelma’s vragen uit het NYT artikel  Geboortedatum, geslacht en postcode is voldoende om 87% van de Amerikanen uniek te identificeren! Tnx Jamie Teevan
  • 11. Big Data in NL  Aankopen bij bol.com  Bestemmingen van Booking.com op maat  Advertenties real-time verkopen, bv. bij nu.nl (Sanoma)  Nieuwsbrieven Blendle.nl  Kinderzoekmachine WizeNoze.com Etc. etc.
  • 13.
  • 14. Twitter  Wie leest er weleens een Tweet?  Wie weet er wat een “hashtag” is? #WIDM  Wie verstuurt er weleens een Tweet?
  • 15. Je bent niet de enige!  6000 Tweets per seconde  500.000.000 Tweets per dag  200.000.000.000 Tweets per jaar internetlivestats.com
  • 16. Al het werk van William Shakespeare: 5.500.000 letters… Duurt slechts 11,6 Twitter-seconde! quora.com/How-much-data-does-Twitter-store-daily
  • 17. Hoeveel data is dat dan?
  • 18. Hoeveel data is dat dan?  Byte = getal tussen 0 en 255 of een getal tussen -128 en +127   Hoe zit dan dan met letters?
  • 19.
  • 20. Hoeveel data is dat dan?  6000 / s x 1 KB / = 6 MB / s = 500 GB / dag Alleen nog maar de Tweet tekst... … dus we missen: Plaatjes Web pagina’s Filmpjes Etc.
  • 21. BIG Data (Opdracht 2)  Nieuwe data: 30.000 GigaByte/s = 3x104x109 B/s = 3x1013 B/s  Hardeschijf: 2 TB = 2x1012 B  Dus, na 0,07 seconden is jouw harde schijf al vol!! Bedenk hoe groot de harde schijf is die in jouw computer zit. Weet je dat niet? Ga er dan maar van uit dat je een harde schijf ter beschikking hebt van 2 TB (terabyte).  Hoeveel seconden (of minuten, uren of dagen) kun je aan data op slaan, uitgaande van 30.000 gigabytes per seconde?
  • 22. BIG Data  24 uur = 86400 seconden  Met 3x1013 B/s is dat dan 2,6x1018 B aan data  Met 2x1012 B per schijf is dat 1.300.000 schijven per seconde!  Dus zo big is big! Hoeveel harde schijven van 2 TB heb je nodig om alle data van een dag op te slaan?
  • 23. Terug naar Twitter: Puzzeltje! slideshare.net/raffikrikorian/twitter-by-the-numbers
  • 24.
  • 26. Source: Google Data Center (is the Computer)
  • 27. A Prototype “Big Data Analysis” Task  Bekijk elk data-item  Extraheer “iets interessants”  Aggregeer de tussenresultaten - Hiervoor moet je gewoonlijk alle data sorteren en herverdelen over het datacentrum!  Genereer de gevraagde analyse-resultaten (Dean and Ghemawat, OSDI 2004)
  • 29. MapReduce mapmap map map Shuffle and Sort: aggregate values by keys reduce reduce reduce k1 k2 k3 k4 k5 k6v1 v2 v3 v4 v5 v6 ba 1 2 c c3 6 a c5 2 b c7 8 a 1 5 b 2 7 c 2 3 6 8 r1 s1 r2 s2 r3 s3 mapmap map map Shuffle and Sort: aggregate values by keys reduce reduce reduce k1 k2 k3 k4 k5 k6v1 v2 v3 v4 v5 v6k1 k2 k3 k4 k5 k6v1 v2 v3 v4 v5 v6 ba 1 2ba 1 2 c c3 6c c3 6 a c5 2a c5 2 b c7 8b c7 8 a 1 5a 1 5 b 2 7b 2 7 c 2 3 6 8c 2 3 6 8 r1 s1r1 s1 r2 s2r2 s2 r3 s3r3 s3
  • 30. MapReduce mapmap map map Shuffle and Sort: aggregate values by keys reduce reduce reduce k1 k2 k3 k4 k5 k6v1 v2 v3 v4 v5 v6 ba 1 2 c c3 6 a c5 2 b c7 8 a 1 5 b 2 7 c 2 3 6 8 r1 s1 r2 s2 r3 s3 mapmap map map Shuffle and Sort: aggregate values by keys reduce reduce reduce k1 k2 k3 k4 k5 k6v1 v2 v3 v4 v5 v6k1 k2 k3 k4 k5 k6v1 v2 v3 v4 v5 v6 ba 1 2ba 1 2 c c3 6c c3 6 a c5 2a c5 2 b c7 8b c7 8 a 1 5a 1 5 b 2 7b 2 7 c 2 3 6 8c 2 3 6 8 r1 s1r1 s1 r2 s2r2 s2 r3 s3r3 s3
  • 31. MapReduce mapmap map map Shuffle and Sort: aggregate values by keys reduce reduce reduce k1 k2 k3 k4 k5 k6v1 v2 v3 v4 v5 v6 ba 1 2 c c3 6 a c5 2 b c7 8 a 1 5 b 2 7 c 2 3 6 8 r1 s1 r2 s2 r3 s3 mapmap map map Shuffle and Sort: aggregate values by keys reduce reduce reduce k1 k2 k3 k4 k5 k6v1 v2 v3 v4 v5 v6k1 k2 k3 k4 k5 k6v1 v2 v3 v4 v5 v6 ba 1 2ba 1 2 c c3 6c c3 6 a c5 2a c5 2 b c7 8b c7 8 a 1 5a 1 5 b 2 7b 2 7 c 2 3 6 8c 2 3 6 8 r1 s1r1 s1 r2 s2r2 s2 r3 s3r3 s3
  • 32. MapReduce mapmap map map Shuffle and Sort: aggregate values by keys reduce reduce reduce k1 k2 k3 k4 k5 k6v1 v2 v3 v4 v5 v6 ba 1 2 c c3 6 a c5 2 b c7 8 a 1 5 b 2 7 c 2 3 6 8 r1 s1 r2 s2 r3 s3 mapmap map map Shuffle and Sort: aggregate values by keys reduce reduce reduce k1 k2 k3 k4 k5 k6v1 v2 v3 v4 v5 v6k1 k2 k3 k4 k5 k6v1 v2 v3 v4 v5 v6 ba 1 2ba 1 2 c c3 6c c3 6 a c5 2a c5 2 b c7 8b c7 8 a 1 5a 1 5 b 2 7b 2 7 c 2 3 6 8c 2 3 6 8 r1 s1r1 s1 r2 s2r2 s2 r3 s3r3 s3
  • 33. Combiners  Commutatieve en associatieve operators? - Dan kan de reduce ook al voor de shuffle toegepast worden!  Commutatieve operator: A + B = B + A  Associatieve operator: (A + B) + C = A + (B + C)
  • 34. combinecombine combine combine ba 1 2 c 9 a c5 2 b c7 8 partition partition partition partition mapmap map map k1 k2 k3 k4 k5 k6v1 v2 v3 v4 v5 v6 ba 1 2 c c3 6 a c5 2 b c7 8 Shuffle and Sort: aggregate values by keys reduce reduce reduce a 1 5 b 2 7 c 2 9 8 r1 s1 r2 s2 r3 s3 c 2 3 6 8
  • 35. combinecombine combine combine ba 1 2 c 9 a c5 2 b c7 8 partition partition partition partition mapmap map map k1 k2 k3 k4 k5 k6v1 v2 v3 v4 v5 v6 ba 1 2 c c3 6 a c5 2 b c7 8 Shuffle and Sort: aggregate values by keys reduce reduce reduce a 1 5 b 2 7 c 2 9 8 r1 s1 r2 s2 r3 s3 c 2 3 6 8
  • 36. combinecombine combine combine ba 1 2 c 9 a c5 2 b c7 8 partition partition partition partition mapmap map map k1 k2 k3 k4 k5 k6v1 v2 v3 v4 v5 v6 ba 1 2 c c3 6 a c5 2 b c7 8 Shuffle and Sort: aggregate values by keys reduce reduce reduce a 1 5 b 2 7 c 2 9 8 r1 s1 r2 s2 r3 s3 c 2 3 6 8
  • 37. Quiz: Waarom moet de operator associatief en commutatief zijn?
  • 40. Gemiddelde  Niet associatief!  “Het gemiddelde van een reeks gemiddelden is niet gelijk aan het gemiddelde van de reeks oorspronkelijke getallen” - Wanneer wel?!
  • 42. Waarom werkt het nu wel?  De operator “gemiddelde” werkt niet meer op getallen, maar op de combinatie van deelsom en aantal  Deze nieuwe operator is wel associatief en commutatief!
  • 43. Wat heb je geleerd?  Nieuwe mogelijkheden door meer data  Bedrijven als Google en Twitter hebben heel veel computers nodig – elke 12 seconden meer data op Twitter dan wat Shakespeare in zijn hele leven heeft geschreven!  Met kennis van algebra kunnen we algorithmen hetzelfde werk met minder computers laten doen Informatica is heel erg leuk!

Editor's Notes

  1. Released at SIGIR 2006 Thelma Arnold, a 62 year old woman from Lilburn, GA Lawsuit asking for $5000/user http://en.wikipedia.org/wiki/AOL_search_data_scandal http://www.nytimes.com/2006/08/09/technology/09aol.html?_r=1 Basic Collection Statistics Dates: 01 March, 2006 - 31 May, 2006 Normalized queries: 36,389,567 lines of data 21,011,340 instances of new queries (w/ or w/o click-through) 7,887,022 requests for "next page" of results 19,442,629 user click-through events 16,946,938 queries w/o user click-through 10,154,742 unique (normalized) queries 657,426 unique user ID's Please reference the following publication when using this collection: G. Pass, A. Chowdhury, C. Torgeson. A Picture of Search. The First International Conference on Scalable Information Systems, Hong Kong, June 2006.
  2. User 927: Inspired theatrical production by Katharine Clark Gray User 711391: Middle-aged woman, has an affair, ends it, tries to save her marriage.
  3. Avg of avg is usually not equal to the avg (except if all groups are equal size)
  4. Avg of avg is usually not equal to the avg (except if all groups are equal size)