Beverwedstrijd Big Data (groep 5/6 en klas 1/2)

Bever Finale 2017 - 2018
Lezing over Big Data
Prof.dr.ir. Arjen P. de Vries
arjen@acm.org
Nijmegen, March 16th, 2018

Big Data
 De 3 Vs van Big Data:
- Volume
We meten steeds meer, en wat we aan data verkrijgen groeit
sneller en sneller
- Velocity
Data komt sneller binnen dan we het kunnen analyseren –
aardbeving waarschuwing alleen nuttig als het voor de beving
is uitgerekend!
- Variety
Data is steeds vaker ongestructureerd, in de vorm van tekst,
beeld of video.

Big Data: nieuwe mogelijkheden!
Om
 Data te genereren,
 Delen,
 Combineren
 Analyseren
.. die leiden tot nieuwe inzichten en een nieuwe manier van
redeneren.
(bron: Definitie van big data van de Nationale DenkTank)

Herken eigennamen
Ordenen zoekresultaten
Voorspel wat jij wilt vinden
Suggesties andere vragen

Spelfouten corrigeren
Wat zou de gebruiker willen?
Orden de “verticals”
Suggesties zoekvragen

Big Data in NL
 Aankopen bij bol.com
 Bestemmingen van Booking.com op maat
 Advertenties real-time verkopen, bv. bij nu.nl (Sanoma)
 Nieuwsbrieven Blendle.nl
 Kinderzoekmachine WizeNoze.com
Etc. etc.

Twitter
 Wie leest er weleens een Tweet?
 Wie weet er wat een “hashtag” is?
#WIDM
 Wie verstuurt er weleens een Tweet?

Je bent niet de enige!
 6000 Tweets per seconde
 500.000.000 Tweets per dag
 200.000.000.000 Tweets per jaar
internetlivestats.com

Al het werk van William Shakespeare:
5.500.000 letters…
Duurt slechts 11,6 Twitter-seconde!
quora.com/How-much-data-does-Twitter-store-daily

Hoeveel data is dat dan?
 Byte = getal tussen 0 en 255
of een getal tussen -128 en +127 
 Hoe zit dan dan met letters?

Hoeveel data is dat dan?
 6000 / s
x 1 KB /
= 6 MB / s
= 500 GB / dag
Alleen nog maar de Tweet tekst...
… dus we missen:
Plaatjes
Web pagina’s
Filmpjes
Etc.

Hoeveel informatie is er eigenlijk?
 We denken dat er elke seconde 30.000 GigaByte aan data
bijkomt!

BIG Data (Opdracht)
 Nieuwe data:
30.000 GigaByte/s = 3x104x109 B/s = 3x1013 B/s
 Hardeschijf: 2 TB = 2x1012 B
 Dus, na 0,07 seconden is jouw harde schijf al vol!!
Bedenk hoe groot de harde schijf is die in jouw computer zit.
Weet je dat niet? Ga er dan maar van uit dat je een harde
schijf ter beschikking hebt van 2 TB (terabyte).
 Hoeveel seconden (of minuten, uren of dagen) kun je aan
data op slaan, uitgaande van 30.000 gigabytes per
seconde?

BIG Data
 24 uur = 86400 seconden
 Met 3x1013 B/s is dat dan 2,6x1018 B aan data
 Met 2x1012 B per schijf is dat 1.300.000 schijven
per seconde!
 Dus zo big is big!
Hoeveel harde schijven van 2 TB heb je nodig om alle data
van een dag op te slaan?

Terug naar Twitter:
Een wonderlijke puzzel!
slideshare.net/raffikrikorian/twitter-by-the-numbers

Source: Google
Data Center (is the Computer)

Twitter Trends
Den Bosch - Dordrecht

Hoe maakt Twitter die Trends?
 Tel hashtags of namen!
 Bepaal het gemiddeld aantal keer dat #TheVoiceKids
wordt genoemd in, zeg, de laatste 10 minuten
- In jouw buurt (voor Twitter is Den Bosch vlakbij Nijmegen)
- Bij jouw tijdlijn (ik volg veel Amerikaanse onderzoekers)
- Etc.

 #TheVoiceKids 10m – 9m : 10
 #TheVoiceKids etc.
#TheVoiceKids

#TheVoiceKids (1 minuut later)
 #TheVoiceKids 11m –10m : 10

Praktische opdracht (gemiddelde):
 Hoe bereken je zo’n gemiddelde eigenlijk?
 Eerst een klein voorbeeldje uitwerken:
1) Gemiddelde van: 10,8,12,11,9?
2) Daar komt nu 7 bij, wat is nu het gemiddelde?
3) Hoe zou je de gemiddelde uitrekenen als je weet dat:
gemiddelde tot nu toe is 10
het 6e getal dat er bij komt gelijk is aan 7
… dit kun je telkens bij grotere datasets uitrekenen zonder steeds
de hele rij getallen weer op te tellen en te delen

Uitdagingen “lopend gemiddelde”
 Welke #hastags zijn er misschien trending?
- We moeten het lopend gemiddelde bijhouden voor elke
mogelijke trend!
#paashaas
#sinterklaas
#jufank
- Gebruik zo min mogelijk geheugen!
6000 nieuwe tweets per seconde…

Gemiddelde over laatste 10 minuten?!
 #TheVoiceKids 11m –10m : 10

Mogelijke oplossingen
 Exact:
- Bewaar alle 10 de deelgetallen, en haal telkens oudste eraf
- Duur! Je moet 10x zoveel gegevens bewaren!
 Benadering:
- Haal 1x het huidige gemiddelde / 10 eraf, voor je het nieuwe
gemiddelde berekent
- Gaat alleen maar goed als de getallen niet teveel variëren
Nog slimmere trucjes zijn al bedacht, en…
… er komen nog steeds nieuwe trucjes bij!

Wat heb je geleerd?
 Nieuwe mogelijkheden door meer data
 Voor de computer zijn alle data niet meer dan getallen
 Bedrijven als Google en Twitter hebben heel veel
computers nodig – elke 12 seconden meer data op Twitter
dan wat Shakespeare in zijn hele leven heeft geschreven!
 Met slimme algorithmen kunnen we hetzelfde werk met
minder computers af
Informatica is heel erg leuk!

Beverwedstrijd Big Data (groep 5/6 en klas 1/2)

Recommended

Recommended

More Related Content

Similar to Beverwedstrijd Big Data (groep 5/6 en klas 1/2)

Similar to Beverwedstrijd Big Data (groep 5/6 en klas 1/2) (20)

More from Arjen de Vries

More from Arjen de Vries (20)

Beverwedstrijd Big Data (groep 5/6 en klas 1/2)