1. Bever Finale 2017 - 2018
Lezing over Big Data
Prof.dr.ir. Arjen P. de Vries
arjen@acm.org
Nijmegen, March 16th, 2018
2. Big Data
De 3 Vs van Big Data:
- Volume
We meten steeds meer, en wat we aan data verkrijgen groeit
sneller en sneller
- Velocity
Data komt sneller binnen dan we het kunnen analyseren –
aardbeving waarschuwing alleen nuttig als het voor de beving
is uitgerekend!
- Variety
Data is steeds vaker ongestructureerd, in de vorm van tekst,
beeld of video.
3. Big Data: nieuwe mogelijkheden!
Om
Data te genereren,
Delen,
Combineren
Analyseren
.. die leiden tot nieuwe inzichten en een nieuwe manier van
redeneren.
(bron: Definitie van big data van de Nationale DenkTank)
6. Big Data in NL
Aankopen bij bol.com
Bestemmingen van Booking.com op maat
Advertenties real-time verkopen, bv. bij nu.nl (Sanoma)
Nieuwsbrieven Blendle.nl
Kinderzoekmachine WizeNoze.com
Etc. etc.
13. Hoeveel data is dat dan?
Byte = getal tussen 0 en 255
of een getal tussen -128 en +127
Hoe zit dan dan met letters?
14. Hoeveel data is dat dan?
6000 / s
x 1 KB /
= 6 MB / s
= 500 GB / dag
Alleen nog maar de Tweet tekst...
… dus we missen:
Plaatjes
Web pagina’s
Filmpjes
Etc.
15. Hoeveel informatie is er eigenlijk?
We denken dat er elke seconde 30.000 GigaByte aan data
bijkomt!
16. BIG Data (Opdracht)
Nieuwe data:
30.000 GigaByte/s = 3x104x109 B/s = 3x1013 B/s
Hardeschijf: 2 TB = 2x1012 B
Dus, na 0,07 seconden is jouw harde schijf al vol!!
Bedenk hoe groot de harde schijf is die in jouw computer zit.
Weet je dat niet? Ga er dan maar van uit dat je een harde
schijf ter beschikking hebt van 2 TB (terabyte).
Hoeveel seconden (of minuten, uren of dagen) kun je aan
data op slaan, uitgaande van 30.000 gigabytes per
seconde?
17. BIG Data
24 uur = 86400 seconden
Met 3x1013 B/s is dat dan 2,6x1018 B aan data
Met 2x1012 B per schijf is dat 1.300.000 schijven
per seconde!
Dus zo big is big!
Hoeveel harde schijven van 2 TB heb je nodig om alle data
van een dag op te slaan?
18. Terug naar Twitter:
Een wonderlijke puzzel!
slideshare.net/raffikrikorian/twitter-by-the-numbers
22. Hoe maakt Twitter die Trends?
Tel hashtags of namen!
Bepaal het gemiddeld aantal keer dat #TheVoiceKids
wordt genoemd in, zeg, de laatste 10 minuten
- In jouw buurt (voor Twitter is Den Bosch vlakbij Nijmegen)
- Bij jouw tijdlijn (ik volg veel Amerikaanse onderzoekers)
- Etc.
25. Praktische opdracht (gemiddelde):
Hoe bereken je zo’n gemiddelde eigenlijk?
Eerst een klein voorbeeldje uitwerken:
1) Gemiddelde van: 10,8,12,11,9?
2) Daar komt nu 7 bij, wat is nu het gemiddelde?
3) Hoe zou je de gemiddelde uitrekenen als je weet dat:
gemiddelde tot nu toe is 10
het 6e getal dat er bij komt gelijk is aan 7
… dit kun je telkens bij grotere datasets uitrekenen zonder steeds
de hele rij getallen weer op te tellen en te delen
26. Uitdagingen “lopend gemiddelde”
Welke #hastags zijn er misschien trending?
- We moeten het lopend gemiddelde bijhouden voor elke
mogelijke trend!
#paashaas
#sinterklaas
#jufank
- Gebruik zo min mogelijk geheugen!
6000 nieuwe tweets per seconde…
28. Mogelijke oplossingen
Exact:
- Bewaar alle 10 de deelgetallen, en haal telkens oudste eraf
- Duur! Je moet 10x zoveel gegevens bewaren!
Benadering:
- Haal 1x het huidige gemiddelde / 10 eraf, voor je het nieuwe
gemiddelde berekent
- Gaat alleen maar goed als de getallen niet teveel variëren
Nog slimmere trucjes zijn al bedacht, en…
… er komen nog steeds nieuwe trucjes bij!
29. Wat heb je geleerd?
Nieuwe mogelijkheden door meer data
Voor de computer zijn alle data niet meer dan getallen
Bedrijven als Google en Twitter hebben heel veel
computers nodig – elke 12 seconden meer data op Twitter
dan wat Shakespeare in zijn hele leven heeft geschreven!
Met slimme algorithmen kunnen we hetzelfde werk met
minder computers af
Informatica is heel erg leuk!