Presentatie van Dr. Piet Daas (CBS): 'Statistiek en grote data bestanden' tijdens het Big Data Analytics seminar 14 juni van Almere DataCapital in Almere.
Peter Walgemoed (Carelliance) - Businessmodels for Big Data
Dr. Piet Daas (CBS) - Statistiek en grote data bestanden
1. Statistiek en grote data
bestanden
Piet Daas, Martijn Tennekes, Edwin de Jonge,
Alex Priem en Merijn van Pelt
Centraal Bureau voor de Statistiek
Big Data Analytics, 14 Juni Almere
2. Centraal Bureau voor de Statistiek
• Taak: “het publiceren van betrouwbare en
samenhangende statistische informatie, die
inspeelt op de behoefte van de samenleving”.
• in 2012 zo’n kleine 5000 officiële publicaties & tabellen
• Doel: maximale vermindering van administratieve
lasten
• Door bestaande administratieve bestanden te
hergebruiken.
• Kijken naar de nieuwe bronnen van informatie: Big Data!
Big Data Analytics 14 Juni Almere 1
3. CBS en gegevens
Flinke verandering in gebruik beschikbare informatie voor
statistiekproductie:
1. Enquêtegegevens (steeds minder)
Per enquête tot max. 100.000 records per jaar
2. Administratieve bronnen (steeds meer)
Per bron tot 20 miljoen records per maand
• Ook steeds meer ‘nieuwe’ bronnen (Big Data)
Per bron zo’n 40-80 miljoen records per dag
Big Data Analytics 14 Juni Almere 2
4. CBS en gegevens (2)
• Er is steeds meer en steeds vaker data beschikbaar:
• Van ‘Data schaarste’ (steekproef-) naar ‘Data overdaad’
• Steeds grotere hoeveelheden data moeten snel
gecontroleerd, verwerkt en geanalyseerd worden
• Meer aandacht voor selectiviteit en datatransformatie
• Meer mogelijkheden voor snelle cijfers (‘real-time
statistics’)
• Behoefte aan nieuwe methoden en tools
• Statistische methoden geschikt voor grote datasets
• Denk aan: visualisatie methoden en data-, tekst- en
stream-mining technieken
Big Data Analytics 14 Juni Almere 3
5. Nieuwe ontwikkelingen
• Voorbeelden uit de praktijk
1) Visualisatie-methoden om snel inzicht te krijgen
in grote hoeveelheden gegevens
a. Virtuele Volkstelling (17 miljoen records)
b. Polisadministratie (20 miljoen records)
2) Bevindingen van onderzoek gebruik Big Data
bronnen
c. Verkeerslusgegevens (80 miljoen records)
• Mobiele telefonie (~500 miljoen records)
Big Data Analytics 14 Juni Almere 4
6. Voorbeeld a. Virtuele Volkstelling
• Volkstelling is verplicht, eens in 10-jaar
• In Nederland niet meer met vragenlijsten
• Laatste traditionele volkstelling in 1971
• Nu door (her)gebruik van reeds verzamelde
informatie
• Grootschalig koppelen van administratieve bronnen en
enquêtegegevens
• Controleren en bijschatten
• Hoe controleren?
• Met een visualisatiemethode: Tableplot
Big Data Analytics 14 Juni Almere 5
8. Voorbeeld b: Polisadministratie
• Bestand met de financiële gegevens van
alle banen, uitkeringen en pensioenen in
Nederland
• Verzameld door Belastingdienst en UWV
• Elke maand 20 miljoen records
• Hoe krijgen we inzicht in deze enorme bak
data?
• Met een visualisatie: heat map
Big Data Analytics 14 Juni Almere 7
10. In 3D heatmap: Leeftijd, Inkomen, Aantal
Na ‘in
dikken
’
leef
tijd
leef
tijd
Big Data Analytics 14 Juni Almere 9
11. Voorbeeld c: Verkeerslusgegevens
• Verkeerslussen
• Elke minuut (24/7) wordt het aantal
passerende voertuigen op ~10.000
meetpunten in Nederland geteld
• Totaal en in verschillende lengtecategorieën
• Mooie bron om verkeer- en vervoerstatistieken
mee te maken
• Veel data, zo’n 80 miljoen records per dag
Big Data Analytics 14 Juni Almere 10
14. Na ‘gaafmaken’ van lusdata (op macroniveau)
Maar op microniveau
Big Data Analytics 14 Juni Almere 13
15. Nog steeds op microniveau veel ‘ruis’
Big Data Analytics 14 Juni Almere 14
16. Kijk naar trend: voortschrijdend gemiddelde
60 min gem.
30 min gem.
20 min gem.
10 min gem.
5 min gem.
origineel
Big Data Analytics 14 Juni Almere 15
17. Voorbeeld d: Mobiele telefoon
• Vrijwel elke Nederlander heeft een ‘mobieltje’
• Bijna altijd bij zich en staat vrijwel altijd aan
• Steeds meer mensen hebben een smartphone!
• Ideale informatiebron om:
• Met behulp van registraties van providers:
• Verplaatsingsgedrag (‘Dag’-populatie)
• Toerisme (nieuwe aanmeldingen op netwerk)
• Mensenmassa’s (bijv. bij evenementen)
• Als meetinstrument te gebruiken voor:
• Vragenlijsten (via App, SMS of browser)
• Maken van foto’s van producten, kassabonnen en streepjescodes
• Doorgeven exacte locatie (GPS)
• Etc.
Big Data Analytics 14 Juni Almere 16
18. Verplaatsingsgedrag mobiele telefoons
Verplaatsingen van zeer
actieve mobiele gebruikers
- gedurende 14 dagen
- van één provider
Gebaseerd op:
- Bel- en SMS-activiteit
meer dan 1x / dag
- Locatie telefoonmasten
Duidelijk selectief:
- Wel de grote steden
- Nauwelijks ‘t noorden
en zeeland
Big Data Analytics 14 Juni Almere 17
19. Afsluitend: Statistiek en ‘Big Data’
• Geschikt maken voor statistisch gebruik is veel werk
• Vooronderzoek nodig, kost veel tijd
• Informatiereductie (‘indikken’) nodig
• Risico: ‘garbage in’ ‘garbage statistics out’
• Traditionele aanpak schiet te kort
• Zijn geen steekproefgegevens meer
• Betreft vaak een selectief deel van de populatie
• Soms te veel data (overdekking & teveel detail)
• Bij standaard analyses wordt alles significant!
• Meer behoefte aan:
• Visualisatiemethoden (om snel inzicht te krijgen)
• Snelle methoden en niet-lineaire schatters
• ‘Computational statistics’ (& snelle hardware)
• Privacy-eisen worden hoger!
Big Data Analytics 14 Juni Almere 18