2. Tietolähteet
Operatiiviset tietojärjestelmät Muut, nykyisin käytössä olevat tietolähteet
SAP
DB DB
Datan integraatioprosessi (automatisoitu)
Keskitetty tietovaranto
Staging area
Tietovarasto
Dataintegraatiojaautomatisointi
Data Mart Data Mart
Lataus- ja
esikäsittelyalue
Harmonisoitu, keskitetty
tietovaranto
Datan esityskerros
(fyysinen tai virtualisoitu)
DB
Excel, csv
tiedostot
”Uusi data”: Ulkoiset, mahdolliset tietolähteet
Sisäinen raportointi
(vakio, self service)
Ulkoinen raportointi Edistynyt
analytiikka
• Valtavat tietomassat (kun yli 1TB)
• Reaaliaikainen analytiikka
• Ei-rakenteinen tieto
+
Big data
Muut sovellukset ja palvelut
Data Mart
DB
DB
DB.
DB.
Barometrit Sosiaalinen
media
Avoin data
LÄHDEDATADATAKERROS
SOVELLUS-JA
JULKAISU
DB
Data Lake
Sanastot
Metadatan
hallinta
Datan
mallintaminen
DevOps
Suunnittelu ja
ennustaminen
Dataintegraatiot
Laitteet ja
sensorit
Webbilogit
• Kylmä data
Kyllä. Todellakin.
(mutta ei vielä hetkeen)
3. Louhia lyhyesti
● Louhia on vuonna 2009 perustettu kasvava ja
kannattava asiantuntijaorganisaatio, joka on
erikoistunut analytiikkaan ja dataan.
● Autamme asiakkaitamme muuttamaan datan
liiketoimintahyödyksi analytiikan avulla.
Konsultoimme, koulutamme ja kehitämme
erilaisia tiedon hallinnan ja analytiikan ratkaisuja.
● Asiakkaanamme on pääasiassa suuria
organisaatiota useilta toimialoilta kuten kaupan
alalta, teollisuudesta, pankki- ja vakuutusalalta,
mediasta ja julkiselta sektorilta.
Data-analyytikot
Murskaavat dataa ja
analysoivat tuloksia
Bisneskonsultit
Kääntävät tulokset
liiketoimintahyödyiksi
4. Palvelumme
Edistynyt analytiikka
• Tilastolliset menetelmät
• Koneoppiminen / Machine Learning
• Tekoäly / Artificial Intelligence
• Tarinallinen kerronta
• Käsite- ja tietomallinnus
• Tietovarastointi ja integraatiot
• Raportointi ja visualisointi
• KPI-mittaristot
Tiedonhallinta
• Esiselvitykset, määrittelyt ja arkkitehtuurisuunnittelu
• Toimittajakilpailutukset ja teknologiavalinnat
• Hanke- ja projektihallinta
• Tiedolla johtamisen ja analytiikan koulutukset ja valmennus
Konsultointi ja koulutukset
6. Aikajana – datan hyödyntäminen ei ole uutta
1970: ACNielsen ja IRI käyttivät
“dimensionaalista data marttia”
lisäämään vähittäismyyntiä
1988: “An architecture for a business
information system (IBM Systems Journal)
1990-luku: BI:n kasvu
8. Tekoäly vs. koneoppiminen
Toisesta näkökulmasta tarkasteltuna yhdistetään dataa,
koneoppimista, perinteistä ohjelmointia ja deterministisiä
sääntöjä keskenään
http://www.louhia.fi/artikkelit/auton-myyntihinnan-ennustaminen/
Vuosimalli
Vetotyyppi
Kilometrit
Kulutus
Syötä autosi tiedot
Tulosta ilmainen hinta-arvio
Tekoäly arvioi autosi hinnaksi
13 854 euroa
Auta tekoälyä oppimaan - oliko arvio
Hyvä HuonoIhan ok
9. Tekoälyn kahdet kasvot
● Suppea tekoäly
Ratkaisee jonkin spesifin osa-alueen haasteita
Esim. optimoi reittejä, ennustaa vikaantumista,
kohdentaa mainontaa
Tai auttaa tietovarastointiprosessissa
● Yleinen tekoäly
Ratkoo mitä tahansa haasteita
Ihmisaivojen laskentatehoon muutamia
kymmeniä vuosia
Poimitaan parhaat palat suppeista tekoälyistä ja
liitetään ne omiin kehitysprojekteihin
12. Mihin kaikkeen muuhun tekoäly kykenee?
Jokapäiväisiä ihmisten juttuja
Tunnistamaan esineitä kuvissa
Selaamaan Helsingin metroalueen karttaa
Tunnistamaan tunteita kasvoista ja puheesta
Lukemaan huulilta ihmistä paremmin
Kääntämään puhetta paremmin kuin ammattikääntäjät
Puhumaan
Matkustaminen
Ajamaan autoa
Lentämään dronea
Ennustamaan pysäköinnin haasteita alueittain
Tiede
Löytämään olemassa oleville lääkkeille uusi
käyttötarkoitus
Tunnistamaan syöpä paremmin kuin ihmiset
Ennakoimaan hypoglykeemisia tapahtumia
diabeetikoilla kolme tuntia etukäteen
Tunnistamaan riski sokeutumiselle verkkokalvon
kuvista
Turvallisuus
Paikantamaan murtovarkaita kotonasi
Kirjoittamaan oman salauskielen
Ennakoimaan yhteiskunnallisia levottomuuksia 5
päivää etukäteen
Tunnistamaan haittaohjelmat
Tarkastamaan henkilöllisyytesi
Laki
Ennakoimaan tapausten tulokset
ihmisoikeustuomioistuimessa 79 % todennäköisyydellä
Tarkastelemaan M&A-kauppoja
Löytämään virheitä oikeudellisissa asiakirjoissa
https://medium.com/on-coding/the-state-of-ai-9aae385c2038
14. Tekoäly ei osaa (aina) kertoa, miksi se
on päätynyt johonkin ratkaisuun
● Haastavaa esimerkiksi pankkimaailmassa
Yhdysvaltojen lainsäädännössä estetään uskonnon perusteella
tapahtuva syrjintä
Lainanantajan tulee esittää syyt, miksi hakijan luottoriskipisteet ovat
liian alhaiset
● Erityisesti haastavaa, jos väärän ennusteen tekemiseen
liittyvät kustannukset ovat erittäin korkeat
15.
16. Tietovarastoinnin kehitys - eilen
Tietolähteet
Operatiiviset tietojärjestelmät Muut, nykyisin käytössä olevat tietolähteet
SAP
DB DB
Datan integraatioprosessi (automatisoitu)
Keskitetty tietovaranto
Staging area
Tietovarasto
Dataintegraatiojaautomatisointi
Data Mart Data Mart
Lataus- ja
esikäsittelyalue
Harmonisoitu, keskitetty
tietovaranto
Datan esityskerros
(fyysinen tai virtualisoitu)
DB
Excel, csv
tiedostot
Sisäinen raportointi
(vakio, self service)
Ulkoinen raportointi
Data Mart
DB
DB
DB.
DB.
Barometrit
LÄHDEDATADATAKERROS
SOVELLUS-JA
JULKAISU
Sanastot
Metadatan
hallinta
Datan
mallintaminen
17. Tietovarastoinnin kehitys - tänään
Tietolähteet
Operatiiviset tietojärjestelmät Muut, nykyisin käytössä olevat tietolähteet
SAP
DB DB
Datan integraatioprosessi (automatisoitu)
Keskitetty tietovaranto
Staging area
Tietovarasto
Dataintegraatiojaautomatisointi
Data Mart Data Mart
Lataus- ja
esikäsittelyalue
Harmonisoitu, keskitetty
tietovaranto
Datan esityskerros
(fyysinen tai virtualisoitu)
DB
Excel, csv
tiedostot
”Uusi data”: Ulkoiset, mahdolliset tietolähteet
Sisäinen raportointi
(vakio, self service)
Ulkoinen raportointi Dataintegraatiot
• Valtavat tietomassat (kun yli 1TB)
• Reaaliaikainen analytiikka
• Ei-rakenteinen tieto
+
Big data
Muut sovellukset ja palvelut
Data Mart
DB
DB
DB.
DB.
Barometrit Sosiaalinen
media
Avoin data
LÄHDEDATADATAKERROS
SOVELLUS-JA
JULKAISU
DB
Data Lake
Sanastot
Metadatan
hallinta
Datan
mallintaminen
DevOps
Suunnittelu ja
ennustaminen
Edistynyt
analytiikka
Laitteet ja
sensorit
Webbilogit
• Kylmä data
18. Tekoälyn hyödyntäminen tietovarastoinnissa
Tietolähteet
Operatiiviset tietojärjestelmät Muut, nykyisin käytössä olevat tietolähteet
SAP
DB DB
Datan integraatioprosessi (automatisoitu)
Keskitetty tietovaranto
Staging area
Tietovarasto
Dataintegraatiojaautomatisointi
Data Mart Data Mart
Lataus- ja
esikäsittelyalue
Harmonisoitu, keskitetty
tietovaranto
Datan esityskerros
(fyysinen tai virtualisoitu)
DB
Excel, csv
tiedostot
”Uusi data”: Ulkoiset, mahdolliset tietolähteet
Sisäinen raportointi
(vakio, self service)
Ulkoinen raportointi Edistynyt
analytiikka
• Valtavat tietomassat (kun yli 1TB)
• Reaaliaikainen analytiikka
• Ei-rakenteinen tieto
+
Big data
Muut sovellukset ja palvelut
Data Mart
DB
DB
DB.
DB.
Barometrit Sosiaalinen
media
Avoin data
LÄHDEDATADATAKERROS
SOVELLUS-JA
JULKAISU
DB
Data Lake
Sanastot
Metadatan
hallinta
Datan
mallintaminen
DevOps
Suunnittelu ja
ennustaminen
Dataintegraatiot
Laitteet ja
sensorit
Webbilogit
• Kylmä data
Datan laadunvalvonta:
- Volyymit pysyvät järkevinä
- Sisältö pysyy järkevänä
Datan paikkaus
analytiikan keinoin
Tietomallinnus
20. Ylätason
käsitemalli
Osa-alue
kohtainen
käsitemalli
Looginen
malli
Fyysinen
tietokanta
pääkäsitteet ja kuvaukset
kaikki käsitteet ja kuvaukset
kaikki tiedot ja tarkat rakenteet
kaikki taulut ja tietokentät
ETL-
toteutus
Ajojen
suoritus
Tietomallinnuksen toteutus ja metadatan
muodostuminen
ajoaikataulu ja toteutuneet ajojen ajankohdat
taulut, kentät, tietovirrat, tietojen muokkaus
Business-
metadata
Tekninen
metadata
Prosessi-
metadata
Määrittely-
dokumen-
taatio
Suunnittelu-
dokumen-
taatio
takaisinmallinnus
mallinnus
21. Tulevaisuuden tietomallinnus
● Automatisoidaan datan mallinnusprosessia
● Kone oppii rakenteita, muokkaa niitä
lennossa, ”ajattelee” kontekstia ja korjaa
prosesseja
● Oppiminen tapahtuu esimerkiksi tehtyjen
kyselyiden ja analyysien kautta
23. Ennusteita
● Perinteinen fyysinen tiedon mallintaminen katoaa ja poistuu
täysin, kun relaatiotietokantapohjaiset järjestelmät
muuttuvat NoSQL-tyyppisiksi järjestelmiksi/rajapinnoiksi
● Vaikka kone (ehkä) tekeekin datan fyysisen mallintamisen
tulevaisuudessa, looginen tiedon mallintaminen tulee
olemaan läsnä vielä pitkään
Perustana ontologiatyö – ihmisen ja koneen ymmärtämä kuvaus
käsitteistä ja niiden välisistä suhteista
Ylätason
käsitemalli
Osa-alue
kohtainen
käsitemalli
Looginen
malli
Fyysinen
tietokanta
ETL-
toteutus
Ajojen
suoritus
25. Datan laatu ja luotettavuus
● Datan laatu on ollut perinteisesti IT:n tehtävä
katsotaan datan perään
ymmärretään sen sisältöä (profilointi)
luodaan tietojen puhdistus- ja yhteensovitussääntöjä
(standardointi)
● Kun säännöt on luotu ja tuotettu, on pyrittävä
mittaamaan jokaisen tietojoukon laatua
säännöllisin väliajoin
26. Datan laatu ja luotettavuus
● Koneoppimisella on paljon
soveltamismahdollisuuksia datan laadun
arvioinnissa
● Tulevaisuuden älykäs tietoalusta sisältää
komponentin, joka
osallistuu tietojen laadun arviointiprosessiin,
ehkä automatisoi osan tarkastuksista
ja kehittyy ajan mittaan entistä itsenäisemmäksi
27. Järjestelmälliset vs. satunnaiset virheet
● Järjestelmälliset virheet esiintyvät säännöllisesti tietyissä olosuhteissa
Huono kandidaatti koneoppimiselle, sillä ongelman tunnistaminen vaatii
tietämystä datan käytöstä
Käyttäjien on helpompi tunnistaa tällaisia virheitä, varsinkin jos ne esiintyvät
usein
● Satunnaiset virheet tapahtuvat epäsäännöllisesti tietyissä olosuhteissa
Esimerkiksi äkillinen muutos datan arvoissa
Tällaisia virheitä on suhteellisen helppo havaita tilastollisten menetelmien avulla
(vs. normaalit arvot)
Ihmiselle nämä voivat helposti piiloutua suurien tietomäärien taakse, jos ne
ilmenevät harvoin
28. Esimerkki Runsaasti dataa kerääviä järjestelmiä,
kuten ERP, CRM, tuotanto, talous ja HR
Tietovarasto
Dataa siirretään
tietovarastoihin
Erilaisia automatisoituja
datasiirtoja voi olla
sadoista useisiin
tuhansiin.
Miten varmistaa, että
dataa siirtyy oikea määrä?
29. Ratkaisu
Annetaan analytiikan seurata siirrettävän datan volyymeja ja antaa varoitus, jos dataa tulee
liian vähän tai liikaa. Esimerkki – myyntirivien seuranta per tuoteryhmä.
Tuoteryhmässä XYZ myynti on tasaista ympäri vuoden. Datat tulevat yli sadasta eri
kauppaliikkeestä ja joskus niiden latauksissa on ongelmia.
Tilastollinen malli luo automaattisesti luottamusvälit datavolyymin vaihtelulle. Mikäli
toteutunut datavolyymi rikkoo luottamusvälin, niin siitä lähtee tiedote ylläpitoon.
Esimerkkikuva oikeasta datasta laskettuna.
Osa tiedoista ei tullut ollenkaan,
joten volyymit putosivat, mutta
esim. ETL-prosessi ei varoittanut
virheestä.
30. Datan standardointi / matchaus
● Prosessissa siivotaan dataa, poistetaan
duplikaatteja ja yhdistellään tietueita
● Käsin tehtynä sääntöjen määrittäminen
kestää, vaatii syvällistä ymmärrystä
datasta ja on kallista
● Koneoppiminen modernilla data-
alustalla voi luoda matchaussääntöjä
automaattisesti datasta
Järjestelmä mukautuu dataan ja käyttäjien
käyttäytymiseen
Helsinki
Stadi
Hesa
HEL
H3ls1nk1
32. Datan parantaminen ja paikkaus
● Koneoppimista voidaan hyödyntää datan
rikastamiseen tai paikkaamiseen ilman
käyttäjän syötettä
Esimerkiksi segmentointiattribuutit,
asiakaspoistuma, luottotappio, asiakkaan tietojen
täydentäminen ym.
● Voidaan ymmärtää esimerkiksi
markkinointikampanjan vaikuttavuus tai
riski jo ennen suunnittelu- tai
toteutusvaihetta
33. Datan korjaaminen / rikastaminen
CRM-järjestelmän datan korjaaminen:
• CRM sisältää 500 000 asiakkaan tiedot
• 20% asiakkaista on antanut kattavat tiedot
• 80%:illa asiakkaista on paljon puuttuvaa tietoa
• Kaikkien asiakkaiden kohdalta on ostotapahtumat
tallessa
Nyt valitaan asiakkaat, joilta on kattavat CRM- ja
ostotapahtumat tallessa. Heidän datallaan
muodostetaan malli, joka ennustaa puuttuvat CRM-
tiedot muille (80%) asiakkaille. Kun kaikille asiakkaille
on olemassa kattavat tiedot, niin kohdennettu myynti
ja markkinointi on paljon helpompaa ja tehokkaampaa.
Tällaista lähestymistapaa käyttävät mm. Google ja
Amazon, kun he profiloivat käyttäjiä ja kohdentavat
heille tarjontaansa. Ne tietävät joitakin varmoja asioita
asiakkaistaan, mutta osaavat ennustaa loput riittävällä
tarkkuudella.
http://www.louhia.fi/2015/02/27/dataan-laatua-analytiikalla-osa-1/
35. Korvaako tekoäly perinteisen
tietovaraston?
● Kyllä, mutta ei vielä hetkeen. Pistemäisiä
(suppeaan tekoälyyn perustuvia)
parannuksia on jo nähty ja tehty
● Tietovarastosta saattaa tulevaisuudessa
tulla musta laatikko, joka imaisee
lähdejärjestelmien rakenteita sekä datoja ja
muodostaa tuloksen loppukäyttäjän
tarpeen mukaan
36. Korvaako tekoäly perinteisen
tietovaraston?
Tekoälyn yhteydessä etsitään business caseja,
joissa isot kertatuotot on mahdollisia
Vaihtoehtoisesti voidaan etsiä pieniä ja maltillisia
caseja ratkaistavaksi, jotka kuitenkin tehostavat
toimintaa
Esim. siirretään manuaalisia DW:n työvaiheita AI-
ratkaisun tehtäväksi
Pienet parannukset tuovat suuren kumulatiivisen
hyödyn
37. Korvaako tekoäly perinteisen
tietovaraston?
Hyöty ei välttämättä tule siitä, että
tekoäly tekisi työn ihmistä tarkemmin tai
paremmin
Se kuitenkin todennäköisesti tekee työn murto-
osassa siitä, mikä aika kuluu ihmiseltä
38. Fredrikinkatu 61
00100 Helsinki
Keskustie 20 D 27
40100 Jyväskylä
Länsikatu 15
80110 Joensuu
mika.aho@louhia.fi
040 590 6949 / Mika
www.louhia.fi
Tsekkaa myös Suomen suosituin
analytiikkablogi osoitteessa
Kiitos mielenkiinnostasi!
Editor's Notes
97-2007 (10-15 vuotta ei tapahtunut mitään)
2013 laskentatehot merkittäviä, datan määrät kasvaneet merkittävästi
(puheen, kielentunnistus ym. kehittynyt valtavasti) -> livenä mahdollista
AlphaGO (kiinalainen shakki) 2016 alussa
syötti miljoonia pelejä, tämän jälkeen jaettiin kahtia ja algoritmit pelasivat toisiaan vastaan
-> suljettu maailma, nykyisin sovelletaan oikeaan monimutkaisempaan maailmaan
Deep learning
- Monikerrosneuroverkko, jota on kehitetty teoreettisesti jo 50-luvulla
- Laskentatehot mahdollistaneet
- Tekoälyssä yhdistellään dataa, perinteistä ohjelmointia, deterministisiä sääntöjä ja koneoppimista keskenään
- Dataa, neuroverkko joka oppii sen (=ML)
- Autojen hintojen vertailuun ohjelmistokerros, jossa vaikka kerrotaan ettei hinta ole alle 0
- Ohjelmistokerros voi ohjata neuroverkkoa (kertoo onko tarkka ja pysyykö kunnossa)
- Opettaa neuroverkkoa
Tilastotiede vs. ML
- Luodaan teoria, kootaan datasetti, tehdään tilastollisia malleja, joilla testataan toimiiko teoria, muuttujat ei saa korreloida keskenään ym.
- ML ei ole teoriaa asiasta, vaan katsotaan mitä data kertoo meille
Van Gogh
Picasso
Microsoftin kehittämä keskustelubotti ”Tay” on opetettu rasistiksi ja seksistiksi sekä syyskuun 11. päivän salaliittoteorioiden kannattajaksi.
Tayn rasismi ei ole Microsoftin tai Tayn ominaisuus, vaan Tay pyrkii oppimaan, miten ihmiset keskustelevat. Ihmiset onnistuivat jekuttamaan bottia, koska botti ei ”tiennyt”, mistä keskusteli, ja tätä heikkoutta Twitter-käyttäjät hyödynsivät.
Baptistit vs. luterilaiset
Informaatio: Tietotarpeen näkökulman mukaiset käsitteet, rakenteet ja muodostus. Tiedot tallennettu tietotarvekohtaisesti (tähtimalli)
EDW: Yhteinen validoidut käsitteet, rakenteet ja integrointisäännöt
Data Lake: Lähdejärjestelmien tiedot ja niiden kuvausten täydennykset, johdettujen tietojen kuvaukset, työversioiden kuvaukset
Dimensional -> Data Vault
Relaatiokannat Useita eri data-alustatyyppejä: graafikannat ja dokumenttikannat (NoSQL), HDFS
Bimodaalinen BI
Fyysinen datan mallintaminen tapahtuu matemaattisesti laitteistotasolla
Data Vault perustuu myös ontologiseen luokitteluun
Ontologiatyön tavoitteena on esittää tietoa tietystä käsitteistöstä niin, että myös kone pystyy hyödyntämään käsitteisiin liittyvää tietoa
Case ennustemalli ja Yle
Tällaisia virheitä voi olla hyvin vaikeaa havaita (yleisessä mielessä) koneoppimisen keinoin, koska ongelman tunnistaminen voi edellyttää suhteellisen syvällistä tietämystä siitä, mitä datasta voidaan saada aikaan
Virhe ei jää normaalin ETL-käsittelyn piiriin, koska dataa tulee läpi, mutta vain murto-osa aiemmasta – ajot sinällään toimivat niin kuin pitääkin
Voidaan toteuttaa esim. Bollinger Bands –systeemillä (treidaajien työkalu)
Lasketaan liukuva keskiarvo esim. 21 päivää taaksepäin ja sille luottamisvälit esim. kahden keskihajonnan mukaan
Siivoamista ja duplikaattien poistamista yhdistetään samaksi
Mistä tiedetään, että kaksi asiaa ovat sama?
Deduplikointi: esimerkiksi uutisten kanssa, jotka sisältävät samankaltaista informaatiota
Kun tietolähteiden määrä kasvaa ja datan formaatti sekä tietotyypit lisääntyvät, sääntöjen rakentamisesta tulee iso harjoitus
Datan manuaalisen yhteensovittamisen tarkkuus on kyseenalaista
Alla oleva kuva näyttää asiakastietojärjestelmän siten kuten yritys itse sen kokee. Tiedot ovat tip top täydellisesti täytettyjä ja data eheää.
data on harvaa. Osa muuttujista on täytetty 1-5%:lle asiakkaista virheellisiä merkkejä. Esimerkiksi numerokenttään (ikä) on tuotu kirjaimia vapaat tekstikentät ovat mahdollistaneet kymmeniä variaatioita esimeriksi kaupunkien nimistä tietoa ei ole vain kerätty, asiakastiedolle ei ole nähty arvoa koska sitä ei ole tarvittu päivittäisessä toiminnassa
Olemme olleet hankkeessa, jossa asiakastiedoista löytyi noin 30 eri tapaa kirjoittaa Helsinki. Näimme kaikki variaatiot kuten Stadi, snadi, hesa, Helzinki, Hell, isokirkko…