Prosessipäivät 2017 - Korvaako tekoäly perinteisen tietovaraston?

Korvaako tekoäly perinteisen
tietovaraston?
Prosessipäivät 2017
Mika Aho
Partner, PhD
@mikaaho

Tietolähteet
Operatiiviset tietojärjestelmät Muut, nykyisin käytössä olevat tietolähteet
SAP
DB DB
Datan integraatioprosessi (automatisoitu)
Keskitetty tietovaranto
Staging area
Tietovarasto
Dataintegraatiojaautomatisointi
Data Mart Data Mart
Lataus- ja
esikäsittelyalue
Harmonisoitu, keskitetty
tietovaranto
Datan esityskerros
(fyysinen tai virtualisoitu)
DB
Excel, csv
tiedostot
”Uusi data”: Ulkoiset, mahdolliset tietolähteet
Sisäinen raportointi
(vakio, self service)
Ulkoinen raportointi Edistynyt
analytiikka
• Valtavat tietomassat (kun yli 1TB)
• Reaaliaikainen analytiikka
• Ei-rakenteinen tieto
+
Big data
Muut sovellukset ja palvelut
Data Mart
DB
DB
DB.
DB.
Barometrit Sosiaalinen
media
Avoin data
LÄHDEDATADATAKERROS
SOVELLUS-JA
JULKAISU
DB
Data Lake
Sanastot
Metadatan
hallinta
Datan
mallintaminen
DevOps
Suunnittelu ja
ennustaminen
Dataintegraatiot
Laitteet ja
sensorit
Webbilogit
• Kylmä data
Kyllä. Todellakin.
(mutta ei vielä hetkeen)

Louhia lyhyesti
● Louhia on vuonna 2009 perustettu kasvava ja
kannattava asiantuntijaorganisaatio, joka on
erikoistunut analytiikkaan ja dataan.
● Autamme asiakkaitamme muuttamaan datan
liiketoimintahyödyksi analytiikan avulla.
Konsultoimme, koulutamme ja kehitämme
erilaisia tiedon hallinnan ja analytiikan ratkaisuja.
● Asiakkaanamme on pääasiassa suuria
organisaatiota useilta toimialoilta kuten kaupan
alalta, teollisuudesta, pankki- ja vakuutusalalta,
mediasta ja julkiselta sektorilta.
Data-analyytikot
Murskaavat dataa ja
analysoivat tuloksia
Bisneskonsultit
Kääntävät tulokset
liiketoimintahyödyiksi

Palvelumme
Edistynyt analytiikka
• Tilastolliset menetelmät
• Koneoppiminen / Machine Learning
• Tekoäly / Artificial Intelligence
• Tarinallinen kerronta
• Käsite- ja tietomallinnus
• Tietovarastointi ja integraatiot
• Raportointi ja visualisointi
• KPI-mittaristot
Tiedonhallinta
• Esiselvitykset, määrittelyt ja arkkitehtuurisuunnittelu
• Toimittajakilpailutukset ja teknologiavalinnat
• Hanke- ja projektihallinta
• Tiedolla johtamisen ja analytiikan koulutukset ja valmennus
Konsultointi ja koulutukset

Miten tekoäly tulee
helpottamaan tietovarastojen
rakentamista, ylläpitoa ja
niihin liittyvien palveluiden
johtamista?

Aikajana – datan hyödyntäminen ei ole uutta
1970: ACNielsen ja IRI käyttivät
“dimensionaalista data marttia”
lisäämään vähittäismyyntiä
1988: “An architecture for a business
information system (IBM Systems Journal)
1990-luku: BI:n kasvu

Median mukaan kaikki on tekoälyä

Tekoäly vs. koneoppiminen
Toisesta näkökulmasta tarkasteltuna yhdistetään dataa,
koneoppimista, perinteistä ohjelmointia ja deterministisiä
sääntöjä keskenään
http://www.louhia.fi/artikkelit/auton-myyntihinnan-ennustaminen/
Vuosimalli
Vetotyyppi
Kilometrit
Kulutus
Syötä autosi tiedot
Tulosta ilmainen hinta-arvio
Tekoäly arvioi autosi hinnaksi
13 854 euroa
Auta tekoälyä oppimaan - oliko arvio
Hyvä HuonoIhan ok

Tekoälyn kahdet kasvot
● Suppea tekoäly
 Ratkaisee jonkin spesifin osa-alueen haasteita
 Esim. optimoi reittejä, ennustaa vikaantumista,
kohdentaa mainontaa
 Tai auttaa tietovarastointiprosessissa
● Yleinen tekoäly
 Ratkoo mitä tahansa haasteita
 Ihmisaivojen laskentatehoon muutamia
kymmeniä vuosia
 Poimitaan parhaat palat suppeista tekoälyistä ja
liitetään ne omiin kehitysprojekteihin

Mihin kaikkeen muuhun tekoäly kykenee?
Jokapäiväisiä ihmisten juttuja
 Tunnistamaan esineitä kuvissa
 Selaamaan Helsingin metroalueen karttaa
 Tunnistamaan tunteita kasvoista ja puheesta
 Lukemaan huulilta ihmistä paremmin
 Kääntämään puhetta paremmin kuin ammattikääntäjät
 Puhumaan
Matkustaminen
 Ajamaan autoa
 Lentämään dronea
 Ennustamaan pysäköinnin haasteita alueittain
Tiede
 Löytämään olemassa oleville lääkkeille uusi
käyttötarkoitus
 Tunnistamaan syöpä paremmin kuin ihmiset
 Ennakoimaan hypoglykeemisia tapahtumia
diabeetikoilla kolme tuntia etukäteen
 Tunnistamaan riski sokeutumiselle verkkokalvon
kuvista
Turvallisuus
 Paikantamaan murtovarkaita kotonasi
 Kirjoittamaan oman salauskielen
 Ennakoimaan yhteiskunnallisia levottomuuksia 5
päivää etukäteen
 Tunnistamaan haittaohjelmat
 Tarkastamaan henkilöllisyytesi
Laki
 Ennakoimaan tapausten tulokset
ihmisoikeustuomioistuimessa 79 % todennäköisyydellä
 Tarkastelemaan M&A-kauppoja
 Löytämään virheitä oikeudellisissa asiakirjoissa
https://medium.com/on-coding/the-state-of-ai-9aae385c2038

Tekoälyllä ei ole kontekstia maailmaan

Tekoäly ei osaa (aina) kertoa, miksi se
on päätynyt johonkin ratkaisuun
● Haastavaa esimerkiksi pankkimaailmassa
 Yhdysvaltojen lainsäädännössä estetään uskonnon perusteella
tapahtuva syrjintä
 Lainanantajan tulee esittää syyt, miksi hakijan luottoriskipisteet ovat
liian alhaiset
● Erityisesti haastavaa, jos väärän ennusteen tekemiseen
liittyvät kustannukset ovat erittäin korkeat

Tietovarastoinnin kehitys - eilen
Tietolähteet
SAP
DB DB
Staging area
Tietovarasto
Data Mart Data Mart
Lataus- ja
esikäsittelyalue
tietovaranto
Datan esityskerros
DB
Excel, csv
tiedostot
Ulkoinen raportointi
Data Mart
DB
DB
DB.
DB.
Barometrit
SOVELLUS-JA
JULKAISU
Sanastot
Metadatan
hallinta
Datan
mallintaminen

Tietovarastoinnin kehitys - tänään
Tietolähteet
SAP
DB DB
Staging area
Tietovarasto
Data Mart Data Mart
Lataus- ja
esikäsittelyalue
tietovaranto
Datan esityskerros
DB
Excel, csv
tiedostot
Ulkoinen raportointi Dataintegraatiot
+
Big data
Data Mart
DB
DB
DB.
DB.
media
Avoin data
SOVELLUS-JA
JULKAISU
DB
Data Lake
Sanastot
Metadatan
hallinta
Datan
mallintaminen
DevOps
Suunnittelu ja
ennustaminen
Edistynyt
analytiikka
Laitteet ja
sensorit
Webbilogit
• Kylmä data

Tekoälyn hyödyntäminen tietovarastoinnissa
Tietolähteet
SAP
DB DB
Staging area
Tietovarasto
Data Mart Data Mart
Lataus- ja
esikäsittelyalue
tietovaranto
Datan esityskerros
DB
Excel, csv
tiedostot
Ulkoinen raportointi Edistynyt
analytiikka
+
Big data
Data Mart
DB
DB
DB.
DB.
media
Avoin data
SOVELLUS-JA
JULKAISU
DB
Data Lake
Sanastot
Metadatan
hallinta
Datan
mallintaminen
DevOps
Suunnittelu ja
ennustaminen
Dataintegraatiot
Laitteet ja
sensorit
Webbilogit
• Kylmä data
Datan laadunvalvonta:
- Volyymit pysyvät järkevinä
- Sisältö pysyy järkevänä
Datan paikkaus
analytiikan keinoin
Tietomallinnus

Ylätason
käsitemalli
Osa-alue
kohtainen
käsitemalli
Looginen
malli
Fyysinen
tietokanta
pääkäsitteet ja kuvaukset
kaikki käsitteet ja kuvaukset
kaikki tiedot ja tarkat rakenteet
kaikki taulut ja tietokentät
ETL-
toteutus
Ajojen
suoritus
Tietomallinnuksen toteutus ja metadatan
muodostuminen
ajoaikataulu ja toteutuneet ajojen ajankohdat
taulut, kentät, tietovirrat, tietojen muokkaus
Business-
metadata
Tekninen
metadata
Prosessi-
metadata
Määrittely-
dokumen-
taatio
Suunnittelu-
dokumen-
taatio
takaisinmallinnus
mallinnus

Tulevaisuuden tietomallinnus
● Automatisoidaan datan mallinnusprosessia
● Kone oppii rakenteita, muokkaa niitä
lennossa, ”ajattelee” kontekstia ja korjaa
prosesseja
● Oppiminen tapahtuu esimerkiksi tehtyjen
kyselyiden ja analyysien kautta

F_Sales
BillableAmount
Discount
OrderDate
D_Customer
D_SalesPerson D_VATCode
D_Date
D_CurrencyD_Project

Ennusteita
● Perinteinen fyysinen tiedon mallintaminen katoaa ja poistuu
täysin, kun relaatiotietokantapohjaiset järjestelmät
muuttuvat NoSQL-tyyppisiksi järjestelmiksi/rajapinnoiksi
● Vaikka kone (ehkä) tekeekin datan fyysisen mallintamisen
tulevaisuudessa, looginen tiedon mallintaminen tulee
olemaan läsnä vielä pitkään
 Perustana ontologiatyö – ihmisen ja koneen ymmärtämä kuvaus
käsitteistä ja niiden välisistä suhteista
Ylätason
käsitemalli
Osa-alue
kohtainen
käsitemalli
Looginen
malli
Fyysinen
tietokanta
ETL-
toteutus
Ajojen
suoritus

Datan laatu ja luotettavuus
● Datan laatu on ollut perinteisesti IT:n tehtävä
 katsotaan datan perään
 ymmärretään sen sisältöä (profilointi)
 luodaan tietojen puhdistus- ja yhteensovitussääntöjä
(standardointi)
● Kun säännöt on luotu ja tuotettu, on pyrittävä
mittaamaan jokaisen tietojoukon laatua
säännöllisin väliajoin

Datan laatu ja luotettavuus
● Koneoppimisella on paljon
soveltamismahdollisuuksia datan laadun
arvioinnissa
● Tulevaisuuden älykäs tietoalusta sisältää
komponentin, joka
 osallistuu tietojen laadun arviointiprosessiin,
 ehkä automatisoi osan tarkastuksista
 ja kehittyy ajan mittaan entistä itsenäisemmäksi

Järjestelmälliset vs. satunnaiset virheet
● Järjestelmälliset virheet esiintyvät säännöllisesti tietyissä olosuhteissa
 Huono kandidaatti koneoppimiselle, sillä ongelman tunnistaminen vaatii
tietämystä datan käytöstä
 Käyttäjien on helpompi tunnistaa tällaisia virheitä, varsinkin jos ne esiintyvät
usein
● Satunnaiset virheet tapahtuvat epäsäännöllisesti tietyissä olosuhteissa
 Esimerkiksi äkillinen muutos datan arvoissa
 Tällaisia virheitä on suhteellisen helppo havaita tilastollisten menetelmien avulla
(vs. normaalit arvot)
 Ihmiselle nämä voivat helposti piiloutua suurien tietomäärien taakse, jos ne
ilmenevät harvoin

Esimerkki Runsaasti dataa kerääviä järjestelmiä,
kuten ERP, CRM, tuotanto, talous ja HR
Tietovarasto
Dataa siirretään
tietovarastoihin
Erilaisia automatisoituja
datasiirtoja voi olla
sadoista useisiin
tuhansiin.
Miten varmistaa, että
dataa siirtyy oikea määrä?

Ratkaisu
Annetaan analytiikan seurata siirrettävän datan volyymeja ja antaa varoitus, jos dataa tulee
liian vähän tai liikaa. Esimerkki – myyntirivien seuranta per tuoteryhmä.
Tuoteryhmässä XYZ myynti on tasaista ympäri vuoden. Datat tulevat yli sadasta eri
kauppaliikkeestä ja joskus niiden latauksissa on ongelmia.
Tilastollinen malli luo automaattisesti luottamusvälit datavolyymin vaihtelulle. Mikäli
toteutunut datavolyymi rikkoo luottamusvälin, niin siitä lähtee tiedote ylläpitoon.
Esimerkkikuva oikeasta datasta laskettuna.
Osa tiedoista ei tullut ollenkaan,
joten volyymit putosivat, mutta
esim. ETL-prosessi ei varoittanut
virheestä.

Datan standardointi / matchaus
● Prosessissa siivotaan dataa, poistetaan
duplikaatteja ja yhdistellään tietueita
● Käsin tehtynä sääntöjen määrittäminen
kestää, vaatii syvällistä ymmärrystä
datasta ja on kallista
● Koneoppiminen modernilla data-
alustalla voi luoda matchaussääntöjä
automaattisesti datasta
 Järjestelmä mukautuu dataan ja käyttäjien
käyttäytymiseen
Helsinki
Stadi
Hesa
HEL
H3ls1nk1

Datan parantaminen ja paikkaus
● Koneoppimista voidaan hyödyntää datan
rikastamiseen tai paikkaamiseen ilman
käyttäjän syötettä
 Esimerkiksi segmentointiattribuutit,
asiakaspoistuma, luottotappio, asiakkaan tietojen
täydentäminen ym.
● Voidaan ymmärtää esimerkiksi
markkinointikampanjan vaikuttavuus tai
riski jo ennen suunnittelu- tai
toteutusvaihetta

Datan korjaaminen / rikastaminen
CRM-järjestelmän datan korjaaminen:
• CRM sisältää 500 000 asiakkaan tiedot
• 20% asiakkaista on antanut kattavat tiedot
• 80%:illa asiakkaista on paljon puuttuvaa tietoa
• Kaikkien asiakkaiden kohdalta on ostotapahtumat
tallessa
Nyt valitaan asiakkaat, joilta on kattavat CRM- ja
ostotapahtumat tallessa. Heidän datallaan
muodostetaan malli, joka ennustaa puuttuvat CRM-
tiedot muille (80%) asiakkaille. Kun kaikille asiakkaille
on olemassa kattavat tiedot, niin kohdennettu myynti
ja markkinointi on paljon helpompaa ja tehokkaampaa.
Tällaista lähestymistapaa käyttävät mm. Google ja
Amazon, kun he profiloivat käyttäjiä ja kohdentavat
heille tarjontaansa. Ne tietävät joitakin varmoja asioita
asiakkaistaan, mutta osaavat ennustaa loput riittävällä
tarkkuudella.
http://www.louhia.fi/2015/02/27/dataan-laatua-analytiikalla-osa-1/

KORVAAKO TEKOÄLY PERINTEISEN
TIETOVARASTON?

tietovaraston?
● Kyllä, mutta ei vielä hetkeen. Pistemäisiä
(suppeaan tekoälyyn perustuvia)
parannuksia on jo nähty ja tehty
● Tietovarastosta saattaa tulevaisuudessa
tulla musta laatikko, joka imaisee
lähdejärjestelmien rakenteita sekä datoja ja
muodostaa tuloksen loppukäyttäjän
tarpeen mukaan

tietovaraston?
Tekoälyn yhteydessä etsitään business caseja,
joissa isot kertatuotot on mahdollisia
 Vaihtoehtoisesti voidaan etsiä pieniä ja maltillisia
caseja ratkaistavaksi, jotka kuitenkin tehostavat
toimintaa
 Esim. siirretään manuaalisia DW:n työvaiheita AI-
ratkaisun tehtäväksi
 Pienet parannukset tuovat suuren kumulatiivisen
hyödyn

tietovaraston?
Hyöty ei välttämättä tule siitä, että
tekoäly tekisi työn ihmistä tarkemmin tai
paremmin
 Se kuitenkin todennäköisesti tekee työn murto-
osassa siitä, mikä aika kuluu ihmiseltä

Fredrikinkatu 61
00100 Helsinki
Keskustie 20 D 27
40100 Jyväskylä
Länsikatu 15
80110 Joensuu
mika.aho@louhia.fi
040 590 6949 / Mika
www.louhia.fi
Tsekkaa myös Suomen suosituin
analytiikkablogi osoitteessa
Kiitos mielenkiinnostasi!

Prosessipäivät 2017 - Korvaako tekoäly perinteisen tietovaraston?

Recommended

Recommended

More Related Content

What's hot

What's hot (19)

Similar to Prosessipäivät 2017 - Korvaako tekoäly perinteisen tietovaraston?

Similar to Prosessipäivät 2017 - Korvaako tekoäly perinteisen tietovaraston? (20)

More from Mika Aho

More from Mika Aho (14)

Prosessipäivät 2017 - Korvaako tekoäly perinteisen tietovaraston?

Editor's Notes