Big data on yksi vuoden 2013 muotikäsitteistä tiedonhallinnan ja analytiikan alalla. Gartnerin Hype Cycle for Emerging Technologies 2013 käyrällä big data on saavuttamassa käyrän lakipisteen, jota kutsutaan myös nimellä Peak of Inflated Expectations. Gartnerin mukaan big data on siis vaiheessa, jossa siihen kohdistuu ylisuuria odotuksia. Lakipisteen jälkeen odotettavissa on pettymyksiä, kun suuret lupaukset ja odotukset eivät täyttyneetkään. Yrityksissä liikkeelle on lähdetty osaksi kokeilumielellä ja osaksi big datan ympärille luodun pelkoilmapiirin kirittäminä. Yksi big dataan liittyvistä väitteistä nimittäin on, että odottelu tarkoittaa vääjäämättä haittaa liiketoiminnalle.

Miten sitten suhtautua tilanteeseen, jossa suurella todennäköisyydellä syntyy paljon uusia liiketoimintamahdollisuuksia, mutta jossa riskit epäonnistumiselle ovat suuret? Vastaus löytyy liiketoiminta-arvon luomisesta. big data ja sen analysointi pitää nähdä osana olemassa olevaa liiketoiminta-analytiikkaa, joka päätöksenteon tukena synnyttää yritykselle lisäarvoa. Tämä tarkoittaa sitä, että big dataa ei käsitellä ja analysoida irrallaan yrityksen muusta liiketoiminta-analytiikasta. Big data analytiikan kehitys tulee suunnitella osana kokonaisvaltaista liiketoiminta-analytiikan kehitystä ja sille tulee asettaa samat hyöty- ja tuotto-odotukset kuin analytiikan kehittämiselle muutenkin asetetaan.

Eräs toinen big dataan liittyvä väite on kokonaan uusien menetelmien, osaamisen ja tekniikan tarve. Joskus jopa vaaditaan toimivien ja arvoa tuottavien menetelmien heittämistä roskiin ja uuden liiketoiminta-analytiikan perustamista puhtaalta pöydältä. Lienee liiketoiminnallisesti mahdotonta aloittaa miljoonien tai kymmenien miljoonien analytiikkainvestoinnit alusta luoden yrityksiin samalla kokonaan uusi osaamis- ja tietohistoriapohja. Järkevämmältä kuulostaisi olemassa olevan liiketoiminta-analytiikan täydentäminen big datan analytiikkaan tarvittavilla kyvykkyyksillä pitäen samalla mielessä kehittämistoimien arvotuottovaatimukset.

Näillä linjauksilla big datasta tulee osa normaalia analytiikan kehitystyötä. Big data ei olekaan enää mystinen käsite. Siihen kohdistuvat odotukset asettuvat järkevälle tasolle. Samalla suurten pettymysten vaara laskee merkittävästi. Big data projektit suunnitellaan tuotto-odotukset ja tarvittavat investoinnit silmällä pitäen. Olemassa oleva liiketoiminta-analytiikka otetaan projekteissa huomioon. Perinteistä ja uutta dataa integroidaan yhteen niin, että uusi data täydentää ja lisää ymmärrystä yrityksen liiketoimintatapahtumista. Liiketoiminta-analytiikasta saatava arvotuotto on inkrementaalista ja big dataan tehtävien investointien riskit ovat kohtuulliset ja hallittavissa. Big data analytiikan kehittämisestä tulee osa kokonaisvaltaista ja järkevää liiketoiminnan kehittämistä.

Inkrementaalinen liiketoiminta-analytiikan kehitystyö vaatii yhtenäisen arkkitehtuurin viitekehyksen, joka ottaa huomioon sekä olemassa olevan että big data analytiikan vaatimukset ja rajoitteet. Koska big data analytiikka vaatii tyypillisesti uusia tekniikoita ja metodeja, viitekehyksen avulla voidaan valita sopivimmat kuhunkin käyttötarkoitukseen. Yrityksen olemassa olevat tietovarastot palvelevat todennäköisesti raportointia ja päätöksentekoa, joten niitä korkeintaan keskitetään ja valmistellaan lisäinformaation integrointia silmällä pitäen. Tyypillinen puuttuva palanen arkkitehtuurissa on big datan analysointiin tarvittava etsintäalusta, johon data voidaan tuoda sellaisenaan sen käsittelyä varten. Tekniikoista Hadoop saa tällä hetkellä eniten jalansijaa etsintäalustan rooliin. Big dataa voidaan analysoida suoraan Hadoop-ympäristössä uusien menetelmien avulla tai siihen voidaan päästä käsiksi erilaisten adaptereiden kautta. Nämä adapterit mahdollistavat olemassa olevien SQL-pohjaisten työkalujen käytön big datan analytiikkaan. Haastavinta lienee perinteisen ja big datan nopea yhdistäminen, jotta esimerkiksi asiakasymmärrystä saadaan lisättyä systemaattisesti. Eräs esimerkki voisi olla asiakaspaneelidatan yhdistäminen olemassa olevaan asiakassegmentti ja ostodataan, jotta asiakkaan mieltymykset ja käyttäytyminen voidaan verifioida olemassa olevia asiakassegmenttiprofiileja vastaan. Tuloksia voitaisiin käyttää esimerkiksi kyselytutkimusten perusteella tehtävien myyntiennusteiden tarkentamiseen, kun ennustemallit on ensin tarkennettu perinteisen ja big datan yhteisanalyysin perusteella. Tällainen perinteisen ja big datan nopea yhdistäminen voidaan toteuttaa helpoimmin etsintäalustaan integroidun relaatiotietokannan avulla. Datan yhdistämiseksi sitä joudutaan joko kopioimaan paikasta toiseen tai eri alustojen välille pitää luoda suoria yhteyksiä. Kun big datasta etsitään uusia mahdollisuuksia ja liiketoiminta-arvoa, kopiointi voi olla helpoin ja halvin keino. Kun uudet löydökset viedään tuotantoon, saattavat tietomäärät kasvaa hyvinkin suuriksi. Silloin alustojen väliset suorat yhteydet lienevät kustannustehokkaimpia. Teradata on lähestynyt yhtenäisen arkkitehtuuriviitekehyksen haastetta Unified Data Architecture konseptillaan. Se ottaa huomioon sekä perinteisen liiketoiminta-analytiikan että big data analytiikan vaatimukset. Myös eri tekniikoiden väliset yhteydet ja datan integrointitarpeet on huomioitu esimerkiksi Teradata Unity ratkaisun avulla. Etsintäalustana arkkitehtuurissa toimii Teradata Aster Discovery Platform, joka voidaan varustaa sekä Hadoop- että relaatiotietokantatekniikalla. Teradata Asterissa integroivana komponenttina toimii SQL-MapReduce, joka mahdollistaa MapReduce-ohjelmien ajamisen SQL-lauseiden kutsumina. Teradata Aster tarjoaa analyytikoille valmiita funktioita, jotka helpottavat big data analytiikan käyttöönottoa. SQL-MapReduce ajaa MapReduce-ohjelmia relaatiotietokannassa eikä tiedostojärjestelmässä, kuten Hadoop Distributed File System (HDFS). Tämä nopeuttaa analytiikkaprosesseja ja tekee työstä interaktiivista. Hadoopissa MapReduce-prosessointi on aina eräpohjaista. Näin big data analytiikasta tulee helppoa niille, joille SQL-kielen käyttö liiketoiminta-analytiikkaan on tutumpaa kuin esimerkiksi Python- tai Java-ohjelmointikielen käyttäminen. Erääksi ratkaisuksi big data analytiikkaan on ehdotettu datan käsittelyä RAM-muistissa. Tämä onkin erinomainen tapa nopeuttaa esimerkiksi datan visualisointia nopeiden havaintojen tekemiseksi. Visuaalisesta ilmiöiden kuvaamisesta on helppo havaita poikkeamia, joita sitten voidaan tutkia tarkemmin. Big datan yksi, vaikkakaan ei ainut, ominaisuus on datan suuri määrä. Herääkin kysymys, onko big dataa kustannustehokasta analysoida RAM-muistissa, kun kyseessä on suuri määrä dataa. Lisäksi muistinvarainen datan tallennus vaatii aina myös pysyvää tallennusta perinteisemmillä keinoilla, jotta vikatilanteissa data ei katoa. Kun kerran perinteisempää datan tallennusta joka tapauksessa tarvitaan myös muistinvaraisessa analytiikassa, eikö olisi kustannustehokkainta käyttää sekä muistinvaraista että perinteistä datan tallennusta ja analytiikkaa yhdessä. Tämä vaatii sekä perinteisten datan että uusien tallennustekniikoiden integroimista niin, että data asetetaan automaattisesti aina nopeimmalle ja kustannustehokkaimmalle tasolle tallennushierarkiassa. Näitä hierarkioita ovat nopeimmasta ja kalleimmasta hitaimpaan ja halvimpaan seuraavat: isot kovalevyt (HDD), pienet kovalevyt (HDD), Flash-muistiin perustuvat levyt (SSD) ja RAM-muisti. Teradata on kehittänyt tekniikan nimeltä Intelligent Memory. Siinä eri tekniikat on integroitu yhtenäiseksi kokonaisuudeksi, jonka sisällä datan käyttöä seurataan automaattisesti tilastollisin menetelmin. Jos dataa käytetään paljon, se luokitellaan niin sanotuksi kuumaksi dataksi. Kuuma data on käytön perusteella arvokasta, ja sen tallentaminen nopeaan mutta kalliimpaan muistitekniikkaan on perusteltua. Jos dataa taas ei juurikaan käytetä, siitä tulee niin sanottua kylmää dataa. Kylmä data kannattaa asettaa tallennushierarkiassa alemmalle ja halvemmalle tasolle. Koska datan käyttöä valvotaan koko ajan automaattisesti, voi kuumasta datasta tulla kylmempää, jolloin se alennetaan tallennushierarkiassa. Kylmälle datalle taas voi käydä päinvastoin, jos sen käyttö lisääntyy. Tämä lähestymistapa mahdollistaa suorituskyvyn ja kustannusten yhtäaikaisen optimoinnin automaattisesti. Tämä ei alenna ainoastaan tallennustilan kustannuksia, vaan myös analytiikkamoottorin hallinnointikustannuksia. Mitä sitten tehdä big datasta löytyneillä uusilla liiketoiminta-analytiikkakultahippusilla? Kuinka uudet löydökset tuodaan suurien käyttäjämäärien ulottuville, jotta niiden arvotuotto saadaan maksimoitua? Useat tietojohtamisen periaatteita noudattavat yritykset ovat integroineet uutta tietoa osaksi olemassa olevaa yrityksen tietomallia. Uudet tiedot tuodaan osaksi yrityksen keskitettyä tietovarastoa, joka pystyy palvelemaan luotettavasti suurta hetorogeenista käyttäjämäärää sekä raportoinnin, analytiikan että tiedon lataamisen osalta. Keskitettyjen relaatiomallipohjaisten tietovarastojen elinkaarta ehdittiin jo ennustaa loppuvaksi, mutta käytäntö myös big data aikakaudella on osoittautunut erilaiseksi. Siinä missä järeät keskitetyt tietovarastot ovat palvelleet yrityksiä hyvin jo pitkään, ne näyttävät jatkavan tätä hyvää palvelua myös tulevaisuudessa. Yritysten käyttämät teollisuudenalakohtaiset tietomallit toimivat edelleen, ja niitä on kehitetty ottamaan huomioon esimerkiksi laitesensorien tuottama data osana yritysanalytiikkaa. Teradatan teollisuudenalakohtaiset loogiset tietomallit ovat kehittyneet juuri tähän suuntaan. Esimerkiksi Teradata Manufacturing Logical Data Model pitää sisällään telemetriadatan, jota autoteollisuus jo nyt aktiivisesti käyttää palvellakseen asiakkaitaan entistä paremmin. Tästä erinomaisena esimerkkinä on Pohjois-Amerikassa toimiva Navistar, joka kerää ajoneuvojen telemetriatietoja reaaliajassa analysoiden ja käyttäen niitä asiakkaille tuotettaviin neuvontapalveluihin.

Big datan analytiikkaan on tarjolla myös monia pilvipalveluita. Pilvipalvelu on joustava tapa saada käyttöön resursseja erilaisiin big data sovellustarpeisiin. Pilvipalveluita on ollut käytössä jo suhteellisen pitkään ja ne ovat edenneet esimerkiksi Gartnerin Hype-käyrällä kohti realistisia odotuksia ja normaalia yrityskäyttöä. Big datan analysoinnin osalta pilvipalveluista tulee ottaa huomioon ainakin seuraavat asiat: turvallisuus, nopeus ja luotettavuus. Turvallisuusnäkökulma tulee huomioida erityisesti silloin kun käsiteltävässä datassa on mukana asiakas- tai taloustietoja. Samoin jos data on hankittu yhteisöllisesti niin sanotun Crowd Sourcingin kautta asiakkailta tai kumppaneilta. Jos data taas on muutenkin lähes julkisesti saatavissa, turvallisuustekijät eivät ole niin kriittisiä. Näin on esimerkiksi Weblog-datan laita. Korkea turvallisuus voidaan varmistaa käyttämällä niin sanottua Private Cloud lähestymistapaa. Siinä yrityksen sisällä on olemassa yhteinen analytiikka-alusta, jota käytetään monen osaston toimesta useaan eri käyttötarkoitukseen, kuten big data analytiikkaan. Tällaista Private Cloud alustaa voi operoida myös palveluntarjoaja niin, että tiedon omistajalla on täysi kontrolli turvallisuusasioista. Toinen huomioitava asia pilvipalveluiden käytössä on nopeus. Big dataa analysoitaessa datan määrä on tyypillisesti suuri. Dataa pitää kerätä analysoitavaksi ja sitä pitää tyypillisesti myös siirtää esimerkiksi ennustemallien luomiseen tai raportointiin. Jos suuria datamääriä siirretään edestakaisin pitkiä matkoja, saattaa siirtonopeus vaikuttaa toimintaan häiritsevästi. Samoin nousevat kustannukset saattavat yllättää pilvipalvelun käyttäjän. Kolmas huomioitava tekijä on pilvipalveluiden luotettavuus. Joskus palvelu saattaa olla täysin saavuttamattomissa. Jos yritys on perustanut liiketoimintakriittisen raportoinnin tai analytiikan täysin pilvipalvelun varaan, saattaa liiketoiminta kärsiä. Tämän on käytännössä saanut kokea esimerkiksi Netflix, jonka palvelu on ollut alhaalla useampia kertoja jopa pitkiä aikoja kerrallaan. Pilvipalveluiden turvallisuudesta ja luotettavuudesta on viime aikoina tehnyt tutkimuksia esimerkiksi Symantec.

Big data -analytiikka on tärkeää yritysten tulevaisuuden menestymisen näkökulmasta. Big data analytiikassa tarvitaan uusia tekniikoita, jotta se olisi tehokasta. Liiketoiminta-arvon luomisen näkökulmasta big data analytiikan kehittäminen kannattaa tehdä osana kokonaisvaltaista liiketoiminta-analytiikan kehittämistä. Hyvin toimivat analytiikan prosessit ja työkalut kannattaa hyödyntää täysimääräisesti ja täydentää niitä big data analytiikan vaatimilla uusilla tekniikoilla. Ohjenuoraksi kannattaa ottaa yhtenäinen analytiikan arkkitehtuurikehikko, jotta analytiikan kehittäminen voidaan tehdä vaiheittain ajautumatta umpikujiin, siiloihin tai kustannusshokkeihin. Uusia tekniikoita kannattaa arvioida niiden arvotuottopotentiaalin näkökulmasta ottaen huomioon kokonaiskustannukset – Open Source tekniikatkaan eivät ole ilmaisia kokonaiskustannusten näkökulmasta. Tällä lähestymistavalla big data analytiikasta tulee osa normaalia liiketoiminta-analytiikkaa, jonka fokuksessa on maksimaalinen arvotuotto ja kilpailuedun tavoittelu. Voidaan todeta, että big data on kuollut, eläköön data!

Big data ja pilvipalvelut -kirja

Kirjoitus löytyy myös kirjasta "Big data ja pilvipalvelut" (Docendo 2014)

Marko Yli-Pietilä

Marko työskentelee tällä hetkellä teollisen internetin sovellusten parissa erityisesti koneiden rakennukseen ja niiden huoltoon liittyen. Myös finanssiteollisuuden sovellukset ajoneuvojen vakuutusten hinnoittelemiseksi ovat olleet kiinnostuksen kohteena. Koneiden tuottama data ei muodoltaan välttämättä ole big dataa, mutta määränsä ja analytiikan nopeuden vaatimusten perusteella kylläkin.

Teradata
Teradata on innovoinut ratkaisuja nopeaan tiedon käsittelyyn ja analysointiin jo 35 vuotta. Teradata syntyi tarpeesta käsitellä valtavia tietomääriä tapauksissa, joissa tietoa tulee analysoitavaksi samaan aikaan kun sitä pitää raportoida ja analysoida isoille käyttäjämassoille. Niinpä big data analytiikka ei ole Teradatalle mikään uusi haaste, vaan sen parissa on tehty työtä jo kymmeniä vuosia.

Leave a comment

Filtered HTML

  • Www-osoitteet ja email-osoitteet muutetaan automaattisesti linkeiksi.
  • Sallitut HTML-tagit: <a> <em> <strong> <cite> <blockquote> <code> <ul> <ol> <li> <dl> <dt> <dd>
  • Rivit ja kappaleet päätetään automaattisesti.

Plain text

  • No HTML tags allowed.
  • Www-osoitteet ja email-osoitteet muutetaan automaattisesti linkeiksi.
  • Rivit ja kappaleet päätetään automaattisesti.
Roskapostitorjuntaa.