Dataa syntyy kaikkialla yhä enemmän ja enemmän. Maailmalta löytyy jättikokoisia yrityksiä, joiden miljardien liikevaihto perustuu lähes yksinomaan datan hyödyntämiseen. Näitä tunnettuja yrityksiä ovat esimerkiksi eBay ja Google. Dataa voidaan nykyään hyödyntää entistä paremmin myös hieman perinteisemmillä toimialoilla kuten vähittäiskaupassa ja valmistavassa teollisuudessa. Jo niin sanottua perinteistä dataa on näillä aloilla olemassa kohtuullisen paljon ja siitä jalostetaan erilaisia raportteja johdon päätöksenteon tueksi. Jatkossa perinteisen datan hyödyntäminen ei kuitenkaan enää riitä, vaan mukaan on otettava uusia ei niin perinteisiä tietolähteitä. Osa näistä tietolähteistä tuottaa hankalammin hyödynnettävää dataa tai sitten datan määrä ja muutosnopeus ovat totutusta huomattavasti suurempia. Tätä dataa kutsutaan myös nimellä big data. Tämä uusi data pitää pystyä yhdistämään perinteisen datan kanssa, muuten sen hyödyntäminen liiketoiminnan kehitystarpeisiin ei onnistu. Tämä on haasteellista, mutta entistä haasteellisemmaksi sen tekee yrityksissä vielä kesken oleva perinteisemmän datan integrointi. Nämäkään integorintiprojektit eivät aina ole valmiita, vaan perinteinenkin data on yrityksissä siiloissa yksittäisissä tietovarastoissa ja tietokannoissa, jopa tiedostoina yksittäisten työntekijöiden kovalevyillä.

Teradata on työskennellyt organisaatioiden tiedon integrointiprojektien parissa jo yli 30 vuotta. Teradatan tietovarastoteknologia perustuu ”appliance” lähestymistapaan, jossa tietokantaohjelmisto ja sitä palveleva laitteisto on optimoitu toimimaan yhdessä mahdollisimman korkean ja luotettavan toiminnan aikaansaamiseksi. Teradata kehitti Massively Parallel Processing –arkkitehtuurin jo toimintansa alussa ja se palvelee organisaatioiden tietovarastoinnin tarpeita hyvin vielä tänäkin päivänä. Maailma kuitenkin muuttuu nopeasti ja sen myötä data ja sen käsittely. Tänä päivänä Teradata tarjoaa asiakkailleen ”Platform Family” –tyyppistä lähestymistapaa, jossa usean eri vaihtoehdon joukosta valitaan paras aina kuhunkin käyttötarkoitukseen. Näin varmistetaan oikea teknologia oikeaan paikkaan kustannustehokkaasti.

Jotta oikean teknologian valinta olisi helpompaa, on Teradata kehittänyt ”Unified Data Architecture (UDA) –kehikon, joka ottaa huomioon paitsi perinteisen datan niin myös big datan integroinnin ja analysoinnin. UDA määrittelee kolme osa-aluetta, joilla kullakin on rooli kaiken datan integroinnissa ja analysoinnissa. Mukana on edelleen keskitetty tietovarasto, jota voidaan osuvammin kutsua integroiduksi tietovarastoksi eli ”Integrated Data Warehouse (IDW)”. Tämä IDW on datan integroinnin ja analysoinnin tehokas ja luotettava tuotantolinja, joka voi tuottaa tuhansia raportteja ja analyysejä sadoille tai tuhansille yhtäaikaisille käyttäjille. Tämä jopa reaaliajassa jos siihen on tarvetta. Silloin IDW muuttuu ”Active Data Warehouse” muotoon ja palvelee operatiivisia liiketoiminnnan prosesseja. Toinen komponentti UDA-arkkitehtuurissa on datan tuotekehitysalusta eli ”Data R&D”. Tästä komponentista voidaan käyttää myös nimeä Discovery Platform, koska sen avulla voidaan tehdä etsivä analytiikka yhdistäen big dataa ja perinteistä dataa. Teradata Aster on Discovery Platform ja se sisältää sekä tiedostopohjaisen että relaatiotietokantamuotoisen tietovaraston. Teradata Asterissa on myös suuri joukko analytiikkatoimintoja, joita voidaan käskyttää SQL-lausein. Koska osa näistä toiminnoista on toteutettu big data –analytiikan metodein, pääsee analyytikko hyödyntämään big data –analytiikan operaatioita kuten MapReduce tutun SQL:n avulla. Kolmas komponentti UDA-arkkitehtuurissa on ”Data Lake”. Tämä isoille ja monimutkaisille data tyypeille tarkoitettu tietovarasto perustuu jo monessa tapauksessa avoimen lähdekoodin Hadoop-teknologiaan. Teradata on tehnyt yhteistyössä Hortonworks-yrityksen kanssa Hadoop-teknologiaan perustuvan ratkaisun, joka on paketoitu appliance-laitteeksi. Näin Hadoopin implementoinnista on tehty nopeaa ja helppoa. Teradatalla on myös relaatiotietokantaan perustuva ”Big Data Appliance”, jolla voidaan kustannustehokkaasti ottaa kiinni, tallentaa ja analysoida esimerkiksi koneiden sensoreiden tuottamaa key-value-pair –dataa. Teradata 15 tietokantaversio pystyy käsittelemään JSON-tietotyypin dataa vakiona. JSONista on tulossa eräänlainen standardi sensorien tuottaman datan osalta.

Kaiken datan käsittelyyn on siis olemassa arkkitehtooninen kehikko ja sen sisälle on olemassa käyttötarkoitukseen optimoidut teknologiat. Eräs datan käsittelyn ja analysoinnin ongelma on kuitenkin vielä ratkaisematta. Se on datan kopiointi paikasta toiseen datan analysoimiseksi. Teradatan lähestymistapa on viedä operaatiot datan luokse eikä toisinpäin. Näin vältetään datan turha kopiointi ja järjestelmän teho käytetään kokonaisuudessaan lisäarvon tuottamiseen datan siirron sijasta. Paitsi resurssisäästöjä näin saavutetaan myös pienempi virheherkkyys ja sitä kautta korkeampi luotettavuus. Teradatan ratkaisu tähän UDA-arkkitehtuurissa on Query Grid. Se mahdollistaa operaatioiden tekemisen yhdeltä UDA-arkkitehtuurin alustalta ja komponentilta toiselle ilman datan kopiointia. Näin analyytikko voi ottaa integroidussa tietovarastossa tekemäänsä analyysiin mukaan esimerkiksi Hadoopissa olevaa big dataa ilman datan kopiointia. Sama voidaan tehdä Teradata Aster Discovery Platform pohjalta yhdistämään integroidussa tietovarastossa olevaa perinteistä dataa ja Hadoopissa olevaa big dataa. Tämä avaa aivan uusia mahdollisuuksia tehdä kaikesta datasta liiketoiminnallista lisäarvoa. Toinen perinteisempi keino tuoda operaatiot datan luokse on tehdä analytiikka ja raportointia hyödyntäen Teradatan tietokannan rinnakkaista laskentakyvykkyyttä. Tätä ”in-database” ominaisuutta pystyvät hyödyntämään lähes kaikki raportointi- ja analytiikkatyökalut kuten SAS ja QlikView.

On vielä yksi teknologinen käsite, joka nykyään liitetään varsinkin big datan analysointiin ja käsittelyyn. Se on muistinvarainen laskenta eli ”in-memory”. SAP on HANA-ratkaisullaan tehnyt hyvää työtä tämän käsitteen lanseeraamisessa ja levittämisessä analytiikkaan liittyen. HANA ei toki ole ainut tai edes ensimmäinen ratkaisu, joka on hyödyntänyt muistinvaraista laskentaa analytiikkaan. Esimerkiksi QlikView on käyttänyt muistinvaraista laskentaa analytiikkaan jo pitkän aikaa. Muistinvaraisessa laskennassa analytiikan tarpeisiin on kaksi ongelmaa. Toinen on muistin määrä ja toinen on muistin hinta. Järjestelmän muistimäärä on ollut rajoitteinen, joka on johtanut analysoitavan tietomäärän rajoitteisiin. Kun näitä rajoitteita on saatu purettua, niin seuraavaksi on todettu isojen muistivaraisten tietokantojen olevan valtavan kalliita. Varsinkin kun niiden rinnalle on aina tarvittu jonkinlainen pysyvän datan varasto laiterikkoja varten. Teradata on ratkaissut tämän muistinvaraisen laskennan koko ja kustannusongelmat liittämällä muistitietokantaominaisuudet tietovarastojensa muuhun muisti- ja tallennuskapasiteettiin. Teradata kutsuu tätä lähestymistapaa nimellä ”Intelligent Memory”. Tällä lähestymistavalla pidetään kaikkein eniten käytetty data muistissa erittäin nopean suoritustehon aikaansaamiseksi. Harvemmin käytetty data sijoitetaan perinteisempään muistiteknologiaan (SSD tai HDD) hyvän kustannustehokkuuden saavuttamiseksi. Datan sijoitus perustuu automaattiseen datan käytön seurantaan eikä se luo lisäkuormaa tietovaraston operaattorille vaan datan sijoittelu on täysin automatisoitu. Näin saavutetaan muistinvaraisen tietojenkäsittelyn nopeushyödyt ja perinteisemmän teknologian kustannustehokkuus samaan aikaan. ”Intelligent Memory” on kaikkien Teradatan nykyään toimittamien integroitujen tietovarastojen vakio-ominaisuus ja sitä pystyvät hyödyntämään kaikki Teradatan kanssa yhteen toimivat työkalut ja sovellukset.

Teradata palvelee edelleen organisaatioiden tietovarastotarpeita, mutta on myös investoinut voimakkaasti uuden tiedon integrointi- ja analysointikyvykkyyteen. Avoimen lähdekoodin ratkaisuja on tuotu mukaan Teradatan UDA-arkkitehtuuriin, jotta kaiken datan analysointi olisi mahdollista kustannustehokkaasti. Teradatan UDA-arkkitehtuuri on rakennettu vastaamaan myös pidemmän ajan tarpeisiin eikä se estä muiden kuin Teradatan teknologioiden implementoimista arkkitehtuurin mukaisesti. Esimerkiksi Oracle Exadata voi palvella UDA-arkkitehtuurissa integroituna tietovarastona integroituen arkkitehtuurin muihin komponentteihin.

Marko Yli-Pietilä

Marko työskentelee tällä hetkellä teollisen internetin sovellusten parissa erityisesti koneiden rakennukseen ja niiden huoltoon liittyen. Myös finanssiteollisuuden sovellukset ajoneuvojen vakuutusten hinnoittelemiseksi ovat olleet kiinnostuksen kohteena. Koneiden tuottama data ei muodoltaan välttämättä ole big dataa, mutta määränsä ja analytiikan nopeuden vaatimusten perusteella kylläkin.

Teradata
Teradata on innovoinut ratkaisuja nopeaan tiedon käsittelyyn ja analysointiin jo 35 vuotta. Teradata syntyi tarpeesta käsitellä valtavia tietomääriä tapauksissa, joissa tietoa tulee analysoitavaksi samaan aikaan kun sitä pitää raportoida ja analysoida isoille käyttäjämassoille. Niinpä big data analytiikka ei ole Teradatalle mikään uusi haaste, vaan sen parissa on tehty työtä jo kymmeniä vuosia.
Avainsana: 

Leave a comment

Filtered HTML

  • Www-osoitteet ja email-osoitteet muutetaan automaattisesti linkeiksi.
  • Sallitut HTML-tagit: <a> <em> <strong> <cite> <blockquote> <code> <ul> <ol> <li> <dl> <dt> <dd>
  • Rivit ja kappaleet päätetään automaattisesti.

Plain text

  • No HTML tags allowed.
  • Www-osoitteet ja email-osoitteet muutetaan automaattisesti linkeiksi.
  • Rivit ja kappaleet päätetään automaattisesti.
Roskapostitorjuntaa.