Big data on vain suuria yrityksiä koskettava ilmiö?

Väärin. Big data on ilmiö, joka koskettaa kaikkien kokoluokkien organisaatioita. Jopa mikroyrityksellä on pääsy niin suuren kokoluokan data-aineistoihin, että esim. Hadoopin käytöllä voi tuottaa lisäarvoa. Viime viikolla pidetyssä Hadoop-työpajassa pääsivät osallistujat Hadoopin kanssa liikkeelle kahdessa päivässä - eikä yksikään osallistujista ollut koskaan ollut kosketuksissa Hadoopin kanssa missään muodossa. Mistään "rakettitieteestä" ei siis ole kysymys, vaan big datan mahdollisuudet ovat kaiken kokoluokan yritysten saavutettavissa.

Cloudera johtaa kisaa

Hadoop-kisaa siis. Eräässä LinkedIn-ryhmässä on meneillään äänestys siitä, mitä jakelua ryhmän jäsenet käyttävät. Arvasitkin varmaan jo kuka johtaa: Cloudera:

Big data Tietoviikossa ja CIO:ssa

Tänään ilmestyneessä Tietoviikossa referoitiin Gartnerin strategisten teknologioiden top 10 vuodelle 2013 ja CIO:ssa oli käännöstyönä toteutettu big data -artikkeli.

Big datan strategisista vaikutuksista

Tässä videohaastattelussa (MIT Sloan Management Review) pohditaan big dataa hyvin yleisellä tasolla, vaikka otsikko lupaakin paljon ("Video: Strategic Implications of the Big Data Era"). Datan määrä ja yleisemminkin meneillään olevan radikaalin muutoksen todellisuus tulevat kyllä hyvin esille, mutta kovin konkreettiselle tasolle ei mennä:

Hadoopista

Edellistä konkreettisempi video big datasta: Hadoopin käyttöönotosta saadut hyödyt:

Palvelumyyjät kerääntyvät big data -apajille

Tietoviikossa kerrottiin tänään big data -markkinoiden kasvusuunnasta: ylöspäin. Suuret palveluntarjoajat ovat hypänneet tähän kelkkaan nopeammin ja yksiäänisemmin kuin pilvipalveluiden kohdalla ja käytännön ratkaisuja julkistetaan kiihtyvällä tahdilla jo julkistettujen kehittyessä nopeasti. Aika-, osaamis- ja tietopula hidastaa liikkeellelähtöä yrityksissä, mutta ei pysäytä sitä.

Huomenna Lappeenrannan Big Data-tilaisuus

Huomenna on big data -tilaisuus Lappeenrannassa. Muutamia vielä jäljellä tänä vuonna ja ensi vuonna sitten rutkasti lisää. Tulossa mm. lisää Hadoop-työpajoja!

Big datan neljä vaihetta

Forbes listaa neljä vaihetta, joiden kautta big datan käyttöönotossa yrityksissä edetään (big datan 4 E:tä):

Esineiden internetistä

Tästä on (lähes) jokainen jo kuullut: IoT eli Internet of Things (esineiden internet). Vastauksena kysymykseen, että mistä ihmeestä sitä dataa oikein tulee (muualta kuin ihmisten internetistä aka Web 2.0, josta sittemmin tuli sosiaalinen media), tämä on hyvä sitaatti:

4.4 miljoonaa työpaikkaa

Tuo on se määrä big dataan liittyviä työpaikkoja, joka maailmassa syntyy vuoteen 2015 mennessä. Määritelmällisestä epäselvyydestä olen kirjoittunut jo niin usein, etten enää toista tuota litaniaa, mutta hyvältä näyttää suunta, rajattiin big data -tuotteet ja -palvelut ja niihin liittyvä osaaminen miten tahansa. Uutista ja lukua on lainattu tiuhaan, tässä esimerkki Tietoviikon sivuilta:

MapReduce-analyysia Hadoopilla ja R-ohjelmointi

Hadoopin analyysipuoli rakentuu MapReducen ympärille. Helpotuksia analyysilogiikan rakentamiseen tarjoavat mm .Hive- ja Pig-sisarprojektit, mutta paljon on myös vähemmän tunnettuja projekteja, joista saattaa kehkeytyä jotain. Tässä yksi esimerkki: RHadoop: Hadoopin ja R-ohjelmointikielen liitto.

Hadoop ja Microsoft

Hadoop Windows-servereillä tulee ensi vuonna tunnetuksi ja samoin myös Microsoftin Hortonworksin kanssa toteuttama Hadoop Windows Azuressa-palvelu. Tässä Siliconangle.com:n toimitusjohtajan kirjoitus siitä, mikä on Windows Hadoop eli HDInsight ja miksi Microsoft valitsi Azure-kumppanikseen Clouderan sijasta Hortonworksin.

Hadoopin tulevaisuudesta

Edellisessä kirjoituksessa mainitun Hortonworksin tuore esitys Hadoopin tulevaisuudesta:

YARN: Future of Data Processing with Apache Hadoop from Hortonworks

Twitter Storm

Twitter on ollut esimerkkinä suurimmassa osassa tänä vuonna kuulemistani big data -esityksistä ja olen sitä itsekin melko tiuhaan käyttänyt hyvänä esimerkkinä netin datavirroista. Yhdysvaltojen presidentivaalien twiittimäärät taisivat ylittää 300 000 twiitin rajan per minuutti.

Myöhästyikö Suomi big data -junasta?

Tätä pohditaan Tietoviikossa. Hyvä kysymys. eikä ainakaan ensimmäisten joukossa olla, jos ei nyt vielä myöhästyttykään. Ensi vuonna alkanee kauppa käymään:

Hadoop-startupeista

Tässä Gigaom:n jutussa on hyvin koostettu keskeisimmät Hadoop-startupit yhteen ja taustoitettu niiden rahoitusta, henkilöstömäärää ja muuta kiinnostavaa. Tunnetuin kolmikko on hyvin edustettuna:

Käytännön esimerkkejä ja käytön esteitä

Infoworldin sivuilla on listattuna 8 käyttöesimerkkiä big data -tuotteista ja -palveluista. Joukossa mukana NASA ja muut ei-niin-kovin-läheiset esimerkit.
Techrepublic puolestaan listaa käyttöönoton esteitä big data -analytiikassa ja päätyy luetteloimaan kymmenen keskeisintä (teko)syytä:

Big data isoin murros sitten internetin

Näin ennustaa D&B:n entinen CIO W. Hauck Tietoviikossa.

"Vain ne yritykset menestyvät, jotka osaavat käyttää big dataa asiakkaan eduksi. Loput voisivat yhtä hyvin myydä kirjoja kadunkulmauksessa", Hauck kärjistää tapaa, jolla big data jakaa yritykset kahteen kastiin.

Mitä on reaaliaikainen analyysi

Ihan reaaliaikaiseen ei massiivisilla datamäärillä päästä millään, mutta lähelle kylläkin. Vai miltä kuulostaa tämä?

Käydään läpi yli 35 gigatavun datamäärä, joka koostuu yli 300 miljoonasta rivistä (Wikipedian muutoshistoriaa) ja haetaan sieltä ne otsikot, joissa on numeroita (REGEXP_MATCH(title, ‘[0-9]+’)): aikaa kuluu n. 10 sekuntia.

Ai millä työvälineellä? Ei Hadoopilla tällä kertaa, vaan tuo esimerkki on Google BigQueryn, jota olen hehkuttanut vuoden mittaan useasti. Palvelu, joka kannattaa katsastaa. Suorituskyky on vaikuttava:

Rautaa big data -rajalle

Big dataa käytetään yhä useammassa yhteydessä huomion ja kiinnostuksen herättämiseen. Tuoreimpana esimerkkinä HP, joka mainostaa tuoreessa julkistuksessaan HP ProLiant SL4500 -palvelimen olevan "big data"-palvelin.

Tulevaisuusvaliokunta ja big data

Big data -käsitteenä alkaa löytymään yhä useammin myös muualta kuin alan lehdistä. Esimerkiksi tuoreimman Harward Business Review -lehden kannessa on teemana big data. Nyt myös eduskunnan sivuilla on maininta yhteydessä, jossa Tulevaisuusvaliokunta pohtii viestintäpolitiikan tulevaisuuden ongelmia:

Big data Tietokonlehden pääkirjoituksessa

Lisää kotimaisia mediabongailuja: uusimman Tietokone-lehden pääkirjoituksessa oli aiheena big data ja olipa se listattuna ykköseksi myös kiinnostavissa tulevaisuuden teknologioissa. Tämän vuoden loppuun mennessä jokainen aikaansa seuraava on siis jo hiljalleen ainakin kuullut käsitteestä. Ensi vuonna sitten käytännön toteutukset alkakoot.

Amazon Glacier ja S3

Amazonin pilvipalvelusta olen täällä kirjoittanut usein ja nyt yksi kirjoitus lisää tuohon sarjaan. Viime viikolla Amazon julkisti lisäominaisuuksia uuteen Glacier-palveluun: nyt se toimii saumatta yhteistyössä S3:n kanssa. S3:han aloitti Amazonin pilvipalvelutaipaleen ja on yksi vaihtoehtoisista pilvipalvelutallennuspaikoista Hadoopille pilvessä eli Amazon Elastic MapReduce-palvelulle.

Muistat Enronin, WorldComin ja Autonomyn varmaan...

Autonomy liittyi ikävien esimerkkien legendaariseen joukkoon:

HP sanoi tiedotteessaan, että se tekee peräti 8,8 miljardin dollarin eli noin 6,9 miljardin euron ylimääräisen tappion, koska viimevuotisen Autonomy-ostoksen kirjanpidosta on paljastunut suuria epäselvyyksiä.

Kyseessä jälleen kirjanpidon epäselvyydet, ainakin suurelta osin:

Esimerkki työpaikkailmoitus: haetaan big data -kehittäjää

Näitä näkee yhä useammin (tässä esimerkki): big data -työpaikkoja. Datan käsittely, BI tai analytiikka ylipäänsäkään ei ole uutta, mutta uutta ovat teknologiat, joiden osaamista haetaan: Hadoop, sen alaprojektit Hive, HBase, Pig ja muut sekä pilvipalvelut kuten AWS eli Amazon Web Services.

Big data pilvipalveluna

Tästä teemasta olen kirjoittanut usein - ja syystä: big data pilvipalveluna on todennäköisesti monelle yritykselle se järkevin vaihtoehto lähteä louhimaan julkisia, puolijulkisia ja kumppaneiden tarjoamia tietokantoja ja -lähteitä sekä yhdistelemään niitä esim. yrityksen omiin asiakastietoihin. Tällöin tarvetta Hadoop-klusterin pystyttämiseen ja ylläpitämiseen ei ole, eikä myöskään tarvitse maksaa etukäteen lisenssimaksuja, kun sovellukset saa käyttöönsä tarpeen mukaan. Esim.

The Forrester Wave: Enterprise Hadoop Solutions

Forrester julkaisi 15 kriteeriä käyttäneen vertailun eri Hadoop-tarjoajista tänä vuonna ja kertoo nyt blogissaan vuoden 2013 vertailun julkistamisajankohdan. Tutkimukseen osallistuvien yritysten pyydetään lähettävän tietonsa tammikuun 2013 loppuun mennessä.

Tämän vuoden palveluntarjoajien joukkoa johti Amazon Web Services:

Lisää Hadoop-työpajoja

Vuonna 2013 järjestetään lisää Hadoop-aiheisia (ja big data) koulutuksia, joissa olen puhumassa. Ennakkotietoa Hadoop-workshopista löydät täältä.

Big datan lyhyt oppimäärä

Otsikolla Pikaperehdytys big dataan kertoo Microsoftin Marko Hotti big datasta Tietoviikon sivuilla.

Big data-tietoisku keväällä 2013

Ennakkotiedot ensi kevään "Big Data-tietoiskusta" ovat nyt esillä Ari Hovi Oy:n sivuilla.

Iso data 3T-lehdessä

Tänään oli 3T-lehdessä asiaa big datasta (isosta datasta). Projekteja ei Suomessa vielä tungokseksi asti ole, mutta tietoisuus ilmiöstä alkanee olla sillä tasolla, että vuoden 2013 aikana liikutaan eteenpäin tälläkin saralla.