Big Datasta kesällä

Vuosi 2012 jäänee mieleen Big Datan vuotena, vaikkei se käsitteenä silloin esitellyksi tullutkaan, vaan jo aikaisemmin. Suomalaisissa organisaatioissakin aiheesta on kirjoitettu ahkerasti:

The seven Vs of Big Data

Big Datan määritteleminen yksiselitteisesti on mahdotonta. Se on käsitteenä yhtä laaja ja epäselvä kuin Cloud Computing. Yksi yleisimmistä viitekehyksistä kokonaisuuden hahmottamiseksi on Big Datan kolme V-kirjainta, joka on tässäkin blogissa jo aikaisemmin esitelty. Googletin Big datan V-kirjaimia ja osumia tuli seuraavasti:

Miksi Microsoft on mukana Big Data -ratkaisujen kehittämisessä?

Microsoftin blogissa pohditaan yrityksen roolia Big Data -markkinoilla. SQL Server 2012 -esittelyssä (www.microsoft.com/bigdata) mm. ensimmäinen uusien ominaisuuksien listassa mainituista asioista on Big Datan analysointi, joten teemalla ratsastetaan vahvasti tuossakin julkistuksessa.

Big Data -kirjan kirjoittaminen aloitettu

Sisällysluettelo hahmoteltu ja johdantokappaleen kirjoitus hyvässä vauhdissa. Markkinat muuttuvat nyt niin nopeasti, että muutoksia tullee aina viime metreille saakka.

Lukuvinkki: Täällä ilmainen Big Data -kirja IBM:ltä (englanniksi).

Big Data 5 miljardista 50 miljardiin ($)

Wikibon arvioi vuoden 2012 Big Data -markkinat noin 5 mrd $ kokoisiksi ja ennustaa huikeaa kasvua lähivuosille. Vuonna 2017 eli viiiden vuoden kuluttua markkinoiden arvo olisi jo kymmenkertainen, yli 50 mrd $.

Top 10 Big Data -markkinoiden yritystä liikevaihdolla mitattuna olivat vuonna 2012:

NIST: Big Datan peruskäsitteistöä

NIST eli National Institution of Standards and Technology Yhdysvalloista on tehnyt hyvää työtä pilvipalveluiden käsitteellistämisen ja kokonaisuuden hahmottamisen saralla. Ei mitenkään yllättävää, että nyt suurennuslasin alla on Big Data. Tässä PDF, jossa esiteltynä peruskäsitteistöä (Mitä on Big Data, Big Datan kolme V:tä, NoSQL, Hadoop ja MapReduce yms.).

Kongressin kirjasto 0.5 petatavua

Big data eli "iso data" on suhteellinen käsite sen suhteen, mikä lasketaan suureksi määräksi dataa (ja miten data ylipäänsä määritellään). Usein hoettu mantra (yli 56 000 google-osumaa) on, että maailmassa on 1.8 zettatavua dataa. Siihen liitetään usein kasvuennuste (esim.

Bigdata.fi uudistui

Sivuston ulkoasu koki uudistuksen ja mobiililaitteiden tuki parani entisestään. Rakenne pysyi ennallaan, alustana säilyi Drupal 7, joten pääasiassa muutokset ovat kosmeettisia. Samalla julkistettiin syksyn 2012 koulutustarjonta osoitteessa bigdatafinland.net. Tarjolla puolen päivän mittaisia tilaisuuksia, jotka sisältävät lounaan sekä uusimman pilvipalvelukirjan ja vuoden 2013 alussa julkaistavan Big Data -kirjan.

Google Cloud - Googlen pilvipalvelut

Google on julkistanut tasaiseen tahtiin uusia palveluita ja ominaisuuksia jo olemassa oleviin palveluihin. Nyt Googlen pilvipalvelut on lyöty yksiin kansiin osoitteeseen cloud.google.com ja sieltä löytyy myös BigQuery, josta tässäkin blogissa on kirjoitettu jo useamman kerran ja jota olen ahkerasti esitellyt aamiaistilaisuuksissa. Uutuutena esillä myös Compute Engine, joka tuo App Enginen rinnalle IaaS-tarjooman kilpailemaan mm. Amazonin EC2:n kanssa.

Big Datan kahdeksan lakia

Forbesin blogissa oli tiivistetty Big Datan olennaisimmat seikat kahdeksaksi laiksi (8 laws of Big Data):

Kongressi kyselee tietosuojan perään

Data on nykyajan öljylähde tai malmivaranto. Tietosuoja on henkilötiedoista liiketoimintaa tekeville yrityksille kirosana, joka rajoittaa innovatiivisuutta ja estää tietojen mielivaltaisen yhdistelemisen - ja hyvä niin. Pilvipalveluiden ja nyt Big datan kohdalla tietoturva ja -suoja aiheuttavat harmaita hiuksia palveluntarjoajille ja palveluiden ostoa harkitseville asiakkaille. Teknologian kehitys on niin nopeaa, ettei lainsäädäntö tahdo pysyä perässä.

Big Data ja konsulttitoimistot 2012, osa 1

Kirjoitin vuonna 2011 Big Datasta ja muutamista suurimmista konsulttitaloista. Katsotaanpa, miltä tilanne näyttää nyt vuoden 2012 puolivälissä...

Big Data ja konsulttitoimistot 2012, osa 2

Deloitte

Deloitten edellinen teknologiakatsaus puhui analytiikasta paljonkin, mutta ei maininnut vielä kertaakaan sanoja "Big Data" tai "Hadoop". Tänä vuonna tilanne on toinen. Big data mainitaan 79 sivuisessa raportissa 43 kertaa (jätin pois lähdeviitteet ja sivujen alareunoissa olevat merkinnät) ja Hadoop pari kertaa. Suhdeluku on oikein, koska Big Data ei todella ole synonyymi Hadoopille toisin kuin (yhä) usein näkee väitettävän.

Big Datan merkitys ymmäretään hyvin:

Big Data ja konsulttitoimistot 2012, osa 3

Otetaan tarkasteluun vielä joitain konsulttitaloja, jotka eivät olleen mukana tuossa vuoden 2011 kirjoituksessani.

Capgemini

Kansainvälisten nettisivujensa (capgemini.com) etusivulla Big datalla ei ole näkyvyyttä, vaan siellä olivat tällä hetkellä (28.7.2012) esillä pilvipalvelut, varsinkin PaaS. Suomen Capgeminin sivuilla sen sijaan oli Big data nostettu etusivulle rotaatiobannerin yhdeksi teemaksi.

Big Data maailmanpankin blogissa

Yhä useammalta suunnalta saa nyt lukea Big datasta (ei sentään vielä Hesarista...). Maailmanpankin blogissa pohditaan Big datan ja avoimen datan merkitystä kehitys(yhteis)työssä.

Mitä nimitystä käyttää?

Rakkaalla lapsella on monta nimeä, niin tässäkin tapauksessa. Big data, Big Data, big data, bigdata, Iso data, iso data... mikä niistä on "oikein"? Kaikkia näkee käytettävän, mutta suomeksi kirjoiteitettaessa tuo suora käännös "iso data" on saanut suurimman suosion. Konsulttikieltä siteeratessa yleisin on Isoilla Alkukirjaimilla Kirjoitettu Big Data, mutta useammin näkee käytettävän vähemmän mahtipontista "big dataa" pienillä alkukirjaimilla. Erisnimestähän ei ole kyse, joten nuo "Big data"- ja "Big Data" -vaihtoehdot ovat vähän korneja (mihin on sorruttu suurelta osin tässäkin blogissa.

Hadoop YARN

Kaikki tuntevat Hadoopin, ainakin nimeltä, jos ei muuten. Projekti etenee ja alfajulkaisu 2-versiostakin on jo ollut saatavilla muutaman kuukauden. Yksi uutuuksista on YARN. Suomenkielisille sivuille rajatulla Google-haulla "hadoop yarn" löytyi yksi osuma jonkun englanninkieliseen twiittiin. Ilman kielialuerajausta osumia kertyikin jo yli 20 000, joista alkukymmeniköistä monikaan ei kuitenkaan kovin informatiivinen.

Hadoop Suomessa

Suomessa Hadoop on vielä käytössä harvassa paikassa, ainakin jos suhteuttaa käytön yleisyyden Hadoopin saamiin (netti)palstamillimetreihin. Keväällä ilmestyneessä Tietoviikossa (27.04.2012) oli aiheena Hadoop, joten ihan pelkästään netin varassa ei tiedon levittämisen suhteen Hadoop ole ollut Suomessakaan.

Google Prediction API

Googlen Prediction API tuli ulos beta-kaapista viime vuonna ja nyt kun Google uudelleenbrändäsi pilvituotteensa yhteen osoitteeseen, niin Prediction API nostettiin näkyvään asemaan. Pääpalvelut (App Engine, Compute Engine, BigQuery ja Cloud Storage) esitellään cloud.google.com-sivuston etusivulla, mutta kohdasta "More products" löytyy kaksi tuotetta lisää: Translation API ja Prediction API.

Suomi laahaa perässä?

SAP julkisti kesäkuun lopussa kyselytutkimuksensa tuloksia raportissaan "Big Data Pohjoismaissa 2012", jossa 450 vastaajaa kertoi tuntojaan. Suomi näyttää noiden tulosten perusteella olevan hieman jälkijunassa, ainakin jos asiaa mitataan prioriteeteilla.

Google BigQuery vuonna 2012

Kirjoitin viime vuonna BigQuerystä ja olen esitellyt sitä ahkerasti aamiaistilaisuuksissa keväällä. Koska BigQuery on nyt näkyvästi esillä App Enginen, Compute Enginen ja Cloud Storagen rinnalla cloud.google.com -sivuilla, niin sen tunnettuus noussee nopeasti lähitulevaisuudessa.