Hadoop-koulutusta keväällä 2013

Ari Hovi Oy järjestää lisää Hadoop-työpajoja keväällä 2013:

Big data -ennustuksia vuodelle 2013

Vuoden vaihtuminen kirvoittaa ennustajat liikkeelle ja niin on käynyt big datankin kohdalla. Erilaisia listoja ovat blogit pullollaan ja tässä yksi, Forbesin neljän ennustuksen lista (mukaillen):

EMC:n uusi video big datasta osa I

EMC on julkaissut Youtube-kanavallaan jo useita esityksiä big datasta ja Hadoopista ja nyt vuoden 2013 alun kunniaksi on julkaistu uusia. Tässä muutaman päivän takaa video suurten datamäärien haasteesta (suur)yritysympäristössä ja mitä ratkaisuja on tarjolla haasteeseen tarttumiseen:

Big dataa Tampereella

Vuoden 2013 ensimmäinen big data -tilaisuus on takana. Kiitos osallistujille! Tästä vuodesta tullee konkreettinen big datan "läpimurtovuosi" eli mielenkiintoiset ajat näköpiirissä!

IBM:n Big Data Explorer

Videoesittely IBM:n Big Data Explorerista:

Big data -käsitteen kiinnostavuus

Big data on saanut yhä enemmän huomiota yhä useammassa eri mediassa. Viime vuonna 2012 kansijuttuja oli suomalaislehdista Tietoviikossa useampaankin kertaan ja vuoden lopussa Tietokone-lehdessä. Kansainvälisistä printtijulkaisuista puolestaan Harvard Business Review omisti lokakuun numeronsa kannen big datalle. Aamiais- ja koulutustilaisuuksia järjestettiin Suomessa viime vuonna kymmeniä, joten aika moni on ehtinyt osallistua ainakin yhteen seminaariin tai vastaavaan.

EMC:n uusi video big datasta osa II

Toisessa tänä vuonna julkaistussa videossaan EMC kertoo big data -arkkitehtuurista:

Big data-markkinoiden koko?

Tulevaisuuden ennustaminen on mahdotonta, mutta aina voi yrittää. Wikibonissa (jota tässäkin blogissa on jo aiemmin siteerattu) ennustetaan big data -markkinoille nopeaa kasvua ja kohtuullista markkinoiden kokoa (luvut täällä). Loppusumma tuossa pyörii 50 mrd $ tietämillä vuonna 2015 eli muutaman vuoden kuluttua.

NuoDB

NuoDB julkisti skaalautuvan SQL-tietokantansa, jota rummutetaan kovin sanoin:

NuoDB started with a blank slate to design a brand new Cloud Data Management System (CDMS) that has all of the features you want:

  • 100% SQL
  • 100% ACID
  • 100% Elastically Scalable

Patenttikin löytyy, joten ihan tyhjästä ei rummutus synny:

Hadoopin suosio vuonna 2013

Huomioarvo sanalle alkaa hiljalleen saavuttaa lakipisteensä ainakin Google Trendsin ennusteen mukaan (katkoviiva):

Kiinnostus käytännön toteutuksia kohtaan sen sijaan on nopeassa nousussa. Hadoop-osaamisvaatimuksen sisältävät työpaikkailmoitukset ovat nopeassa nousussa (Indeed.com):

Kuten monta kertaa tässäkin blogissa on todettu, on osaajapula vääjäämätön.

Twitter-tili aktivoitu (bigdata-blogi)

Tästä lähtien tämän blogin postauksien otsikot ja linkki itse kirjoitukseen tulevat automaattisesti @bigdatafinland-Twitter-tilille.

Big Data - tiedon vallankumous

Uuden "Big Data"-kirjan nimi on tiedossa ja se on Big Data - tiedon vallankumous. Kaupoissa saatavilla maaliskuun puolivälissä.

Big data on tämän hetken puhutuin ilmiö tietotekniikassa ja vaikutuksiltaan yksi suurimmista alan murroksista.

Puhetta Hadoopista

Olin tänään puhumassa Hadoopista ja tuntuma on, että tänä vuonna tapahtuu eli Hadoop-projekteja alkaa pikku hiljaa tulla.

Hadoop on periaatteessa yksinkertainen, mutta kun mukaan otetaan eri sisarprojektit (Hive, HBase, Pig, Zookeeper yms.), niin siitä alkaa olla jo aika moneen käyttötarkoitukseen. Kypsyys ja luotettavuus ovat hyvällä tolalla, mutta kytkös käytännön liiketoiminta- ja muiden ongelmien sekä Hadoopin välillä on vielä monesti hakusessa. Tästä vuodesta tullee kuitenkin big datan ja Hadoopin läpimurtovuosi.

Apua Hadoopin hallintaan

Eilisen Hadoop-työpajan esimerkkejä varten olin luonut tukun valmiita Hadoop-klustereita ja esimerkit olivat komentorivitasolla eli hyvin yksinkertaisia, mutta samalla havainnollistivat (toivottavasti!) sitä, miten yksinkertaista Hadoopin käyttö periaatteessa on ja mihin sitä pystyy jo lyhyelläkin perehtymisellä käyttämään.

ICT 2015 -työryhmä loppuraportti ja big data

Tietoviikko uutisoi eilen ICT 2015 -työryhmän loppuraportista, jossa big data on vahvasti esillä. Suositukista useampi liittyy suoraan tai välillisesti big dataan:

Pekka Ala-Pietilän vetämä työryhmä kokosi 21 toimenpide-ehdotusta, joiden avulla Suomi voisi surfata uudelle kasvuaallolle.

Työryhmän ehdotuksia mm.:

Miksi juristin(kin) pitää olla kiinnostunut big datasta?

Aihetta pohtii videolla Jaakko Lindgren, joka on maaliskuussa puhumassa big data -brunssilla. Aiheen huomioarvo vain kasvaa ja näkökulmat monipuolistuvat.

Hadoop Summit Europe, ensimmäistä kertaa

Hadoop-tapahtuma Hadoop Summit järjestetään ensimmäistä kertaa Euroopassa, paikkana Amsterdam. Ajankohta on 20-21.03.2013. Koska Hadoop on keskeisin yksittäinen teknologia, joka big dataan liittyy, joten huomio lienee taattu.

Hadoop Summit

Big data pelkkää teknologiaa?

Vaikka suuri(n) osa big data puheesta tällä hetkellä pyörii teknologioiden (Hadoop) ja tarjottujen tuotteiden ja palveluiden nimien ympärillä (EMC, IBM, Oracle, Microsoft, Amazon, Google, HP yms.), niin on keskeisin kysymys tietenkin hyöty. Mitä iloa on big datasta? Tähän McKinsey tarjosi taannoin innostavan vastauksen, jossa povattiin lähes biljoonan dollarin vuotuisia säästöjä/lisäarvopotentiaalia tutkituilla sektoreilla. Myös printtimedian puolella on hyviä esimerkkejä, joissa on painotettu hyöty- ei teknologianäkökulmaa.

Suomalainen big data startup: AlphaSense

AlphaSense, joka sai äskettäin 1.5 miljoonaa rahoitusta yhdistää avoimia ja suljettuja datalähteitä ja pyrkii tarjoamaan sijoittajille täsmätietoa.

AlphaSense perustuu tietokantaan, johon on kerätty yritysten sijoittajasuhdemateriaaleja ja muuta dataa eri lähteistä.

Asiakkaita on sata ja suunta on ylöspäin.

Avoin data

Tässä videossa www:stä tutuksi tullut Berners-Lee puhuu avoimesta datasta ja netin tulevaisuudesta:

Big data startup-yritykset

Bigdata-startups.com-sivuston kirjoitusten aihetta ei tarvitse arvailla. Blogikirjoituksessa, jossa pohditaan big datan (lähi)tulevaisuutta, nostetaan hyvin esille myös se, että ilmiö koskettaa niiin pieniä kuin suuriakin organisaatioita. Budjetin ei tarvitse olla suuri.

Big datassa ei kysymys vain datan määrästä

Datahaaste

Datan määrä on yksi haasteista, joihin big data -ratkaisut pyrkivät vastaamaan. Määrän lisäksi haastetta kasvattavat datan vaihteleva laatu (esim. strukturoitu-strukturoimaton -akselilla) sekä nopeus, jolla dataa tulee käsiteltäväksi. Kaikkea ei vielä voida tallentaa pysyvästi, joten datavirrat pitäisi pystyä käsittelemään heti siten, että alustavan analyysin tulokset voitaisiin tallentaa pysyvästi myöhempää käyttöä varten (esim. sosiaalisen median syötteistä poimitut yritystä tai toimialaa koskevat otteet).

Big dataa pilvipalveluna: BigQuery

Google ja Hadoop

BigQuerystä olen kirjoittanut jo moneen kertaan ja sitä kannattaa kokeilla. Googlen artikkeli vuodelta 2004, jossa aiheena oli MapReduce ja toinen, jossa aiheena GFS eli Google File System toimivat innoittajina Hadoopille (MapReduce ja HDFS eli Hadoop Distributed Filesystem). Hadoop on suosittu, mutta Google taitaa olla yksi niistä harvoista isoista toimijoista, joka ei sitä tarjoa maksullisena palveluna käyttöön. AppEnginestä löytyy MapReduce, mutta Hadoopia ei Googlen kautta saa.

Lisää Hadoop-pilvipalveluita

Uusimman julkisti Joyent, jonka pilvipalvelusta löytyy nyt Hadoopin Hortonworksin käsialaa oleva versio. Lisänä "perus"-Hadoopin (nyt version 1.0.4) mukana ovat Hive, HBase ja muut tutut sisarprojektit. Joyentin (pilvi)palvelimia on käytetty joissain kouluksissani esimerkkinä ja nyt ei klusterin pystyttämiseksi tarvitse tehdä paljoakaan itse. Hienoa! Asetukset tuntuivat olevan kohdillaan ja kaikista projekteista käytössä vakaat versiot.

21 polkua kitkattomaan Suomeen

ICT-työryhmän raportti, josta kirjoitin aikaisemmin löytyy täältä. Big datalla on näkyvä rooli:

Vierailijapuhujana Arcadassa

Olin tänään puhumassa big datasta ja Hadoopista ammattikorkeakoulu Arcadassa Helsingin Arabiassa. Käsi pystyyn äänestyken perusteella yhdelläkään kuulijalla ei (vielä) ollut Hadoop-kokemusta, mutta big datasta oli kyllä moni kuullut. Mielenkiintoinen tilanne edessä lähitulevaisuudessa, jos ennusteet Hadoopin yleistymisestä pitävät paikkansa eli että suuri(n) osa suurten yritysten datasta majailee Hadoop-pohjaisissa ratkaisuissa ja että kehittyneistä analyysituotteista/-palveluista reilusti yli puolet nojaa Hadoopiin.

Big data top 100 vaikuttajaa

Ensimmäinen assosiaatio otsikosta saattaisi olla, että kyseessä on 100 henkilöä, mutta tässä listassa on kyse pääasiassa yrityksistä, vaikka on joukossa esim. Hadoop-projekti. Koko lista aakkosjärjestyksessä täällä.

Pilvipalvelut ja big data

Pilvipalvelut ja big data ovat monella tavoin päällekkäiset ilmiöt, kuten tässäkin blogissa on todettu moneen kertaan. Tunnetut pilvipalvelun tarjoajat ovat aktiivisesti mukana tarjoamassa big data -ratkaisujaan, joista osa on uusia (HDInsight, BigQuery) ja osa ollut markkinoilla jo ennen kuin big datasta alettiin kovaan ääneen puhumaankaan (Amazonin Elastic MapReduce). Tänäkin vuonna on jo julkaistu uusia pilvipalveluita, joissa tulokulmana on big data (mm. Joyent Hadoop).

Monellako yrityksellä on Big Data -strategia?

18 %, jos on uskominen Tietoviikon vierasblogin sanomaa. Oli tuo tarkka luku tai ei (toissavuodelta), niin suunta lienee tuo eli selkeällä vähemmistöllä on valmiina mitään big data -strategiaksi kutsuttavaa.

Markkinoinnin trendit vuonna 2013

Ja arvasitkin varmaan, että big data on yksi niistä. Tässä lähteenä Snoobin toimitusjohtajan blogi. Trendit ovat (mukaillen ja lyhentäen):

  • ROMI (Return On Marketing Investment)
  • Sisältömarkkinointi
  • Big Data

Hadoop Wall Street Journalin blogissa

Hadoopista kirjoitettiin äskettäin WSJ:n blogissa ja Gartnerin ennuste siitä, että Hadoop tulee olemaan vuonna 2015 noin 65 %:ssa edistyksellisistä analyysivälineistä leviää nopeasti. Huomioiduksi blogikirjoituksessa tulevat myös big datan ja Hadoopin haasteet:

Excel 2013 ja Hadoop

Microsoft liikkuu vauhdilla eteenpäin big data -markkinoilla ja tänä vuonna tutuksi monelle tulee nimi HDInsight. Hadoopin suuntaan mennään myös uudessa Office 2013 -paketissa. Exceliin on tarjolla Hive -lisäosa, joka integroi HDInsightin (Hadoop) Office 2013 työvälineisiin. Pientä dataa muokataan omalla koneella ja isoa puolestaan esim. Windows Azuressa, jossa tarjolla Hadoop-pilvipalvelun Preview-versio