Aalto-yliopiston hajautetun laskennan ryhmä

Distributed Computing Group

Aalto-yliopiston hajautetun laskennan ryhmä on keskittynyt mm. big dataan:

Big data -kursseja ja koulutusta keväällä

Helsnki, Jyväskylä, Oulu, Tampere...

Vuosi 2014 tuntuu olevan todellista heräämisen aikaa big dataan ja sen yksittäiseen tunnetuimpaan uuteen teknologiaan Hadoopiin. Ivorio on mukana järjestemässä kursseja useissa yliopistoissa ja Baronan AnalyticsPro-ohjelman puitteissa kehittämässä lähitulevaisuuden tekijöitä. Menee kuitenkin aikaa ennen kuin Hadoop-osaajia on riittävästi edes nykyiseen tarpeeseen ja kysynnän kasvaessa pahenee myös osaajapula.

TTY hakee tutkijatohtoria big dataan

Tohtorikoulutettavan/tutkijatohtorin tehtävä avoinna (Big Data in Finance)

Big dataa edistetään Tampereella vauhdilla. Nyt haetaan tutkijatohtoria big dataan liittyen:

Tehtävään valittavalta henkilöltä edellytetään hyvää englannin kielen taitoa, kokemusta laskennallisesta rahoituksesta tai numeerisista menetelmistä sekä osaamista ohjelmointi- ja tietokannoista (esim. Matlab/C/C++/Python/Hadoop).

Tehtävä täytetään 1.3.2014 alkaen noin kahden vuoden määräajaksi.

Big data -investoinnit kasvussa

IDG:n tutkimus kertoo: big data kiinnostaa

IDG:n selvityksen perusteella big data -investoinnit ovat kasvussa:

Viidennes vastaajista aikoo investoida yhdestä kymmeneen miljoonaa ja kymmenesosa kymmenen miljoona tai yli dollaria big data -hankkeisiin seuraavan vuoden aikana.

Lue lisää

Watson vauhdissa

IBM:n Watsonista uutisoidaan nyt paljon ja big data yhdistettynä pilvipalveluihin on hyvin esillä.

Pilvipalveluista ja big datasta EMC:n blogissa

EMC:n Isotieto.fi blogissa kirjoitetaan meneillään olevasta paradigman muutoksesta. Muutos ei tapahdu yhdessä yössä tai edes vuodessa, mutta se tapahtuu.

Yksi hyvä esimerkki on se, että sovellusten elinkaaret lyhenevät. Yritykset eivät voi lähteä tekemään vuosia kestäviä siiloutuneita softaprojekteja, jotka ovat vanhentuneita jo valmistuessaan. Jatkossa sovellukset täsmäkehitetään nopeasti liiketoiminnan tarpeisiin hyödyntäen omia yksityisiä ja julkisia pilvipalveluita.

Hadoop hidas? Ei enää.

Käsitykset Hadoopista vaihtelevat ja ovat monesti vanhentuneita. Monilla mielikuva tuntuu laahaavan ykkösversion rajoitteissa ja ongelmissa. Kakkosversio on korjannut osan puutteista ja jakeluiden sekä laajennosten myötä ollaan etenemässä yhä kauemmas "vain eräajoon"-ajattelusta. Tuore esimerkki tulee Clouderalta, joka alkoi tarjoamaan Spark-pohjaista ratkaisua.

Hadoop distributor Cloudera has released a commercial edition of the Apache Spark program, which analyzes data in real time from within Cloudera’s Hadoop environments.

Big data -yrityksiä Suomessa

Big data kiinnostaa startup-yrityksiä

Suomesta löytyy jo useita "Big dataa" nimessään kantavia yrityksiä:

Big data -ilmiön vaikutuksista

Venturebeat kirjoittaa big data -ilmiöstä ja vaatimattomasti otsikoi kirjoituksen "The real promise of big data: It’s changing the whole way humans will solve problems". Otsikon yliampuvuudesta huolimatta juttu kannattaa lukea: elämme merkittävän murroksen aikaa:

Vähittäiskaupan seuraava murros: big data

Verkkokauppa on se, josta nyt puhutaan. Vuosituhannen vaihteen visiot toteutuvat ja ne, jotka reagoivat muutokseen ajoissa valloittavat nyt markkinaosuuksia. Big data on seuraava murros, tässä Intelin video muutoksesta:

Apache Storm ja Hadoop

Viime vuonna Hadoopin suhteen pinnalla oli SQL:n käyttö (Hive, HAWQ, Impala yms.) ja siitä puhutaan toki edelleen. Alkuvuonna 2014 huomio kiinnittyy kuitenkin myös reaaliaikaisuuteen. Clouderan CDH alkoi tarjota Sparkia ja Hortonworks nostaa esille Apache-projekteista Stormia. Tavoittena sama: (lähes) reaaliaikainen datan analysointi. Hadoopin mahdollisuudet siis lisääntyvät ja käyttöalue laajenne.

Hadoop-liittoumia

MapR + HP

MapR kertoo yhteistyöstä HP:n kanssa:

Today we are very excited to announce early access of the new HP Vertica Analytics Platform on MapR at the O’Reilly Strata Conference: Making Data Work. This solution tightly integrates HP Vertica’s high-performance analytic platform directly on the MapR Enterprise-Grade Distribution for Hadoop with no “connectors” required. We wanted to provide some additional details on this integration and why this is important for customers.

Cisco: big datasta

Ciscon esitys big datasta ja IoE:stä (Internet of Everything):

Big data ja pilvipalvelut

Yhä useammin nämä kaksi käsitettä liitetään tiiviisti yhteen. Ne muodostavat meneillään olevan muutoksen ytimen.

Hadoop-markkinat kypsyvät

Yrityskauppoja luvassa

Hadoop-startupit Cloudera, Hortonworks ja MapR ovat eniten esillä, kun Hadoop-jakeluista puhutaan. Isommilla resursseilla ja paremmalla tunnettuudella varustetut globaalit miljardiluokan jätit ovat kuitenkin haastamassa näitä toimijoita.

Intel is continuing to build out its array of software tools for the Hadoop open-source big data processing framework, with an emphasis on the security and reliability features demanded by large enterprises.

Intel panostaa lisää big dataan ja Hadoopiin

Intel Data Platform

Intel julkisti äskettäin uuden analytiikka-alustansa Intel Data Platformin:

Big datasta ja sen mahdollisuuksista Talouselämässä

Big data ongelmanratkaisijana

Big data ratkaiseen nykyisiä ja tulevia ongelmia. Olemme siirtymässä datavetoiseen talouteen. Aiheesta kirjoittaa Vesa Vähälummukka Tiedolta Talouselämän blogissa (lue kirjoitus täältä). Mahdollisuudet ovat suuret:

Miten hyvin big data on Teillä hallussa?

Tässä EMC:n liiketoimintalähtöinen lähestymistapa aiheeseen ("Big data Business Model Maturity Index"):

Hadoop 2: mikä on paremmin?

Tässä Hortonworksin katsaus Hadoop 2 -version parannuksiin verrattuna ykkösversioon:

Hadoop-työpaikat ja Hadoop-haut

Trendikäyrät sopivat hyvin hypen seuraamiseen ja tässä muutama:

Hadoop-työpaikat (Indeed.com)

hadoop Job Trends graph

Hadoop-haut (Google.com)

Ovatko Hadoop-tietosi ajantasalla?

Mikä on Hadoop?

Hadoop alkaa jo olla tuttu monelle, mutta käsitykset ovat monesti vanhentuneita. Hadoop ja MapReduce mielletään monesti yhdeksi ja samaksi asiaksi. YARN, Tez, Spark ja muut ovat tehneet tästä vanhentuneen mielleyhtymän. Hitaus oli pitkään Hadoopin ongelma, mutta Hive 0.12, Impala, HAWQ, Drill ja myöhemmin mm. Storm ja Spark ovat tehneet tästäkin jo menneisyyden Hadoopiin viittavan mielikuvan.

Big data -markkinat 2014

Katsaus big data -markkinoihin 2011-2017

Wikibonin ennusteita ja markkinakatsauksia on verkkolehdissä ja blogeissa siteerattu tiuhaan. Nyt on päivitetty ennuste big data -markkinoista aina vuoteen 2017 saakka. Tuolloin Wikibonin arvion mukaan markkinoiden koko olisi vaatimattomat 50 mrd $. Tässä siis kyse softasta, raudasta ja palveluista. Jako prosentuaalisesti olisi:

Palantir

Top 10 "puhdasveristä" big data -toimijaa

Forbesin blogissa listattiin äskettäin liikevaihdolla mitattuna top 10 pelkästään ns. big data -ratkaisuihin keskittyvää toimijaa. Kärjessä listauksessa Palantir, joka on monelle tuntematon.

Sijoittajien näkemyksiä big data -startupeille

Venturebeat listaa artikkelissaan sijoittajien kommentteja Strata big data -konferenssista. Uusia yrityksiä syntyy tiuhaan tahtiin, erityisesi Piilaaksossa, ja sijoittajilla alkaa kärsivällisyys olla koetuksilla samojen ideoiden toistuessa yhä uudelleen. Sijoittajien inhokkilistalle päätyivät mm. seuraavat "keksinnöt":

Mitä big data -ilmiöstä on viime vuosina opittu?

Informationweek.com listaa big data -ilmiöön liittyviä yleistyksiä ja huomioita. Hadoop on vahvasti esillä:

Vendors expect Hadoop to be in the mix

Practically every vendor out there has embraced Hadoop, going well beyond the fledgling announcements and primitive "connectors" that were prevalent two years ago.

Lue lisää

Esittelyssä Palantir: big data -markkinoiden nopea nousija

Mitä Palantir tekee?

Tässä esittelyvideo Palantirista, joka listattiin äskettäin liikevaihdolla mitattuna johtavaksi puhtaasti big dataan erikoistuneista yrityksistä:

Data Supply Chain: dataekosysteemissä tulevaisuuden kilpailukyky

Accenturen teknologiakatsaus 2014

Accenture nostaa datan tulevaisuuden kilpailukykykamppailun keskipisteeksi:

Hadoop vuonna 2014

Katsaus Hadoopin vuoteen 2014 Ivorion blogissa täällä.

Kannattaako osata Hadoop, NoSQL ja muut big data -teknologiat?

Osaajista huutava pula

Työmarkkinoiden tilanteesta eri teknologioiden kysynnän ja tarjonnan suhteen antaa indikaattorin vallitseva palkkataso. Hadoop-osaajista on huutava pula. R-kieli on myös kovassa nosteessa.

In the 2014 Dice Tech Salary Survey of over 17,000 technology professionals, the highest-paid IT skill was R programming.

Lue lisää

Top 10 korkeimpiin palkkoihin johtavaa teknologiaa/käsitettä ovat:

Big data ja konsulttitoimistot vuonna 2014

Big data agendalla jo neljättä vuotta

Konsulttitoimistot ovat puhuneet big datasta jo pitkään (vuoden 2011 blogikirjoitus aiheesta), eikä tahti ole hiipunut. Tässä muutama tuore esimerkki big datasta:

Datavetoinen markkinointi

Markkinointi ja big data

Teradata julkisti selvityksen big datasta ja markkinoinnista nimellä "The Data Driven Marketing Opportunity". Big data ilmiönä koskettaa toimialoja ja toimintoja kautta linjan, eikä todella rajaudu vain IT-osaston iloksi (tai murheeksi näkökulmasta riippuen).

Big data markkinatutkimuksessa

Kyselemisesta havainnointiin

Upottamalla käsi syvälle datamassaan saadaan monipuolisempi kokonaiskuva kuin putken läpi tihrustamalla. Taloustutkimuksen tutkimusjohtaja Jari Pajunen kirjoittaa markkinatutkimuksen tulevaisuudesta - ja se on big datassa:

Painopiste siirtynee vähitellen kyselemisestä kuluttajien käyttäytymisen tarkkailuun ja selittämiseen.

Lue lisää

Big data suosio

Big data -käsite on suositumpi kuin koskaan Google-hakukoneessa:

Vuoteen 2016 mennessä 25 % maailman suurista yrityksistä käyttää big dataa

Big datan läpimurton edessä

Otsikko ampuu vähän yli, mutta suunta on selvä: big data on lyömässä itsensä läpi. Vuonna 2011, kun aloitimme aiheesta kirjoittamisen, vallitsi epätietoisuus ja -luuloisuus. Kumpikaan ei ole täysin väistynyt, mutta keskustelu käydään nyt aivan eri tasolla ja käytännön ratkaisuista esimerkiksi Hadoop-pohjaiset vaihtoehdot ovat huomattavasti kypsemmällä tasolla.

Mistä tuo otsikon 25 % on peräisin? Gartnerilta.

Sensoridatan hyökyaalto on tulossa

Big data -ilmiön todellinen muutosvoima: sensoridata

Tätä ennustavat monet: sensorinen data tulee olemaan big data -ilmiön todellinen muutosvoima. Nyt vasta lämmitellään.

Over the next decade, pervasive adoption of intelligent sensor-based analytics in industrial sectors will result in greater transformation than was achieved by data and analytics-centric consumer-oriented organizations over the past decade.

Lue lisää

CGI vie big datan käytäntöön

Liikennedatan hyödyntämistä käytännössä

Tietoviikossa kirjoitetaan jälleen CGI:n (Logica) big data -esimerkistä pääkaupunkiseudulla:

Helsingin Bussiliikenteen uudessa järjestelmässä autoihin sijoitetut dataloggerit keräävät sekunnin välein tietoa siitä, mitä autossa tapahtuu. Siitä syntyy vuorokaudessa noin 15 miljoonaa riviä dataa, joka siirretään päivän päätteeksi tietovarastoon. Siellä se yhdistetään yrityksen toiminnanohjausjärjestelmän tietoihin.

Hadoopin tulevaisuus

Hadoop uudistuu nopeasti

Hadoop monipuolistuu alustana vauhdilla. Sen ekosysteemi kasvaa ja sisarprojektit kypsyvät. Hadoop on vahvana ehdokkaana datan kodiksi ja analysointimoottoriksi ja sen sovelutuvuuden rajat etääntyvät MapReducen asettamista rajoitteista hurjaa vauhtia:

KPMG maksaa big data -koulutuksen sadalle jatko-opiskelijalle

KPMG koulututtaa

KPMG uskoo datatieteilijöiden tarpeeseen ja yrittää myös osaltaa lievittää osaajapulaa:

KPMG funds big data education project for 100 PhD students

The Science to Data Science summer school will be held at the University of Westminster in Harrow, London, and will run from 4 August to 5 September 2014. Applicants are required to a PhD in analytical science and have experience in at least one programming language including, Python, C/C++, R, IDL and Java.

Tulevaisuuden suuri haaste: sensoridata

Sersoridatan hyökyaalto on tulossa

Intel julkisti äskettäin uuden prosessorin. Ei uutta auringon alla siinä. Lehdistötiedotteen yhteydessä huomattavaa oli kuitenkin, että myyntipuheessa esillä oli vahvasti big data, johon Intel myös itse panostaa esim. omalla Hadoop-jakelullaan.

Big data -koulutus Helsinki

Big data tulee – kilpailuetua tietojohtamisella

Tänään pidettiin Rate-koulutuksen järjestämä big data -koulutus (1 pvä) Helsingissä. Kiitos osallistuneille!

Uusi sertifikaatti: Ivorio Certificate for Big Data

Ivorio Certificate for Big Data

Ivorio julkisti uuden sertifikaatin syksyllä 2013 lanseeratun Hadoop-sertifikaatin rinnalle: Ivorio Certificate for Big Data. Sertifikaatti on suunnattu päättäjille, asiantuntijoille ja alaa opiskeleville. Fokus on ilmiön ja keskeisten käsitteiden tuntemisessa ja ymmärtämisessä.

HBR: Making sense of big data, kansijuttu

Big data taas kansijuttuna Harward Business Review -lehdessä

Otsikolla "Making Sense of Big Data" on big data taas saanut kansipaikan HBR:ssä. Aika monen päättäjän pöydältä tuo lehti löytyy. Ensimmäistä kertaa big data taisi olla kansijuttuna vuoden 2013 alkupuolella ja nyt uudestaa. Huomio on saatu, varmaan kiinnostuskin. Halu toimia syntynee, jos jutun oikeasti lukee:

Hadoop 2.3.0 julkistettu

Hadoopin uusin versio on nyt 2.3.0. Uutuuksissa mm. klusterin palvelinten keskusmuistin käyttö Hadoopin hajautetun tiedostojärjestelmän valittujen tiedostojen tai kokonaisten kansioiden tallentamiseen.

Miten löytää paras big data -ratkaisu?

Mahdoton tehtävä?

Objektiivisesti parhaan tunnistaminen on mahdotonta. Pitää olla konkreettinen käyttöesimerkki ja sittenkin valinta on vähintäänkin haasteellista. Todella käytetty esimerkki ovat teleoperaattorit ja tunnistetiedot (CRD, Call Detail Record). Tässä esimerkkejä markkinoilta:

Laiskuuden tulos

Verkkokauppa laahaa Suomessa

Helsingin Sanomat uutisoi verkkokaupan surkeasta tilasta Suomessa

Suomalaisyritykset jäävät selvästi muiden Pohjoismaiden yrityksistä jälkeen, kun verrataan ulkomaisten asiakkaiden tavoittelua verkon avulla, kertoo Googlen tänään julkistama tutkimus.

Uusia big data -työkaluja: Microsoft Power BI

Microsoftilta tuli äskettäin ulos uusi Power BI -nimellä kulkeva ratkaisu:

Microsoft is offering Power BI as an add-on for Office 365 subscriptions. The base cost is $33 per user, per month, but new and existing Office 365 customers can take advantage of a limited-time promotional price of just $20 per user, per month.

Avoin data - liikkuvaa tietoa

Lokakuussa 2013 julkaisemassaan raportissa "Open data: Unlocking innovation and performance with liquid information" Mckinsey&Co. arvioi maailman tietovarastojen avoimuuden yli kolmen triljoonan dollarin (US) arvoiseksi vuosittaiseksi potentiaaliksi.

Hyvä katsaus Hadoop 2:en käytännössä

Computerweekly.com on haastatellut alan huippunimiä Hadoop 2:n todellisista merkityksistä. Mukana mm. koko v2 projektin vetäjä, Hortonworksin Arun Murthy.

Sivut