Kahden päivän Hadoop-workshop

Tässä kuussa (23.-24.10.2012) järjestetään ensimmäinen kaksipäiväinen Hadoop-workshop. Paikkana Taitotalo, Helsinki.

Asiaa big datasta Oraclelta

Oracle Ellison oli pessimistinen pilvipalveluiden suhteen vielä vuonna 2008 (ainakin sitaattien perusteella). Oracle on kuitenkin lähtenyt big data -junaan ajoissa mukaan. Tässä artikkeli Oracle OpenWorldin big data -hehkutuksesta. Ja tässä videoklippi samasta tilaisuudesta:

Big dataa Kuopiossa

Eilen olin puhumassa big datasta Kuopiossa. Aiheen kattava esittely on puolessa päivässä mahdoton tehtävä, mutta paljon siinäkin ehtii.

Tässä jälleen yksi video, jossa asiaa ruoditaan. Esittäjänä Chrisopher Barnatt.

Google BigQuery kehittyy

Ja vauhdilla kehittyykin. Taas tuli uusia ominaisuuksia:

EMC:n Big Data -kirja

Lisää lukuehdotuksia big datasta kiinnostuneille: BIG DATA FOR THE PREDICTIVE ORGANIZATION (ilmainen, vaatii rekisteröitymisen).

Saisiko olla Hadoopia?

Hadoopin ympärillä on kova kuhina ja monille se on synonyymi big datalle. Hadoopin perusversion lisäksi tarjolla on kustomoituja vaihtoehtoja ja Hadoopia pilvipalveluna:

Big data ja terveydenhuolto

Toimialana terveydenhuolto koskettaa kaikkia (kuten vähittäiskauppakin) ja on yksi kestosuosikeista big datan hyödyntämiselle. Tässä tuore artikkeli, jossa listataan hyötyjä ja kerrotaan muutamin esimerkein, mitä noin suurinpiirtein big datan avulla voitaisiin saavuttaa. Viime vuonnahan McKinsey löi kovia lukuja pöytään, kun se julkistamassa raportissa rahamääräisti hyöty- ja säästöpotentiaalia.

Päivän lukuvinkki: TiVi

Tämän päivän TiVi:n kansijuttuna on "Big Data". Kannattaa lukea!

Suomalainen yritys-it muutoksen kourissa

Koura-otsikko on lainaus Tietokone-lehden jutusta EMC Forum 2012 tapahtumasta. EMC on fiksusti yhdistänyt brändiviestinnässään pilven ja big datan, eikä tuo tämän hetken valossa näytä hullummalta valinnalta:

Big data, vähittäiskauppa ja SAP

SAP julkisti Precision Retailing-nimisen ratkaisun, jonka tarkoituksena on auttaa parantamaan myyntiä niin verkkokaupoissa kuin myymälöissäkin. Julkistus on hyvä esimerkki pilvipalveluiden ja big datan yhteiskäytöstä kilpailuedun saavuttamiseksi. Analyysimoottorina SAP:N in-memory-ratkaisu HANA, jota Suomessa on pilotoinut mm. Nordea.

Hadoop-startupit

Hadoopin ympärille liikeideansa rakentaneita startup-yrityksiä on paljon ja lisää tulee jatkuvasti. Selvästi menestyksekkäin näyttää olevan mm. Logican kanssa äsken kumppanuussopimuksen tehnyt Cloudera (ainakin Google Trends -hakutulosten perusteella):

Data Driven Medicine 2013

Olen listannut tässä blogissa Suomessa pidettäviä big data -tilaisuuksia ja tässä jälleen yksi aihetta sivuava: Data Driven Medicine 2013. Samalla nimellä on tilaisuuksia järjestetty jo tänä ja viime vuonna. Nyt teemana on avoin data:

Oracle vs. SAP

Oraclen toimitusjohtaja nokitteli SAP:lle ja pääsi otsikoihin:

Apache-sponsoreista

Hadoop on Apache-projekti eli avointa lähdekoodia. Niinpä se on mukana suuressa osassa big data -tuotteita ja myös big data -palveluiden ekosysteemin keskiössä. Muutama päivä sitten kirjoitin siitä, miten Cloudera on näköjään Google-hauissa mitattuna ollut pitkällä aikavälillä (vuodesta 2004) ja myös lyhyellä tarkastelujaksolla (nousussa olevat) kiinnostavin Hadoopin ympärille liiketoimintansa rakentaneista startup-yrityksistä.

Kävijäennätys

Kuten kirjoitin perjantaina, oli viimeisimmän TiVi:n kansijuttuna big data. Se näkyi myös tällä sivustolla piikkinä ja eilen maanantaina oli kaikien aikojen kävijäennätys!

Big data muuttaa kaiken - kunhan osaajia löytyy

EMC:n Tucci toteaa, että big data-osaajista on huutava pula. Jos johonkin kannattaa opiskeluaikaa ja -rahaa laittaa, niin siihen. Ei ehkä ihan puolueettomasta lähteestä, mutta naulan kantaan kuitenkin. Big data tulee muuttamaan paljon.

Tässä video samasta aiheesta otsikolla "Big Data muuttaa kaikki toimialat":

Big data Marketvision blogissa ja Tietoviikossa

Nyt alkaa yhä enemmän löytymään myös suomenkielisistä blogeista big data -asiaa. Onhan näitä ollut vuoden mittaan useita, mutta frekvenssi on selvästi kasvanut. Tässä Marketvision Katriina Vallin kirjoitus aiheesta.

Tänään Big data -tietoisku

Tänään pidetään Paasitornissa Helsingissä Big data -tietoisku, järjestäjänä Ari Hovi Oy. Viimeksi tilaisuus järjestettiin keväällä samassa paikassa ja nyt uusituin materiaalein uudestaan sama teema. Vaikka puoli vuotta on lyhyt aika, niin tuntuu, että big data -tuotteissa ja -palveluissa on tapahtunut paljon.

Kolumni big datasta (Marjo Bruun)

Marjo Bruunin elokuun Tietoviikossa ilmestynyt kolumni big datasta löytyy nyt skannattuna Tietotekniikan liiton sivuilta täältä.

Google BigQuery paranee taas

Sain kutsun uuden ominaisuuden beta-testaajaksi, nyt vain pitäisi löytää aikaa testaamiseen... Tekeillä on uusi versio Ekonomisti-valmennuskurssien Opetuskoneesta, josta suuri osa toimii Googlen pilvipalveluiden, varsinkin App Enginen varassa.

Welcome to the Trusted Tester program for App Engine Datastore to BigQuery.

Datastrore on App Enginen käyttämä tietokanta ja sen ja BigQueryn yhdistämisellä analytiikkamahdollisuudet kasvavat huimasti.

Big Data Challenge

NASA julkisti kisan "Big Data Challenge", jossa tavoitteena on miettiä julkishallinnon tuottaman datan hyödyntämistä:

SAP: Big data hypeä vai ei

Siitä lienevät kaikki yhtä mieltä, että big datasta puhutaan ja kirjoitetaan nyt paljon. Onko kyseessä ohimenevä "hype" vai jotain enemmän, tätä pohditaan nyt SAP:n blogissa. Ja samaa on pohdittu aika monessa muussakin kirjoituksessa. Oikeaa vastaustahan ei tietenkään olekaan ja samalla tuossa markkinoidaan sivupalkissa SAP HANAa, joka on yksi big data -ilmiön alle luokitelluista tuotteista. Sama, jota Oraclen toimitusjohtaja mollasi suorituskyvyttömäksi hetki sitten.

Hadoop 2.02 Alpha

Hadoop-projekti lähestyy 2-version betavaihetta. Tällä viikolla julkaistiin versio 2.02 Alpha, jossa parannuksia HDFS HA (High Availability)- ja YARN-osioihin. Jälkimmäinen eli YARN pyrkii vapauttamaan Hadoopin MapReduce-riippuvuudesta eli tarjoamaan vaihtoehtoisia tapoja datan käsittelyyn. HDFS HA puolestaan tavoittelee yhden tämän hetken suuren ongelman poistamista HDFS:än liittyen (Hadoop Distributed File System eli Hadoop-klusterin tiedostojärjestelmä). Namenode-roolin saanut palvelin (node) on tällä hetkellä HDFS:n akilleen kantapää, joten hienoa, jos tuokin ongelma ratkaistaan.

SAP: Big data hehkutusta

Eilen kirjoitin SAP:n blogikirjoituksesta, jossa kysytään, onko big data pelkkä hype vai jotain enemmän. SAP:ltakin löytyy kuitenkin runsaasti materiaalia, joiden sävy on puhtaasti big data-positiivinen. Tässä hyvä esimerkki SAP HANA:n mainosmateriaaleista:

IBM: Big data hehkutusta

It's no longer a business initiave, it's business imperative.

Big data ASML:n blogissa

Big data ilmestyy teemana mitä erilaisempiin yhteyksiin, tällä kertaa bongaus osui Asiakkuusmarkkinointiliiton blogiin, jossa kirjoitus otsikolla Big data ei koskaan korvaa ajattelua. Sen perusviestin kanssa on helppo olla samaa mieltä: ei korvaakaan. Harvoin on mikään teknologia tai ilmiö korvannut mitään olennaista ja perustavanlaatuista ihmisen toimintaan liittyvää. Yhtä mieltä on oltava myös huomiosta liiketoimintaan liittyvän riskin säilymisestä:

Big data -konsultti?

Suomessa ei ihan tuolla tittelillä ole vielä haettu ketään, mutta muualla kyllä. Tässä muutama tuore esimerkki:

Big data -markkinoiden koko: Gartner

Forbesin sivuilla lainataan Gartnerin tuoretta arviota big data -markkinoiden koosta. Yläotsakkeen "Big Data IT Services Spending" ennustetaan seuraavaa:

Vieraskynä: Enreach

Tämä on ensimmäinen vieraskynä-kirjoitus tässä blogissa. Valokeilassa Enreach.

Enreach

Enreach tarjoaa julkaisijoille alustan kävijädatan keräämiseen, analysointiin sekä jalostamiseen mm. mainonnan tarpeisiin. Sovelluksemme sisältää työkalut display- kampanjoiden luomiseen ja optimointiin sekä raportointiin interaktiivisen dashboardin kautta.

Uusin HBR: teemana Big Data

Uusimmassa Harward Business Review-lehdessä on teemana mikäs muukaan kuin big data. Kohta jos joku ei vielä ole kuullutkaan käsitteestä, niin on elänyt mediapimennossa viimeisen vuoden. Vielä ei kuitenkaan Hesarin pääkirjoituksessa tai sunnuntaisivuilla ole ollut teemasta sanaakaan - tai ainakaan osunut kohdalle. Ensi vuonna ehkä.

HBR:n jutut ovat aihetta monipuolisesti lähestyviä:

Human Face of Big Data

Tästä kirjoitin jo aiemmin ja nyt projekti on edennyt jo lehdistötiedotteen asteelle.

Big dataa Pittsburghissa

Pittsburgh suunnittelee investoivansa seuraavan viiden vuoden aikana 100 milj.$ terveydenhuollon tietojärjestelmään, joka kuulostaa melkoiselta big data -miksaukselta:

SAP HANA pilvessä

Nyt myös SAP HANA löytyy Amazon Web Services Marketplace:sta. Tämä oli odotettavissa. HANA:n saa siis käyttöön alle dollarilla eli tuntihinnaksi on laitettu 0.99 $/tunti. Täällä Amazonin blogikirjoitus aiheesta. Hinta ei ole kynnys HANA:n testaamiselle:

Big data osaajapulasta

Muutaman sadan tuhannen osaajan tarpeesta yksistään Yhdysvalloissa kirjoitti McKinsey jo viime vuoden keväällä. Sama tarina on jatkunut pitkin vuotta, eikä laantumista näy. Osaajista kuuluu olevan pulaa, eikä helpotusta ole horisontissa.

Big data diplomityöpaikka

Aalto-yliopistossa on big data diplomityöpaikka.

ACIO projektissa on avoinna diplomityöpaikka ”Mega Data Center” (MDC) liiketoiminta teema-alueella. Aihe painottuu erittäin suurten palvelinkeskusten liiketoimintamallien ja edellytysten analysointiin tapaustutkimuksen kautta. Tutkimus on osa kansallista Big Data liiketoimintaedellytysten selvitystyötä.

40 % lisää dataa vuodessa

Näin toteaa Oraclen M. Hurd tässä haastattelussa. Kasvava datamäärä aiheuttaa budjettipaineita, eikä tuo tule helpottamaan lähivuosina (tai milloinkaan), koska datamäärät vain kasvavat kiihtyvällä tahdilla.

Big data on turha käsite?

Kyllä. Näin ennustaa mm. Gartner, todetaan WSJ:n blogissa.

Gartner Inc. says the hunt for business-relevant information tucked away in databases and social-media sites will drive $28 billion in information-technology spending this year and $34 billion in 2013. But the consulting firm also predicts the term "big data" will be obsolete by 2020.

Ei siis ihan vielä, mutta vuosikymmenen loppuun mennessä. Tarkoittaako tämä siis, että on turha edes seurata meneillään olevaa keskustelua, koska kyseessähän on ohimenevä hype? Ei.

Teradatan Big Analytics Appliance

Ja näitähän tulee: tällä kertaa Teradatalta. Ratkaisuna big data ongelmaan on tarjolla: Teradata Big Analytics Appliance. Ja Hadoop on tietenkin mukana paketissa:

Deeply integrated Aster and Apache Hadoop solution delivers fastest SQL and MapReduce analytics with unified system management.

Suorituskykylupaus on kova:

This appliance offers up to 19 times better data throughput and performs analytics up to 35 times faster than a typical off-the-shelf commodity bundle.

Teradata, Oracle, Hadoop, Hortonworks ja Cloudera

Teradatan Aster Big Analytics Appliancen uumenista löytyy Hadoop á la Hortonworks ja Oraclen Big Data Appliance taas nojaa Hadoopiin á la Cloudera. Mielenkiintoista nähdä kumpi noista Cloudera vai Hortonworks lopulta vetää pidemmän korren...

Huomenna Hadoop-workshop

Huomenna pidetään Helsingissä Ari Hovi Oy:n järjestämänä ensimmäinen Hadoop-workshop. Esimerkkeihin käytössä sekä virtuaalipalvelimille asennettu Hadoop, että Hadoop pilvipalveluna. Tämä on ensimmäinen laatuaan ja lisää on tulossa.

Hadoopista on tullut puhuttua useissa Big Data-aamiaistilaisuuksissa, -koulutuksissa ja -tietoiskuissa, mutta nyt siis ensi kertaa mahdollisuus demota myös käytännössä.

Hadoop-klusterit

Tänään toinen päivä Hadoop-workshopia. Uudelleenasennukset mukaan laskettuna on muutaman viime päivän aikana tullut asennettua ja konfiguroitua kaksinumeroinen määrä klustereita HBase-, Hive- ja muine sisarprojekteineen.

Google Compute Engine ja MapR Hadoop

Tuote- ja teknologialähtöistä otsikointia jälleen, mutta niin on asiakin: MarR kertoo rikkoneensa ns. "terasortin" ennätyksen käyttämällä omaa Hadoop-jakeluaan Googlen Compute Enginen päällä. Mikä Compute Engine? Googlen uusi IaaS-palvelu, joka kilpailee mm. Amazonin AWS EC2:n kanssa.

Dremelin innoittama Impala

Cloudera, tuo yksi tunnetuimmista Hadoop-taloista, on julkistanut Impalan, Googlen vuoden 2010 Dremel-paperin innoittaman Hadoop-projektin. Mielenkiintoista ja muistuttaa Hadoopin alkujuurista, jotka nekin ovat Googlen käsialaa. Innoittajanahan olivat alkujaan Googlen artikkelit GFS:stä (Googlen kehittämä ja käyttämä hajautettu tiedostojärjestelmä) ja MapReduce (sama siis, mitä Hadoopkin käyttää). Nyt innoittajana on Dremel ja julkistuskin suurin piirtein samalla viiveellä kuin Hadoopin ja noiden Googlen artikkeleiden kohdalla.

Big data -osaajapulasta

Tietoviikon sivuilla pohditaan tänään big data -osaajapulaa. Tätä povasi McKinsey paljon lainatussa raportissaan viime keväänä ja povaavat monet muutkin:

Microsoft ja Hortonworks

Microsoftin Hadoop pilvipalveluna (alustana Microsoft Windows Azure) kulkee nimellä Windows Azure HDInsight.

SAP etenee big data -markkinoilla

SAP HANA on saanut paljon näkyvyyttä viime aikoina ja nyt SAP laajentaa entisestään big data -tarjoomaansa:

The bundle layers SAP Sybase IQ server, SAP Data Integrator software and SAP Business Objects business-intelligence functionality atop HANA.

Ja yllätys, yllätys: mukana on myös Hadoop:

Sivut