Big data ja terveydenhuolto

Datan avulla haetaan parannuskeinoja sairauksiin

Flatiron Health on muutaman vuoden ikäinen yritys Yhdysvalloista, mutta hyvä esimerkki meneillään olevasta datavallankumouksesta terveydenhuollossa(kin). Tavoite on kunnianhimoinen: löytää parannuskeino syöpään. Googlen sijoitusrahasto uskoo yritykseen runsaan 100 milj.$ verran jo nyt.

Pivotal tukemaan Ambaria

Hortonworksin panostukset Apache-säätiön hallinnoimaan Hadoop-hallintakonsoli Ambariin saavat voimakkaan tuen Pivotalin ilmoittautuessa mukaan kehitysyhteistyöhön. Monella Hadoop-toimijalla on ollut erottautumistekijänään Hadoop-klusterin hallintaa ja monitorointia helpottavat hallintatyökalut, mutta avoimen lähdekoodin Ambari on kirinyt etumatkaa, tarjoten jälleen yhden komponentin suoraan open source -yhteisöltä.

 

Amazonin big data -blogi

Amazon on pilvipalveluiden jättiläinen, monella mittarilla markkinajohtaja. Uutena blogikategoriana Amazon avasi kesällä Big data -blogin.

The topic of big data comes up almost every time I meet with current or potential AWS customers. They want to store, process, and extract meaning from data sets that seemingly grow in size with every meeting.

Big data -koulutuksen kehittäminen saa rahaa

Big dataan panostetaan

big data koulutus

Osaajapulaa on povattu ilmiön alkupäivistä alkaen, tunnetuin ehkä keväällä 2011 McKinseyn raportissaan esittämä satojen tuhansien osaajien vaje yksistään Yhdysvalloissa. Asialle myös tehdään jotain eli koulutuspuolella panostetaan big data -osaamisen kehittämiseen. Rahoitusta ovat saaneet niin yliopistot kuin ammattikorkeakoulutkin:

Tunnetko big datan roolin strategiassasi?

Moni yritys näkee big datan olevan osa heidän strategiaansa. Tai ainakin pyrkii määrittelemään sitä hyvää vauhtia. John Weathington pohtii aihetta TechRepublicin artikkelissa seuraavankaltaisella kolmijaolla.

Pilven tarina rakentuu big datan ympärille

Datastahan tietotekniikassa on kyse ja pilvipalvelut puolestaan ovat tietotekniikan palvelullistamista, joten ihmekös tuo. Big data on muodostumassa punaiseksi langaksi pilviekosysteemien kilpailussa. Amazon esittää näppärästi, kuin AWS:n alta löytyvät palvelut palvelevat (big) datan haltuunoton, tallentamisen ja hyödyntämisen eri kerroksia. Mainituiksi tulevat ihan ensimmäiset palvelus (S3 vuodelta 2006, EC2 vuodelta 2007) ja uutuudet kuten Redshift ja Kinesis.

Nousevat big data -yritykset

CRN listaa artikkelissaan vuoden 2014 nousevat big data -yritykset. Joukko koostuu pääasiassa piilaakson toimijoista, ja todella monen taustalta löytyy tuttuja suurempia big datan pioneeriyrityksiä. Sikäläinen trendi tuntuukin olevan vahvasti sellainen, että johtavassa asemassa menestyneessä datayrityksessä toiminut henkilö saa helposti taakseen riskisijoittajia. 80 yrityksen listalle päätyi kuitenkin ilahduttavasti myös joitain ei-yhdysvaltalaisia toimijoita.

Big data -strategia tuloillaan

Big datan käyttö -työryhmä

Keväällä ja alkukesästä 2014 hiottiin big data -strategiaa Suomelle LVM:n johdolla.

Liikenne- ja viestintäministeriön asettama Big datan käyttö-työryhmä valmistelee big datan hyödyntämistä ja kehittämistä edistäviä toimia. Työryhmä valmistelee luonnoksen kansalliseksi big data-strategiaksi.

Ennustava analytiikka halutuinta

Deloitten johtava analyytikko John Lucker korosti TechRepublicin haastattelussa usein toistettua, mutta tärkeää näkökulmaa. Yritysten johto kaipaa (big data) analytiikkatiimiltään vastauksia tulevaisuutta koskeviin kysymyksiin huomattavasti enemmän kuin tarkkoja raportteja tapahtuneista. Ennustava analytiikka on ollut puheissa jo pitkään, mutta sen toteuttaminen todella yrityksen toimintaa ohjaavalle tasolle on vielä monella organisaatiolla kesken.

Hadoop SQL-ratkaisuja riittää

Valinnanvaikeutta Hadoop SQL-ratkaisuissa

Vuoden 2013 Hadoop-teema oli SQL:n käyttö kyselyiden tekemisessä, eikä aihe ole suinkaan vaipunut unholaan tänäkään vuonna - päinvastoin. Vaihtoehdoista on runsaudenpulaa:

Google Mesa

Googlen paperit tiedostojärjestelmästään (GFS, v. 2003) ja tietojenkäsittelymallistaan (MapReduce, v. 2004) innoittivat Hadoop-projektin (aloitettu v. 2006). Google itse on siirtynyt noista jo eteenpäin ja paljastanut jotain omista tekemisistään projektinimillä Dremel (innoitti mm. Drillin ja Impalan), Flume ja Millwheel (Googlen uusi pilvipalvelu Dataflow nojaa näihin) sekä nyt uutena Mesa.

Clouderan historiaa

Johtava Hadoop-jakelija Cloudera on vasta kuusivuotias, mutta big datan markkinassa jo kokenut konkari. TechRepublicin haastattelussa toimitusjohtaja Mike Olson avaa hieman toiminnan historiaa ja keskeisiä tapahtumia matkan varrelta. Olson korostaa myös oikeaan osuneita valintoja, joiden avulla Cloudera on edelleen piikkipaikalla kasvavan kiinnostuksen kohteena olevassa ja kuumassa big data -markkinassa.

Microsoft Social Listening

Kesän aikana tuli paljon uutta ja yksi saataville tullut uutuus on Microsoft Social Listening SoMe-datan haltuunottoon:

As part of our spring wave of releases, I am incredibly excited to announce the availability of Microsoft Social Listening. This powerful tool will enable your people to tap directly into the social conversation so your customer-facing employees can create amazing customer experiences.

Hadoop-jakeluja tarjoavat yritykset kasvavat vauhdilla

Työntekijämäärä nopeassa kasvussa

Rahoituskierrosten tuloksista on tässäkin blogissa kirjoitettu tiuhaan, sen verran usein ovat Cloudera, Hortonworks ja MapR saaneet uutta pääomaa pääomasijoittajilta sekä IT-alan jäteiltä (esim. Cloudera Inteliltä ja Hortonworks HP:ltä). Kasvu on nopeaa myös työntekijämäärän kasvulla mitattuna. Tässä kolmen tunnetuimman Hadoop-jakelun työntekijämäärät vuodelta 2013 ja 2014 LinkedIn-tilin omistavien osalta. Kaikilla työntekijöillähän tuota ei välttämättä ole, mutta suhteellisista asemista ja kasvunopeuksista tuo antaa kohtuullisen tarkan kuvan:

Inspiraatiota visualisointiin

Visualisointi on yksi big data -ilmiön kulmakiviä. Massiiviseen dataan pureutuminen johtaa usein varsin kompleksisiin tuloksiin ja niiden esittely asiakasryhmille saattaa käydä monesti hankalaksi. Tulosten visualisoinnin keskeinen merkitys on luonut lyhyessä ajassa useita merkittäviä ja kiinnostavia yrityksiä, kuten Tableau, Qlikview ja Bime Analytics. Viestin vieminen perille onkin yhä helpompaa ja vakuuttavampaa näiden uusien tuotteiden ja palveluiden myötä. Jos siis osaa asiansa..

GE:n ja Pivotalin yhteistyöjulkistus

Teollisen internetin tutuksi tehnyt GE ilmoitti uudesta yhteistyösopimuksesta Pivotalin kanssa. Pivotalin perustusvaiheessa (EMC:n pääosin omistama) GE investoi Pivotaliin yli 100 milj.$ eli yllätys yhteistyö ei ole.

In collaboration with Pivotal, breakthrough data architecture drives unprecedented efficiency and cost savings for airlines, railroads, hospitals and utilities.

Big and fast data is a critical piece of how modern industry is reinventing itself in order to innovate and compete.

Cisco ja Hadoop pilvipalveluna

Cisco julkisti oman mallinsa Hadoop-pilvipalvelulle:

Today, we are announcing the availability of Cisco Validated Design for HaaS with Cisco UCS Common Platform Architecture (CPA v2) for Big Data. The solution uses Hortonworks Data Platform and Canonical OpenStack Platform on Cisco UCS CPA v2 for Big Data. The objective of the CVD is to provide step by step instructions that help ensure fast, reliable, and predictable deployments should a customer decide that the time is right to virtualize Hadoop.

Big data -viitekehys

B. Marr kirjoittaa big datasta viitekehysnäkökulmasta otsikolla "The 4 Layers Everyone Must Know":

the 4 key layers of a big data system - i.e. the different stages the data itself has to pass through on its journey from raw statistic or snippet of unstructured data (for example, social media post) to actionable insight

The whole point of a big data strategy is to develop a system which moves data along this path.

Lue lisää

Nyt jo big data 2.0?

Jälleen uusi yhdysvaltalais-startup, Adatao, ilmoittaa haalineensa miljoonia (tässä tapauksessa 13) dollareita big datan liiketoimintansa kiihdyttämiseen. Forbesin lyhyessä haastattelussa he kuvaavat olevansa toimija big datan vaiheessa 2.0. Heidän määritelmänsä kuvaa big data 1.0:n olevan kahtiajakautunut markkina datan murskaamisen ja tulosten visualisoinnin alueilla.

Hadoop-yritykset keränneet yli miljardin rahoitusta

Cloudera, Hortonworks ja MapR vauhdissa

Hadoop-markkinat kasvavat nopeasti ja samassa tahdissa alan kärkiyritykset keräävät rahoitusta. Puhtaasti Hadoopiin keskittyneet Cloudera, Hortonworks ja MapR ovat keränneet reilusti yli miljardin dollarin pääomasijoituspotin toimintavuosiensa aikana. Seuraavana odotettavissa listautumisia ja yrityskauppoja.

Ambarin kehitys tukena Hadoopin omaksumiselle

Hiljattain julkaistu Pivotalin ja Hortonworksin yhteistyösopimus Apache Ambarin kehittämisessä Hadoop-klusterin de facto -hallintaympäristöksi on saanut paljon huomiota. E-Commerce Times kirjoittaa analyysissään tämän julkistuksen olevan kaikessa tylsyydessään merkittävä askel Hadoopin omaksumisessa keskeiseksi komponentiksi suuryritysten kokonaisarkkitehtuureissa. Artikkelissa korostetaan historiassa nähdyn useita hyviä ohjelmistoja, joiden nousukiito on pysähtynyt luotettavan ja tehokkaan hallintamallin puutteeseen.

Big data -strategia

Keväällä 2014 käynnistettiin Liikenne- ja viestintäministeriön vetämä big datan käyttö -työryhmä, jonka tavoitteena oli luoda ehdotus kansalliseksi big data strategiaksi ja sen toteuttamisen alustavia toimenpiteitä. Työryhmä rakentui ministeriöiden edustajista, suurista ja pienistä yrityksistä sekä oppilaitosten ja rahoittajatahojen asiantuntijoista. Näkökulmia oli monta ja keskustelu luonnollisesti vilkasta. Yhteistä näkemystä tarkennettiin työpajoissa ja osallistujat toivat kukin omalta erityisalaltaan panosta itse strategiaraportin tuottamiseen

Big data pilvipalveluna: AWS

Pilvipalveluiden ekosysteemit rakentuneet vauhdilla

Pilvipalveluilmiön alussa vuosina 2007-2009 puhuttiin paljon hypestä ja jopa kuplasta. Nyt on jo selvää, että kyse on kestävämmästä ja perustavanlaatuisesta muutoksesta.

Speaking at OracleWorld, CEO Larry Ellison says the computer industry is more fashion-driven than women's fashion and cloud computing is simply the latest fashion.

Lue lisää

Akateemikosta data scientistiksi?

Big data on poikinut uusia ammattinimikkeitä, joista tunnetuin on datatieteilijä, data scientist. Tässä roolissa yhdistyy vahva osaaminen tilastomatematiikassa, ohjelmoinnissa ja liiketoiminnan kysymysten toteuttamisessa algoritmeina. Vieläpä kansantajuisesti tekemisen selittäen. Jo pidempään on tuskailtu sen kanssa, että nämä saappaat täyttäviä henkilöitä ei yksinkertaisesti löydy kaikille halukkaille. Osaamisvajetta on lähdetty paikkaamaan tiimein, joissa vaaditut osaamiset löytyvät useilta henkilöiltä ja niputetaan vahvalla yhteistyöllä.

ETLAnow

Big data -mediahuomiosta kilpaili eilen LVM:n big data -strategian kanssa ETLA:n tiedotustilaisuus, jossa esiteltiin ETLAnow:

ETLAnow on Elinkeinoelämän tutkimuslaitoksessa käynnissä oleva kokeilu, jossa hyödynnetään uusia Big Data -tietomassoja ennustekäytössä. Tällä hetkellä on tehtynä ensimmäinen työttömyyden ennustamiseen liittyvä kokeilu

Lue lisää

R-ohjelmointi ja big data

Big data -yritykset innostuneita R-ohjelmoinnista

Niin listautuneet isommat kuin toistaiseksi listautumattot pienemmät big data -yritykset ovat innostuneita R-ohjelmointikielestä. Sitä pidetään yhtenä kypsimmistä ja monipuolisimmista tavoista lähestyä ja analysoida eri tyyppistä dataa. R on avointa lähdekoodia eli ilmainen ja yhteisö on tähän päivään mennessä tuottanut reilusi yli 6 000 erilaista pakettia (laajennnosta), joten valmiita funktioita eri käyttötarkoituksiin on tarjolla jo yli 100 000.

Tässä muutama esimerkki R-innostuksesta:

Uusia verkkokursseja

Ivorio julkaisi uusia verkkokursseja

Hadoop-verkkokurssin lisäksi tarjolla ovat nyt myös big data -ilmöön yleisemmin pureutuva big data -verkkokurssi sekä R-ohjelmoinnin esittelevä R-ohjelmoinnin -verkkokurssi. Osaajapula on akuutti ja sen ennustetaan pahenevan, joten tarvetta tiedolle on.


Big data -verkkokurssi

Tietokanta pilvipalveluna eli DaaS

Database-as-a-Service markkinat ylittivät viime vuonna puolen miljardin dollarin rajan globaalisti (lähde) ja kasvu vain jatkuu. Julkistuksia on viime vuosina tullut tiuhaan ja nyt mukana on jo suuri osa IT-jäteistä.

HadoopOps pian työilmoituksissa

Big data -ilmiön suurimpana hidasteena on monesti nähty osaamispula. Valtavien ja kompleksisten tietomassojen prosessoiminen ja tulosten integroiminen jokapäiväiseen päätöksentekoon on vaatinut muutoksia ajatustavassa, prosesseissa ja teknologioissa. Tarkasteltaessa dataa totuttujen lähteiden ja tarkkuustasojen ulkopuolelta, on liiketoiminnan syvällinen ymmärrys ollut testissä. Kompleksisuuden lisääntyessä algoritmikehityksen ja matematiikan taidot ovat joutuneet koetukselle.

Big data ja Parkinsonin tauti

Intel ja Michael J Fox Foundation eli MJFF edistävät yhdessä monipuolisia data-aineistoja ja big data -teknologiaan (Clouderan Hadoop-jakelu yms.) hyödyntäen Parkinsonin taudin tutkimusta ja hoitoa.

Big datan tulevaisuus

Big data on (pian) arkipäivää

Isa.org:n sivuilla GE:n Brian Courtney kirjoittaa big datan tulevaisuudesta valoisasti:

We have come a long way from dumping information into databases never to be seen or heard from again, but we still have a long way to go.

Näkymättömät sensorit

Esineiden internet (Internet of Things, IoT) on yleisnimikkeenä sensoriteknologiaa sisältäville laitteille ja esineille. Sitä pidetään yhtenä big data -ilmiön tulevaisuuden vauhdittajista ja askeleena kohti yhä verkottuneempaa ja digitaalisempaa maailmaa. Viime vuosina esineiden internet on ottanut vankimpia ensiaskeleitaan kuluttajamarkkinoilla, oman kehon ja elintoimintojen mittaamisen alueella. Innostus on levinnyt perinteisten sykemittarien vanavedessä GPS-paikantamisen kautta yhä mielikuvituksellisempiin oman toiminnan mittaamisen välineisiin.

MapR kertoo Hadoop-jakelunsa roolista datanhallinnassa

Hadoopin rooli

M.C. Srivas MapR:stä kertoo heidän Hadoop-jakelunsa (ja samalla myös yleisemmin Hadoopin) roolista datanhallinnassa suhteutettuna muihin tallennusvaihtoehtoihin.

Big data ja IoT Gartnerin hypekuvaajalla 2014

Big data, monessa muodossaan, voi hyvin Gartnerin hypekuvaajalla 2014. Viime viikolla julkistettu kuvaaja sisältää useita big dataan läheisesti liittyviä ilmiöitä ja käyrän lakipisteessä komeilee Internet of Things, esineiden internet. Aiheiden erottaminen on jokseenkin keinotekoista, mutta kenties Gartner tavoitteleekin sillä suuren megatrendin pilkkomista eri vaiheissa korostuviin ilmiöihin. Esineiden internet on osa big data ilmiötä ja toimii itse edelleen kattokäsitteenä suosiota vahvasti kasvattavalle teolliselle internetille.

Hadoop-osaajat kiven alla

Osaajapulaa big datan yhteydessä on toitotettu jo kauan. Tunnetuin julistus on McKinseyn keväällä 2011 julkistama 140 000-190 000 osaajan vaje Yhdysvalloissa. Tuoreempi ja konkreettisempi on äskettäin mm. Computerworldissa noteerattu selvitys:

Technology professionals with strong skills in Apache Hadoop are among the hardest to find. In fact, demand for people with Hadoop expertise has skyrocketed 34% since last year, according to Wanted Analytics, a research firm specializing in the labor market.

Esineiden internet, lyhyt historia

Gartnerin hypekuvaajan huipulle noussut esineiden internet, Internet of Things (IoT) on nyt luonnollisesti puheenaiheena kuumempi kuin koskaan. Aiheeseen perehtymättömien kannattaa lukaista Forbesin blogista lyhyt historia, jotta keskusteluissa pysyy mukana. Aihe sinänsä on varsin laveasti määritelty, joten innovaatiolle riittää vielä hyvin tilaa ja keskusteluissakin on varaa leikitellä futuristisilla ajatuksilla.

SAP Big data -kiertue

Ohjelmistoyhtiö SAP tuo SAP Big Data Truck Tour -rekka-autokiertueen Suomeen syyskuun alussa. Yhtiö esittelee kiertueella, kuinka organisaatiot ovat hyödyntäneet big dataa toiminnassaan eri tavoin. SAP on kerännyt yhteen toimialojen parhaimpia big data case-tarinoita muun muassa urheilun, vähittäiskaupan, kuljetuksen ja kaupunkisuunnittelun alueilta.

Lue lisää

Kiertueen pysähdyspaikat Suomessa:

Hadoop ja SAS

Hadoop-ekosysteemi kasvaa jatkuvasti

Hadoop on kehittynyt huimasti viimeisen kahden vuoden aikana ja edelleen tiukassa istuva mielikuva, jossa Hadoop on sama asia kuin MapReduce ja sopii siten hyvin vain tiettyihin rajattuihin käyttötarkoituksiin, on auttamattoman vanhentunut. Tuoreessa blogikirjoituksessaan SAS:n ja Hortonworksin yhteistyöstä tuodaan hyvin esille tätä näkökulmaa:

Big dataan siirtymisessä kitkaa vielä globaalistikin

Suomessa keskustelu big datan ja nykyaikaisten tiedolla johtamisen ja analytiikan ratkaisujen käyttöönotosta on alkanut saada sävyjä, joissa toimeen ryhtymiseen kannustetaan yhä kiivaammin. Tutkimukset niin meillä kuin muuallakin ovat osoittaneet yritysten kiinnostuksen big dataa kohtaan kasvaneen hurjasti viime vuosina, mutta samaan aikaan konkreettiset ratkaisujen käyttöönotot ja niiden kautta saavutettu potentiaali loistavat poissaolollaan. Datan vallankumous on osoittautunut vaikeammaksi kuin visioissa on odotettu.

Kohti brontotavua

Datan määrä kasvaa

Tätä datan volyymipuolta on ihmetelty jo pitkään ja se on ehkä se tunnetuin ja myös puhutuin ulottuvuus big datassa. Ja kasvaahan se, datan määrä nimittäin. IDC:n mukaan kehitys on tällä vuosikymmenellä seuraava:

2011 - 1,8 zettatavua

2014 - 4,4, zettatauva

2020 - 44 zettatavua

Jos käyttää kasvuprosenttina noiden ajanjaksojen 2011-2014 ja 2014-2020 keskiarvoa, niin lähitulevaisuus näyttää tältä logaritmisella asteikolla:

Hyvä esimerkki uusista osaamisvaatimuksista

F-Secure hakee big data -osaajaa

F-Securella on haussa "Lead Software Engineer, Big data" ja osaamisvaatimusten lista on hyvä esimerkki niistä osaamisvaatimuksista, joita pian yhä useammalta odotetaan: pilvipalveluiden ja big datan tuntemusta:

We are now looking for a Big Data Lead Software Engineer to join the growing Big Data team...

Tuotebisnes, palvelubisnes ja nyt: databisnes

Liiketoimintaa datasta

Siirtymä tuotekeskeisyydestä palveluliiketoimintaan puhututti paljon ja varmasti moni on kuullut, että esimerkiksi Kone Oyj tekee suurimman osan liikevaihdostaan palveluilla. Palvelullistuminen on monipuolistanut liiketoimintaa ja tuottaa tasaisen tulovirran sielläkin, missä asiakkaiden ostokertojen väli on pitkä. Lisäksi palveluiden kate saattaa olla kilpailtujen tuotemarkkinoiden katteita parempi.

Big, bad big data?

Big datasta puhuminen ja kirjoittelu on paitsi ajankohtaista, niin myös ilmeisen muodikasta. Moni tarttuu kuitenkin tarpeettoman helposti huomiohakuisiin ja skandaalinkäryisiin otsikoihin ja luettelee sitten parhaaksi katsomiaan ja varsin koluttuja kliseitä big datan vaaroista ja ylimitoitetusta hypestä. Huomiota, lukijoita ja jopa varovaista tykkäilyä näillä kyllä saa, mutta pääosin asiaan perehtymättömien joukossa.

Helsingin yliopisto ja datatiede

Helsingin yliopiston tietojenkäsittelytieteen laitos käynnistää syksyllä 2014 englanninkielisen datatieteen maisterikoulutuksen. Suurten tietovarantojen käsittelyyn ja analysointiin keskittyvä koulutussuuntaus tulee tarpeeseen. Markkinat kasvavat nopeasti ja osaajista on keihäänkärkiteknologioiden osalta pulaa globaalisti.

Uusi datatieteen maisteriohjelma on Helsingin yliopiston opiskelijoiden hyödynnettävissä heti ensi viikosta lähtien lukuvuoden 2014-2015 käynnistyessä. Opetuskielenä on englanti.

Cosmos, Microsoftin vastaus big datan pilvirintamalla?

Osa meistä lienee ihmetellyt, missä on Microsoftin vastaus Googlen BigQuerylle, tai jopa IBM:n Watsonille. Myös ZDNetin pitkän linjan Microsoft-asiantuntija Mary Jo Foley on pohtinut aihetta, ja mennyt jopa kysymään asiasta Microsoftilta. Toki paljon arvailujen varaan nojaavassa artikkelissaan Foley nostaa esiin Microsoftin sisäisen tiedonhallinnan ja -louhinnan välineen, joka kulkee nimellä Cosmos.