Kuntasektori ja avoin data

Kunnat avaavat datavarantojaan

Tässä tuore esitys Tampereen alueen avoin datapilvi -projektista:

Loppuraportti täällä (PDF)

Big data -välineiden käyttövoima: rinnakkaisuus

Prosessorit riviin

Rinnakkaisuus on Hadoopin ydin ja niin myös monen muun big data -ratkaisun. Suuret datamäärät tarkoittavat väistämättä sitä, että yksittäinen fyysinen laite pärjää enää yhä harvemmassa käyttötarkoituksessa klusterille. Aivan kuten pivlipalveluiden kohdalla kouhkataan nyt ensin lokaaleista klustereista (vrt. yksityinen pilvi) ja pian yhä enemmän julkisten pilvipalveluiden tarjoamista todella massiviisen kokoluokan rinnakkaisuuteen perustuvista ratkaisuista kuten Google BigQuery.

Intel vahvisti liittoaan Clouderaan

Aikaisemmin kiertäneiden 90 miljoonan dollarin investointihuhujen päätteeksi Cloudera julkaisi lehdistötiedotteessaan rahoituskierroksen päätteeksi Intelin massiivisen 740 miljoonan dollarin sijoituksen Clouderaan. Tällä summalla yrityksestä irtosi 18% osuus ja yrityksen kokonaisarvostus kohosi yli neljään miljardiin dollariin.

Pääomasijoittajien investoinnit big data -yrityksiin

6.2 miljardia euroa sijoitettu 2008-2013

Itworld.com arvioi kokonaissijoitusten big data -yrityksiin olleen vuosina 2008-2013 yhteensä noin 6.2 mrd €. Luku on vain epätarkka arvio monestakin syystä: ensinnäkin on vaikea erottaa, mikä ylipäänsä on big data -sijoitus eli koska yritys on "big data -yritys" ja koska ei. Myös pääomasijoittajien sijoitusten tilastointi on vain suuntaa-antavaa.

Kultakuumeen kolumni (YLE): Big Data

Areenassa kuunneltavissa:

Big Data on nyt se Iso Juttu. Mistä on kysymys? Kysymys on tiedosta ja jälkien jättämisestä. Juha Hurme ison äärellä.

Kuuntele täällä

IT-alan tulevaisuus

Jyväskylän yliopisto julkaisi eilen selvityksen "IT -alan merkitys yhteiskunnassa ja tutkimus- ja innovaatiotoiminnan kehittäminen":

Big Data” is a new asset class with potential to revitalize the global economy and strengthen social cohesion. Broadband (especially mobile broadband) is the foundation to unlock this potential.

SAS: big data ja Hadoop

SAS:n video big datasta ja Hadoopista

SAS hehkuttaa SAS:n ja Hadoopin yhteiskäyttöä:

Hortonworks paketoi avoimen lähdekoodin Hadoopin uuteen versioon

100% avoimen lähdekoodin Hadoop-jakelun nimeen vannova Hortonworks on julkaissut jakelustaan uuden version, joka kulkee nimellä HDP 2.1. Uuteen versioon on paketoitu koko joukko uudistuksia, joilla taklataan suljetun lähdekoodin laajennusten tuomaa etumatkaa, jota muut Hadoop-toimijat ovat ainakin oman markkinointiviestintänsä mukaan saavuttaneet.

Data Collective

Pääomasijoittajat vainuavat potentiaalin

Data Collective sai 125 milj.$ lisää pääomaa sijoitettavaksi:

Big data and data science are so sexy right now that Data Collective just raised a new fund, to the tune of $125 million, to specifically invest in companies in that space.

While other VC firms have been creating funds dedicated to big data, Data Collective is focused full-time on investing in big data and data science companies.

Pivotal Big Data Suite, PBDS

Pivotal julkaisi Pivotal Big Data Suite -ratkaisun

Pivotal on yksi vakavasti otettavista big data -toimijoista, EMC:n ja VMWaren ratkaisuista koottu ja GE:n myös rahoittama. Nyt ulos tuli PBDS kovalla sloganilla: "Change the Economics of Big Data. Forever.". Eräajojen lisäksi luvataan tuki interaktiiviselle ja reaaliaikaiselle analytiikalle. MapReduce, SQL-on-Hadoop, In-memory analytics - kaikki löytyy. Tämä on se suunta, johon markkinat yleisemminkin kehittyvät tarkastellaan sitten minkä tahansa elinkelpoisen big data -yrityksen tarjoomaa.

Data

Mikä on olennaisesti muuttunut viime vuosina?

Keskeisin muutos piilee suhteessa dataan ja sen lunastamattomassa potentiaalissa. Moni voi saada nopeimmat voitot olemassa olevien tietovarantojen yhdistelemisestä ja tehokkaammasta hyödyntämisestä (esim. vähittäiskaupassa hajallaan olevat tietovarannot ovat jo markkinoinnin tehokkaan kohdentamisen näkökulmasta haaste).

Clouderalta uusi versio Hadoop-jakelusta

Hadoop-keskeisten ohjelmisoyritysten nousukiidon kärjessä oleva Cloudera julkaisi uuden version omasta jakelustaan, joka kulkee nyt nimellä Cloudera Enterprise 5. Jakelu on ollut saatavilla varhaisversiona jo jonkin aikaa, mutta on nyt yleisessä jaossa. Tuote saatellaan yleisölle varsin mahtipontisin sanoin.

Big data teollisuudelle

Rautaruukin Kimmo Kanerva kirjoittaa big datasta:

You hardly hear discussions about sales analytics or big data in the manufacturing industry. The only analytics in a wider scale is done to optimise monthly production capacities or to provide financial reports for analysts and stock holders.

Lue lisää

Teollinen internet

Industrial internet - se uudempi muotisana

Teollisesta internetistä on puhuttu paljon, mutta ihan big datan mittasuhteita ei huomio ole vielä saavuttamassa. Tässä Google-hakujen yleisyys:

Big
data
Teollinen
internet

Big datan käyttö -työryhmä

Big datan käytön pohdintaa Liikenne- ja viestintäministeriön vetämänä

Ivorio on mukana työryhmässä pohtimassa big datan käyttöä Suomessa ja yleisemminkin.

Työryhmän tehtävänä on luoda kokonaiskuvaa big datan tilanteesta Suomessa sekä tehdä ehdotuksia tarvittavista kehittämistoimista.

Tavoitteet:

Työryhmä valmistelee luonnoksen big data-strategiaksi kansallisina kehittämislinjauksina.Työryhmä tavoittelee sitä, että tietoaineistoja hyödynnetään paremmin yhteiskunnan eri sektoreilla.

Aidosti mobiili internet

Datan määrä ja monimuotoisuus kasvaa vauhdilla

Koekäyttöön on myyty 10 000 kpl Google Glass -nimellä tunnettuja älylaseja. Äskettäin Google julkisti Android Wear-käyttöjärjestelmän, joka on nimenomaan tarkoitettu erilaisille kannettaville verkkoon kytkettäville laitteille. Kellot ja silmälasit ovat tämän hetken tyypillisimpiä esimerkkejä. Muodikasta on liittää niiden eteen sana "Smart" tai etuliite "i".

Hadoop-alustan kyselykielten vertailua

Hadoop-ekosysteemi kehittyy valtavalla nooeudella. Viime vuoden kuumimpia kilpajuoksuja nähtiin "SQL-on-Hadoop" -teeman alla. Kisaan osallistuivat sekä Apache-projektit, kuten Shark/Spark ja kaupallisten toimijoiden omat ratkaisut, kuten Clouderan Impala. Myyntipuheissa jokainen oli luonnollisesti toistaan nopeampi ja edistyneempi.

Tiedätkö jo tämän akronyymin: IMDG

In Memory Data Grid eli muistivaraista analytiikkaa klusteroituna. Hadoop-maailmassa tämä on vuoden 2014 juttu siinä missä SQL-tuki oli vuoden 2013 kuuma peruna. Osalla mielikuvat Hadoopista laahaavat edelleen vuosien takaisessa "eräajoa kertaluonteisesti"- tai "sopii kyllä hyvin tiettyyn rajattuun käyttötarkoitukseen, mutta ei meille"-maailmassa.

AnalyticsPro -valmennusohjelma

Ivorio on mukana kehittämässä big data -osaamista Tampereella järjestettävässä AnalyticsPro-ohjelmassa.

Saranen Consulting järjestää 2014 keväältä syksyyn jatkuvan AnalyticsPro-täydennyskoulutusohjelman, jossa jo entuudestaan vahvan analytiikkataustan omaavia ammattilaisia valmennetaan edelleen kohti modernin analytiikan ja big datan vaatimaa erityisosaamista. Ivorio toimii yhtenä kouluttajista, tuoden valikoimaan big datan teorian ja teknologiat. Käsittelemme ilmiötä liiketoiminnallisena murroksena ja tietoteknisenä mahdollistajana.

Big data ja sen täydentäjät

Lisää seminaariaiheita!

Wired.com kirjoittaa big datasta ja muista datakäsitteistä. Big data on niin epämääräinen kattokäsite, että sille haetaan usein täydentäjiä.

Big data is an umbrella term. It encompasses everything from digital data to health data (including your DNA and genome) to the data collected from years and years of paperwork issued and filed by the government. And that’s just what it officially covers.

GE:n tietohallintojohtajan mietteitä

Yhden maailman suurimmista yrityksistä, General Electricin, tietohallintojohtaja Jim Fowler avasi InformationWeekin konferenssin avauspuheenvuorossaan yrityksensä näkemyksiä big datasta. GE:n mittavat investoinnit muun muassa Pivotaliin ovat toki antaneet suuntaa kiinnostuksesta aikaisemminkin. Nyt esitellyt esimerkit tulevat perusteollisuuden puolelta ja osuvat teollisen internetin käsitteen alle.

Millenium-palkinto tallennuskapasiteetin kehityksestä

Suomalaisen Tekniikan Akatemia -säätiön myöntämä miljoonan euron Millenium-palkinto menee tänä vuonna kiintolevyjen tallennuskapasiteetin kehityksen merkittävistä innovaatioista tunnetulle englantilaiselle Stuart Parkinille. Toimiessaan IBM:n tutkijana, Parkin kehitti kiintolevyjen lukupään teknologiaa GMR-tekniikkaa hyödyntäen ja avasi siten käytännössä uuden aikakauden tallennusmenetelmälle.

Big datan historia

Big datan lyhyt historia

Big datasta on puhuttu kiihtyvään tahtiin vuodesta 2011, vaikka käsite itsessään oli olemassa jo ennen sitä. Yllättäen datan eteen on joku etuliitteen "iso" laittanut jo aikoja sitten. Big datan kolmen V-kirjaimen malli tuli esitellyksi META Groupin toimesta vuonna 2005. Gartner osti META Groupin, joten nykyään V-kirjaimet liitetään usein Gartneriin.

Forbes on selvittänyt käsitteen historiaa vielä 2000-lukua kauemmas. Jo 1944 on Fremon Rider todennut seuraavaa:

Teradatalta uutuus big data -ohjelmistomarkkinaan

Teradata on julkaissut uuden sukupolven big data -tuotteensa, joka kulkee nimellä Teradata QueryGrid. Järjestelmän luvataan skaalautuvan ennennäkemättömällä tavalla yli datalähteiden ja prosessointimoottorien kasvavaa kirjoa hyväksikäyttäen. Tavoitteina on myös madaltaa teknologista oppimäärää, järjestelmän vastatessa SQL-komentoihin ja hoitaessa itsenäisesti suorituslogiikan optimoinnin.

Finanssiblogi pohtii big data -ekosysteemin tulevia kauppoja

Finanssilehti Barron's pohtii blogissaan big data -ohjelmistotalojen mahdollisia yrityskauppanäkymiä. Kirjoitus viittaa pörssiyritysten ostosuosituksiin ja viimeaikaisiin julkaisuihin ja nostaa tiettyjä toimijoita kiinnostavien ostokohteiden joukkoon.

Capgemini big datasta, osa 1

Aika toimia on nyt:

Omilla big datalle omistetuilla sivuillaan Capgemini on vahvasti kallelaan Pivotalin suuntaan. Pivotal on vuonna 2013 perustettu EMC:n ja VMWaren yhteisyritys, jossa rahoittajana teollisen internetin kummisetä General Elecctric runsaalla 100 milj. $.

Hadoop, kokeile itse!

Clouderan vetämä Hadoopin web-käyttöliittymäprojekti Hue tarjoaa maistiaisen Hadoopin käytöstä varsin helposti saataville. Huen blogissa julkaistu demoympäristö on vapaasti käytettävissä pienimuotoiseen testailuun. Se sisältää muutamia lähdedatajoukkoja ja niihin kohdistettuja esimerkkikyselyitä mm. Hivella ja Impalalla. Ja lisää luvataan blogikirjoituksessa.

Jos Hadoop kiinnostaa, mutta et ole vielä koskaan nähnyt mitään siitä käytännössä, tässä on helppo tapa ensitutustumiseen.

CapGemini big datasta, osa 2

Capgemini Application Landscape Report 2014

Capgeminin Capgemini Application Landscape Report 2014 -julkaisussa peräänkuulutetaan toimintaa.

ZDNetin kirjoitus muistuttaa big datan olevan muutakin kuin volyymia

ZDNetin Toby Wolpe on koonnut hyvän artikkelin, joka muistuttaa big datan perinteisen kolmen V:n määritelmän moniuloitteisuudesta. Usein keskitytään harhaan, jossa sana "big" ohjaa ajatukset datan suureen määrään. Volyymi on yksi kolmesta, mutta ei suinkaan ainoa peruste suurten laskentaklusterien tai Hadoopin käyttöönotolle. Artikkelin esimerkeissä mainitaan jälleen mm.

Spark osana MapR:n Hadoop-jakelua

Clouderalla tämä oli jo ja nyt myös MapR:llä eli Spark. Muistinvarainen analytiikka Hadoop-klusterilla on vuoden 2014 Hadoop-teema siinä missä SQL oli vuoden 2013 teema.

MapR is the latest Hadoop vendor to embrace Apache Spark, adding the entire Spark stack of technologies to its distribution. It’s a smart move by MapR, but just more validation that Spark might be the data-processing framework of the future.

Lue lisää

Muistinvaraista big dataa

Nopeus on valttia vuonna 2014

Ja tulevaisuudessakin. Hadoop-keskuteluissa nopeus ja siihen liittyen muistinvaraisuus ovat kuitenkin tämän vuoden teema. Toki osalla puhe on jämähtänyt versio ykköseen ja MapReduceen, mutta Hadoop-ekosysteemi kehittyy vauhdilla. Tähän iskevät nyt myös tuoreet startup-yritykset:

Startup-rahoituksesta big data -markkinoilla

Big data, kuten muutkin korkean huomioarvon saavuttaneet IT-trendit, sisältää valtavan potentiaalin uusien liiketoimintamahdollisuuksien löytämiselle ja niistä voittoja tavoittelevien yritysten perustamiselle. Vaikka IT-yrityksen voikin perustaa varsin pienellä pääomalla, tyyliin "mies ja läppäri", tulee kasvuhakuiselle toimijalle kuitenkin äkkiä vastaan rahoituksen tarve. Toimitilat, työntekijöiden palkkaukseen sisältyvä risk ja markkinointi ovat ensimmäisen vaiheen haasteita kassanhallinnalle.

R-ohjelmoinnin kysyntä kasvussa Yhdysvalloissa

R-ohjelmoinnin työmarkkina-arvo nousee

R-ohjemointi esiintyy yhä useammin osaamisvaatimuksissa työpaikkailmoittelussa näyttää Indeed.com:n trendikäyrä. Olemattomalta tasolta on viimeisen runsaan vuoden aikana hypätty näkyväksi trendiksi ja moni ennustaa suunnan olevan ylöspäin. R on yksi niistä työvälineistä, jota hyvän datatieteilijän (tai datatieteilijätiimin) työkalupakista löytyy.

Seuraava R-ohjelmointi ja Hadoop -koulutus Ivoriolla on toukokuussa ja nyt saatavilla myös verkkokurssi.

Big data ja seurakunta

Big data saarnojen kohdentamisessa

Tämän aamun Helsingin Sanomissa oli juttu big datasta, jossa kerrottiin seurakuntien big data -hankkeesta (massadata, iso data). Markkinatutkimuksella oli haastateltu 5 000 suomalaista noin 800 kysymyksellä ja yhdistetty tämä väestörekisteritietoon. Tämän informaation avulla pyritään lisäämään ymmärrystä kuulijakunnasta ja suunnittelemaan saarnat niin, että ne paremmin "uppoavat" alueelliseen kuulijakuntaan. Klassista segmentointia siis.

IBM:n big data VP:n mietteitä

Forbes julkaisi vierailevana kirjoittajanaan IBM:n big datasta vastaavan johtajan Inhi Cho Suh:n kirjoituksen, jossa korostetaan perusasioita, joiden myötä big datan aikakauteen siirtyminen helpottuu. Forbes on ollut big datan suhteen varsin aktiivinen toimija suurten verkkomedioiden joukossa, kirjoitusten sanoman ollessa pääsääntöisesti kannustava.

Suh listaa seuraavat askelmerkit, joihin organisaatioiden olisi syytä tarttua:

Hadoopissa tulevaisuus (Intel)

Intel investoi Hadoop-ekosysteemiin

Intel sijoitti lisää rahaa Clouderaan, joka tulee listautumaan Yhdysvalloissa. Intel myös uskoo Hadoopin olevan merkittävässä roolissä lähitulevaisuuden palvelinkeskuksissa:

Datastrategia, mitä sillä oikein tarkoitetaan?

Datan käsite epäselvä


Kuva: hoack / 123RF Stock Photo

Käsitteitä data, informaatio ja tieto käytetään usein synonyymeina, mikä luo hämmennystä. Data on "raaka"tietoa, informaatio rakenteistettua dataa ja tieto siitä jalostettua jotain ilmiötä kuvaavaa ymmärrystä, joka on johdettu informaatiosta. Neljäntenä tasona tulee sitten vielä tietämys (tai viisaus lähteestä riippuen). Tässä esimerkki erottelusta:

Big data ja terveydenhuolto

Todellinen SoTe-uudistus

Ennakoivasta huollosta puhutaan teollisuudessa paljon ja hyvä niin. Seuraamalla nosturin, laivan moottorin tai vaikka hissin toimintaa eri sensorien välityksellä ja liittämällä tuo mahdollisesti saatavilla olevaan dataan käyttöyhteydestä ja -tavoista, saadaan ennustetuksi esimerkiksi vikaantuminen ennen kuin se tapahtuu. Tässä säästetään kustannuksissa (korjaaminen ennen vian ilmenemistä on edullisempaa kuin sen ilmenemisen jälkeen) ja vältetään asiakaspettymykset (hissi jumissa, laiva satamassa, nosturi ei toimi).

IBM:ltä uuden sukupolven datapalvelimia

IBM on julkaissut uuden palvelinsarjan, nimeltään POWER8, jonka luvataan olevan vaatvassa dataprosessoinnissa jopa 50 kertaa nopeampi kuin perinteiset x86-sarjan palvelimet. Uudella palvelinsarjallaan IBM tukee strategiaansa, jossa analytiikka nähdään tulevaisuuden ratkaisevana kilpailuvalttina. Tehokkaat palvelimet yhdistettynä merkittäviin tuotekehityspanoksiin big datan käsittelyyn tarkoitetuissa ohjelmistoissa tuovat IBM:n tarjonnan entistä kokonaisvaltaisemmaksi.

Big datan V-kirjaimet

Big data ja 3 pientä V-kirjainta

Olipa kerran big data ja sen tunnetuin määritelmä oli META Groupin (sittemin Gartnerin) nimiin laitetut V-kirjaimet: Volume (Volyymi), Variety (Vaihtelevuus) ja Velocity (Vauhti). Niitä esiteltiin kaikissa seminaareissa, koulutukisssa, kokouksissa ja muissa tilaisuuksissa. Volyymi oli eniten esillä, viittaahan etuliite "big" siihen suoraan. Erottuakseen moni kuitenkin peräänkuulutti vaihtelevuutta ja vauhtia.

Valkoisen talon big data -selvityksen ennakointia

Valkoinen talo on tehnyt usean kuukauden mittaisen selvityksen big datan merkityksestä valtion tiedustelutoiminnassa ja sen vaikutuksista kansalaisten oikeusturvaan. Selvitys on luvattu julkaistavan tällä viikolla. Selvityksen vetäjä, John Podesta, on raottanut kuitenkin kommenteillaan jo hieman verhoa keskeisistä löydöksistä. Suurin esille jo nostettu huoli on riski syrjimisen lisääntymisestä.

IBM:n Watson valjastettu nyt terveydenhuollon tarpeisiin

IBM:n Jeopardy-visailun myötä tekniikkajulkkikseksi noussut Watson-järjestelmä on nyt ottamassa uusia askeleita käytännöllisemmillä areenoilla. Juuri julkaistun tiedotteen mukaan Watsonia pyritään hyödyntämään seuraavaksi terveydenhuollon haasteiden ratkaisemisessa. Järjestelmä on erityisen vahvoilla luonnollisten kielien tulkinnassa ja tuo siten poikkeuksellista uutta näkökulmaa analytiikkaan. IBM:n strategiassa korkealle nostetun kognitiivisen tietojenkäsittelyn ensiaskeleita on syytä seurata mielenkiinnolla.

Onko Hadoop big datan tulevaisuus?

Lähitulevaisuus kyllä

Hadoopia on hypetetty kiihtyvään tahtiin yhdessä big datan kanssa ja alan startup-yrityksiin laitetut satojen miljoonien dollarien sijoitukset (kärjessä Cloudera) ennustavat nousua. Tässä olisi ollut hyvä keihäänkärkiosaamisen kehittämisen paikka esim. vuonna 2008 vaikka Tekes-rahan turvin. Tai ihan ilman sitäkin. Onko big datan tulevaisuus sitten Hadoopissa? Lähitulevaisuus kyllä.

Cloudera ja MongoDB myyntiyhteistyöhön

Hadoop-jakelijoiden kärkinimi Cloudera yhdistää voimiaan NoSQL-tarjonnan johtavan toimijan MongoDB:n kanssa. Julkaistun strategisen yhteistyösopimuksen kautta asiakkaille pyritään tarjoamaan sekä kokonaisvaltaisempaa big datan käsittelyalustaa että tiiviimmän yhteistyön myötä kehittyviä teknisiä ratkaisuja alustojen yhdistämiseen.