Big data pelkkää hypeä?

Artikkelissaan "Big Data: Sorting Reality From The Hype" Steve Lohr ruotii big data-käsitettä. Sitaatti Forresterin raportista kiteyttää hyvin hypeajattelun vastaisen näkökulman:

Oracle Exalytics

Oracle julkisti muutama päivä sitten uuden tuotteen - Oracle Exalytics. Oraclen omin sanoin:

Big Data I/O Forum

Big Data I/O Forumin tarkoituksena on kerätä yhteen paikkaan aiheeseen liittyvää tietoa ja tarjota siten portaali uusimpaan tietoon:

The vision is to provide a Open Forum for end-users to discuss their Big Data applications and the bottlenecks created between processors, storage and networks.

Jäseninä foorumissa on liuta tuttuja nimiä.

Hadoop

Apache.org:n sivuilla määritellään Apache Hadoop seuraavasti:

The Apache Hadoop software library is a framework that allows for the distributed processing of large data sets across clusters of computers using a simple programming model.

Apache Hadoopin alaprojekteja ovat:

Hadoop Common (Hadoop Common includes FileSystem, RPC, and serialization libraries)

Oracle ja big data

Oracle panostaa big dataan markkinoinnissaan:

...behind the hype there's a simple story. For decades, companies have been making business decisions based on transactional data stored in relational databases. Beyond that critical data, however, is a potential treasure trove of less structured data: weblogs, social media, email, sensors, and photographs that can be mined for useful information.

NoSQL ja Hadoop ovat hiipineet myös Oraclen tarjoomaan.

Red Hat ja Gluster

Red Hat osti Glusterin (136 milj.$) ja lisää panostustaan big dataan:

"...explosion of big data and the new paradigm of cloud computing are converging, forcing IT to re-think storage investments that are cost-effective, manageable and scale for the future", CTO Red Hat (lisää aiheesta)

Pääomasijoittajista mm. Nexus Venture Partners kuittasi osansa ja Red Hat vahvisti jalansijaansa kasvavilla big data-markkinoilla.

IBM parantaa asemiaan big data-markkinoilla

IBM sai päätökseen yritysostonsa, jossa sen omistukseen siirtyy I2, joka tarjoaa massiivisten tietomäärien käsittelyyn ja analysointiin liittyviä palveluita:

Big data ja kustannukset

Forbesissa big dataa kustannusnäkökulmasta käsiteltiin artikkelissa "Does Big Data Analysis Always Require Big Money". Laskentakapasiteetista on tullut tai ainakin tulossa yhä vähemmän kriittinen tekijä samoin kuin tallennustilasta. Data on arvokkainta:

Horisontaalinen ja vertikaalinen big data

Yksi tapa lähestyä big datan käsitettä on jakaa se kahteen tyyppiin (Two Kinds of Big Data): horisontaaliseen ja vertikaaliseen.

Vertikaalista on data, joka on rakenteeltaan yhdenmukaista ja kuvaa yhtä ilmiötä. Esimerkiksi kaikkien Plussa- tai S-bonus-asiakkaiden ostohistoria viimeisen kymmenen vuoden ajalta (Walmart Semantic Webin-artikkelissa).

Cloudera ja Hadoop

Cloudera on yksi yrityksistä, joiden toiminta nojaa vahvasti Hadoopin ympärille. Maksullisten koulutusten lisäksi yrityksen nettisivuilta löytyy perustietoa Hadoopista ja hyviä videoita aiheesta.

Avoin data ja big data

Jotta dataa voisi analysoida, on sitä ensin saatava jostain. Organisaatioilla on itsellään kasvavat määrät tietoa asiakkaistaan, liiketapahtumistaan ja kaikesta, mikä liittyy organisaation toimintaan. Lisäksi julkisia datalähteitä löytyy yhä enemmän ja suuri osa niistä on maksutta käytettäviä (ns. avointa dataa). Tässä muutama esimerkki inspiraatiota herättelemään:

Big data pelkkää hypeä II?

DataStax julkaisi äskettäin raportin "Big Data: Beyond the Hype - Why Big Data Matters to You", jossa ruoditaan aihetta monesta näkökulmasta. Raportissa lainataa tutkimusyhtiö Forresterin tapaa jaotella (big) dataan liittyviä muutoksia:

IBM vahvistaa big data-asemiaan

IBM julkisti eilen, että se ostaa torontolaisen Platform Computing-nimisen yrityksen eli hankkii lisää muskeleita rinnakkaislaskennan (grid computing) saralla ja parantaa jälleen tarjoomaansa.

Platform Computing:n sivuilla on kerrottu mm. heidän Hadoop-toteutuksistaan.

Google App Engine

Google julkisti eilen PaaS-tarjoomastaan (Platform-as-a-Service, sovellusalusta palveluna) Google App Enginen SDK:sta version 1.5.5 ja mukana tuli huima määrä uudistuksia. Blogikirjoitus täällä. Vaikka Googlen liikevaihdosta ja osakkeen arvosta suurin osa perustuu mainostuloihin, niin ovat Googlen tarjoamat pilvipalvelut kiinnostavia ja niissä on paljon potentiaalia. Suomessa suhteellisen tuntematon App Engine on muuttumassa täysiveriseksi tuotteeksi tänä vuonna eli astumassa ulos ns.

Miten tunnistaa "oikea data"?

CapGeminin blogissa Simon James Gratton kirjoittaa tarpeesta ja menetelmistä tunnistaa oleellinen data epäoleellisesta ja siten säästää aikaa ja resursseja sekä parantaa analyysin tulosten laatua sekä käytettävyyttä.

...datan rakenteen, sisällön ja kontekstin ymmärtäminen vähentää turhaa "big datan" analysointia.

Haasteena on tunnistaa oleellinen vähemmän oleellisesta.

Microsoft Denali ja Hadoop

Microsoft julkisti muutama päivä sitten tietoja SQL Server 2012:n julkaisusta ja samalla ilmoitettiin, että mukana tulee Hadoop.

Microsoftin blogissa visioidaan seuraavaa:

Big datan aikakausi

McKinseyn artikkelissa "Are you ready for the era of 'big data'" pohditaan, mikä on big datan vaikutus kilpailuun ja lähestytään aihetta viiden kysymyksen kautta, joita ylimmän johdon tulisi kysyä itseltään (vapaasti suomennettuina):

Big data ei vain isoille yrityksille

Suuren datamäärän käsite on suhteellinen. Eilen se oli teratavu, tänään petatavu ja huomenna eksatavu. Esimerkit, joita suurten datamäärien yhteydessä mainitaan ovat usein suuria yrityksiä: Facebook, IBM, Microsoft, Google jne.

Big data ja konsulttitoimistot

Big data on ollut mukana konsulttipuheessa jo jonkun aikaa ja markkinointimateriaalissa käsite esiintyy yhä tihemmäin. Tässä muutamia esimerkkejä linkkeineen:

PriceWaterhouseCoopers

PriceWaterhouseCoopers: "Making sense of Big Data", Technologyforecast 3/2010

Booz Allen Hamilton

Booz Allen Hamilton: Big Data: Advancing the Art of Analytics

Big data näkyy markkinoinnissa

Big data on lunastanut paikkansa yritysten markkinointimateriaaleissa. Tässä muutamia esimerkkejä:

IBM

IBM brings big data to the Enterprise

HP

HP:n sivuilla (www.hp.com) ei big dataa ole listattu omaksi teknologiaratkaisujen kategoriakseen:

Big data-markkinoiden kiinnostavimpia kasvualueita

TDWI (The Data Warehousing Institute) teki tutkimuksen, jossa suurelta osin yhdysvaltalaiset yrityspäättäjät kertoivat näkemyksiään big datasta. Kiinnostavimmiksi kasvualueiksi nimettiin seuraavat (ulottuvuuksilla yrityksen sitoutuneisuus ja kasvupotentiaali):

Big data ja NoSQL

NoSQL (Not only SQL) on käsite, joka esiintyy tiheästi big data-keskusteluissa. Usein samassa yhteydessä esiintyviä nimiä ovat:

Top 10 vuoden 2012 strategista teknologiaa

Gartner listasi äskettäin vuoden 2012 kymmenen mielestään strategisinta teknologiaa ja ei yllättäne, että big data oli yksi niistä:

Big Data, Big Decisions, Big Impact

Viime viikolla pidetyssä Web 2.0 Summit:ssa kuvattu haastattelu, jossa Dellin toimitusjohtaja/perustaja Michael Dell kertoo ajatuksiaan big datasta:

Aivan kuten jokainen merkittävä peluri markkinoilla, myös Dell panostaa big data-markkinoihin:

Big Data 'The Big Business'

New York Timesin blogissa puhuttiin eilen big datasta.

Is Big Data a Bubble?
In case you’re in a hurry: Of course it is. And that is good.

Puheen tasolla big datassa mennään edellä monien yritysten todellisuutta, aivan kuten pilvipalveluissa, mutta potentiaalia on, paljon ja se on todellista.

Big Data is clearly big business, adding a new level of certainty to business decisions, and promoting new discoveries about nature and society.

Big data analytiikkamarkkinat

Datan määrä kasvaa maailmassa 5 %:n kuukausivauhdilla tai 40 %:n vuosivauhdilla lähteestä riippuen. Kasvaa kuitenkin ja nopeasti. Kasvavat markkinat houkuttavat yhä uusi yrittäjiä ja olemassa oleviakin löytyy jo liuta.

Videossa esitellyiksi tulevat: