Netflix big data -esimerkkinä

Netflix on tuttu nimi big data maailmassa. Se käsittelee valtavia datamassoja, tekee niiden perusteella suosituksia asiakkailleen eli katsojille ja jopa tuotekehittää datavetoisesti uusia tv-sarjoja. Pilvipalvelut näyttelevät Netflixin tarinassa merkittävää roolia. Amazonin S3 on datavaraston sydän:

Netflix leverages Amazon’s Simple Storage Service (S3) as the “source of truth” for all data warehousing

Lue lisää

Hortonworksin webinaarisarjasta Hadoop-tietoutta

Yksi merkittävimmistä Hadoop-jakelijoista, Hortonworks, järjestää lokakuussa sarjan webinaareja, joissa käydään läpi ekosysteemin ajankohtaisia ilmiöitä. Kannattaa tutustua, ja rekisteröityä omalta kannalta kiinnostavimpiin osoitteessa http://hortonworks.com/webinars/.

Aiheita mm.

Tähtitieteellisiä määriä dataa

Big data -ilmiö on jatkumoa ihmisen uteliaisuudelle, ja siten kasvavalle kiinnostukselle dataa kohtaan. Tiedon keräämisen menetelmien kehittyessä, kasvaa myös kerättävän aineiston määrä. Wikipediasta tuttu esimerkki CERNin hiukkaskiihdyttimestä, jonka kaiken datan kerääminen tuplaisi ihmiskunnan datamäärän muutamissa päivissä, saa arvoisensa haastajan vuonna 2018 alkavasta SKA (Square Kilometre Array) -teleskooppiprojektista.

Kilpailu visualisointimarkkinoista kiihtyy

Viimeisin 17 miljoonan dollarin rahoituskierros nostaa visualisointimarkkinaan jälleen uuden toimijan. Vuodesta 2012 asti toiminut Zoomdata tituleeraa itsensä nopeimmaksi sloganilla "The Fastest Big Data Exploration, Visualization & Analytics Platform". Zoomdatan tulokulma on datan visualisointi muutoksena, jonka tulkintaan ihmisen aivot ovat tottuneet.

IBM haastaa x86-klusterit

Big data -keskustelu ja valtakamppailu käyvät kuumana ohjelmistotasolla. Johtavaa markkina-asemaa haetaan mm. laskennan alustojen, nopeiden tietokantojen ja datan esityskerroksen alueilla. Samaan aikaan keskustelu rautatason valinnoista on jäänyt vähemmälle huomiolle. Intelin x86-sarjan palvelinklusterit ovat kaikessa hiljaisuudessa muodostuneet linux-käyttöjärjestelmiin nojaavien konesalien standardiksi. IBM:n big data strategia on kenties maailman monipuolisin ja yhtenä tehtävänä on horjuttaa Intelin yksinvaltiutta kohtuullisen hintaisten palvelinten ytimessä.

Digitalisaatio puhututtaa tulevaisuuskatsauksissa

Eri hallinnonalojen tulevaisuuskatsaukset julkistettiin äskettäin ja mm. big data hyvin esillä teemana niissä osana digitaalista vallankumousta:

Opetus- ja kulttuuriministeriö

Olemme siirtymässä digitaaliseen palvelutalouteen. Teollinen internet, robotisaatio, big data, avoin data, pilvipalvelut, 3D-tulostus ja muut teknologiat vaikuttavat syvällisesti ihmisten tietojen, taitojen ja asenteiden muodostumiseen, maailmankuvaan ja yhteiskunnalliseen toimintaan.

Lue lisää

Kouluttautuminen edellytyksenä big datan hyötyjen korjaamiseen

Jokainen tietotyötä tekevä lienee jo kuullut big datan käsitteen. Osa on sivuuttanut sen vain yhtenä monesta ohimenevästä trendistä tai hypestä. Osa on syventynyt tarkemmin. Uskomme jälkimmäisten olevan paremmalla polulla. Ilmiössä on kaikki hypen tunnusmerkit, mutta perimmiltään kiinnostus on varsin oikeutettua. Dataa on aina hyödynnetty ja pysyäkseen kilpailun kärjessä, on hyödyntäminen tehtävä parhain mahdollisin välinein ja menetelmin. Big datassa mahdollistajana on teknologian vauhdikas kehitys.

MongoDB -konferenssiin päivittämään tietoja?

Jos big data -työkaluvalikoimasi kulmakivenä on MongoDB, kannattaa tutustua Lontoossa 6. marraskuuta järjestettävän konferenssin antiin. Tilaisuuteen voi rekisteröityä vielä tänään halvimmalla hinnalla, tosin hinta ei tässä konferenssissa päätä huimaa. Sen sijaan anti on varsin käytännönläheistä useiden toteutusesimerkkien ja case-kuvausten myötä.

Poimintoja ohjelmasta:

Huh, nyt big data puhututtaa todella!

Nyt siitä puhutaan - ja paljon. Big datasta on blogattu ahkerasti tällä viikolla Suomessa:

Big data hypestä todellisuuteen

Bilotilla filosofiamme on, että Big Datan hyödyntämistä ei saa jättää sen analysointiin, vaan lopputulos tulee viedä takaisin prosesseihin ja jalkauttaa liiketoimintaan. Siksi käytämmekin termiä Practical Big Data.

Lue koko juttu (Bilot)

Nopeuskilpailua datalla

Apache Spark teki maailmaennätyksen

Datarbricks rikkoi Yahoon Hadoopilla tekemän maailmanennätyksen 100 teratavun datamassan järjestelyssä. Aikaisempi ennätys oli 2 100 koneen Hadoop-klusterilla saavutettu 70 minuuttia, kun Sparkilla päästiin samaan tulokseen 23 minuutissa ja 206 koneella. Samalla tehtiin epävirallinen ennätys petatavulla:

Räätälöidyt näytöt avuksi big datan visualisointiin

Suuren huomioarvon teknologiset trendit sivuavat usein toisiaan jossain vaiheessa kehityskaartaan. Nyt synergiahyötyjä haetaan 3D-tulostamisesta ja big data -analytiikasta. MIT:n tutkijat ovat lähteneet kokeilemaan läpinäkyvästä muovista tehtyjä 3D-tulosteita, joiden tehtävänä on tarjota tiettyä datan analysoinnin tehtävää helpottava, räätälöity näyttö.

SQL ja Hadoop

Vuoden 2013 Hadoop-teema puhututtaa edelleen: SQL ja Hadoop. Vaihtoehtoja SQL:n käyttöönsaamiseksi riittää. Hive on tutuin ja Spark SQL uusimmista kentien eniten huomiota saanut. Isoillakin toimijoilla on omansa, kaikki ratkaisut eivät nojaa avoimeen lähdekoodiin.

Hadoop ja SQL

Käyttöesimerkkejä riittää kaikista. Esimerkiksi Netflix kertoo omassa blogissaan käyttävänsä Facebookin julkistamaa Prestoa:

Hadoop-työpaja

Hadoop käytännössä

Ivorion Hadoop-koulutustarjonta kasvoi Hadoop-työpajoilla. Vuoden 2014 työpajat ovat seuraavissa kaupungeissa:

Datalähtöiset liiketoimintamallit

Liikenne- ja viestintäministeriön blogissa Valuemotiven Pekka Lehti esittelee käsitetyökaluja liiketoimintamallivetoiseen lean-kehitykseen. Digitalisaatio avaa huikeita mahdollisuuksia jo toimiville yrityksille sekä uusille tulokkaille.

GE avaa big data -palveluaan

Esineiden internetin (IoT) edelläkävijä General Electric ottaa seuraavan askeleen avaamalla analytiikkapalveluaan myös muiden käyttöön. Tuotenimellä Predix kulkeva palvelu käsittelee nykyisin kymmenien tuhansien raskaan teollisuuden laitteistojen dataa pyrkien optimoimaan järjestelmien toimintaa ja tunnistamaan virhetilanteita. Ensi vuoden aikana Predix tulee saataville palveluna myös muiden laitevalmistajien tuotteissa. Käyttäjiksi on ilmoittautunut ensimmäisten joukossa verkkokoteknologian toimittajia, kuten Cisco ja Vodafone.

Euroopan komissio panostaa big dataan

Eilisessä lehdistötiedotteessaan Euroopan komissio linjasi kunnianhimoisia tavoitteita Euroopalle big data -markkinoilla vuoteen 2020 mennessä:

  • 30 % markkinaosuus eurooppalaisilla yrityksillä
  • 100 000 uutta työpaikkaa
  • Parannuksia energiankäytön tehokkuuteen, terveydenhuoltoon yms.

Tavoitteet ovat hyviä, toivottavasti toteutuvat. Rahoituspanostukset ovat merkittäviä, eivätkä ainakaan heikennä todennäköisyyksiä.

Salesforce.com Wave

Salesforce.com pilvipalvelu jatkaa laajentumistaan, nyt julkaisiin analytiikkapalvelu Wave:

World’s largest enterprise cloud computing company enters $38 billion analytics market with the launch of its sixth cloud in the Salesforce Customer Success Platform

Lue lisää

Hortonworks julkaisi uuden version Hadoop-jakelustaan: HDP 2.2

Hadoop-juna etenee vääjäämättä. Nähtäväksi jää toteutuuko markkinaennuste Hadoop-markkinoiden 25-kertaistumisesta vuosien 2013-2020 välillä, mutta selvää on, että Hadoopilla tulee olemaa keskeinen rooli tulevaisuuden arkkitehtuureissa. Pilvessä tai ilman.

Varsinaista Hadoop-koulutusta ei tarjota Suomessa vieläkään lukuunottamatta yksittäisiä päiviä, joita mm. Ivorio ja Ari Hovi Oy tarjoavat. Riittävävätkö ne tarvittavien osaajien saamiseksi lähitulevaisuudessa jää nähtäväksi.

Big data -leima ei aina auta

Teknologian tai menetelmän hypen voi katsoa olevan huipussaan, kun sitä yritetään liittää lähes kaikkeen muuhun siinä toiveessa, että kuuma termi auttaa oman ratkaisun myyntiä. Big data alkaa olla siinä pisteessä, että yhä useammin saa lukea lehtiartikkeleita, jotka on otsikoitu big datan alle, mutta sisältö osoittautuu joksikin täysin muuksi. Myös tietotekniikan tuotebisneksessä ilmiö on alkanut saada koomisia mittasuhteita. Moni analytiikan, business intelligencen tai tiedonlouhinnan sovellus on nyt nimetty big data -ratkaisuksi.

Big data muuttaa kilpailutilannetta

Accenture ja GE tutkivat teknologisen murroksen vaikutuksia kilpailukenttään

Accenturen ja GE:n äskettäin julkaisemassa tutkimuksessa ("How the Industrial Internet is Changigng the Competitive Landscape of Industries") selvitettiin, miten big data ja erityisesti sensorisen datan (IoT, esineiden internet) vaikutukset näkyvät eri toimialojen kilpailutilanteessa seuraavan kolmen vuoden aikana.

Microsoft Azure kypsyy

Big data ja pilvipalvelut

Uusia ominaisuuksia tulee johtaviin pilvipalveluihin nopeaan tahtiin ja suuri osa niistä sivuaa big datan hyödyntämistä. Microsoft Azuren koneoppimispalvelu Azure Machine Learning on nyt saatavilla (beta) ja uusin Hortonworksin Hadoop eli HDP 2.2 tulee marraskuussa Azurelle. Tässä kirjoituksessa kerrotaan Suomen Bussiliikenne Oy:n käyttöesimerkistä:

Netezzan opit uudelle kierrokselle

Yksi tietovarastojen (data warehouse) kehityksen edelläkävijöistä oli Netezza. Yritys nousi nopeasti merkittäväksi tekijäksi suurten datamassojen yhdistelyssä ja monipuolisessa analytiikassa. Vuonna 2010 Netezza päätyi yrityskaupassa osaksi IBM:n tarjontaa ja on edelleen taustalla IBM:n kattavassa big data -valikoimassa.

Hortonworksin HDP 2.2 -aiheiset esitykset

Hortonworksin hiljattain julkaiseman uuden Hadoop-jakeluversion myötä on mahdollisuus tutustua tarkemmin valikoitujen komponenttien käyttöön. Hortonworks järjestää webinar-sarjan lokakuun 23. päivä alkaen ja sen puitteissa voi tutustua toimialaesimerkkeihin, työkalujen syvempiin saloihin sekä integraatiomahdollisuuksiin perinteisten ratkaisujen kanssa. Vaikka tarjoajana onkin kaupallinen toimija, on syytä muistaa, että Hortonworks rakentaa jakelunsa 100% Apache-hallinnoiduista komponenteista.

Älykkäät kaupungit

Kaupunkien toiminnan jatkuva kehittäminen on julkishallinnon menojen hallinnan kannalta olennainen tehtävä. Nyt big datan aikakaudella tähän on paremmat eväät kuin koskaan aiemmin. Sensoriteknologian muuttuessa yhä laadukkaammaksi ja edullisemmaksi, voidaan ilmiöitä mitata tarkemmin ja laajemmin päätöksenteon tueksi. Yhä pienempi kaupunkiyksikkö alkaa tuottaa dataa, jonka käsittely ajautuu big datan piiriin määränsä, monimuotoisuutensa tai syntyvauhtinsa perusteella.

Tämän hetken big data -trendit

Big datan lyhyt historia

Olemme tässä blogissa seuranneet big data -ilmiön kehittymistä vuodesta 2011 ja mielenkiintoista on ollut. Markkinat kehittyvät nopeasti, teknologia kehittyy vielä nopeammin ja luova tuho tullee olemaan oiva käsite kuvaamaan muutosta eri toimialoilla. Aivan kuten mediamainonta ja verkkokauppa, tulee analytiikka vaikuttamaan radikaalisti toimialojen ansaintalogiikkaan ja menestyksekkäisiin liiketoimintamalleihin. Kaikki eivät kisassa tule menestymään ja uusia voittajia syntyy nopeaan tahtiin.

EMC:n suurin kasvu big datassa ja pilvipalveluissa

Q3-raportissaan EMC kertoo, että liikevaihdon kasvu on vahvinta big datan ja pilvipalveluiden sektoreilla. Tytäryhtiön VMWaren liikevaihto kasvoi 17 % ja big dataan keskittyvän Pivotalin 24 %. Tässä Tivin uutinen.

SQL ja Hadoop, Kylin

Jälleen uusi SQL-rajapinta Hadoopin tiedostojärjestelmään julkistettu. Tällä kertaa asialla eBay ja työkalun nimi Kylin:

Kylin

Kylin is an open source Distributed Analytics Engine from eBay Inc. that provides SQL interface and multi-dimensional analysis (OLAP) on Hadoop supporting extremely large datasets

Lue lisää

IBM ja Twitter yhteistyöhön

Yksi big dataan useimmin liittyvistä esimerkeistä on Twitter-datavirran louhiminen käyttäjien mielipiteiden ja kiinnostuksen kohteiden tunnistamiseksi. Tämä malli saa nyt lisää tukea IBM:n ja Twitterin julkistaman yhteistyösopimuksen kautta, joka avaa IBM:n konsulttiorganisaation käyttöön edistykselliset Twitter-datan louhinnan välineet edelleen asiakastarpeiden täyttämiseen.

"Mitä on big data?" -katsaus

Otsikon kysymys, mitä on big data, toistuu edelleen usein alan keskusteluissa. Toiset näkevät uusia mahdollisuuksia, toiset vanhan toistoa. Osa alkaa jo kyllästyä koko termiin ja asettaa intonsa uusien, pitkälti samaa tarkoittavien, käsitteiden taakse.