Big data ratkaisuiden käyttöönoton yleisin ongelma ei ole datan keräämiseen tai teknologiaan liittyvä. MIT Sloan(1) tutkimuksessa kaikkein yleisin ongelma big data ratkaisuiden käyttöönotossa oli ettei ymmärretty miten käyttää big data analytiikkaa liiketoiminnan hyväksi.

Big dataa lähestytään eri näkökulmasta kuin perinteistä raportointiin käytettävää dataa.Tietovarastoissa dataa esikäsitellään yhdenmukaistamalla tietoa ja poistamalla väärää tai virheellistä tietoa. Perinteisiin tietovarastoratkaisuihin tallennettu data on mahdollisimman optimaalista analyyseja varten. Big datan määrän, moninaisuuden ja vauhdin vuoksi kaikkea dataa ei ole kuitenkaan mahdollista eikä järkevää esikäsitellä. Lähteistä pitää valita merkityksellisin tieto ja huonoa dataa pitää sietää.

Big datassa huonoa dataa on paljon. Se voi olla esimerkiksi rikkinäisen sensorin tai mittausvirheen tuottamaa dataa tai web dokumenteissa vanhentunutta tai tahallaan tuotettua väärää tietoa. Dataa voi puuttua yksityisyyssyistä, eri datalähteiden yhdistelmissä voi olla tilastollisia luottamuseroja tai näytteiden aikarakeisuus on erilaista. Analytiikan kannalta huonoa dataa on myös epäolennainen data. Big datan monimutkaisuus hämärtää tutkittavan ilmiön alla olevia syy-seuraussuhteita ja datan suuri määrä tarjoaa lukemattomia määriä mahdollisia korrelaatioita, joista osa on välttämättä vääriä. Epäoleellinen, puuttuva ja väärä data muuttavat kokonaiskuvaa tutkittavasta ilmiöstä.

Analyysien kannalta oikean, tarkan ja oleellisen tiedon löytäminen on hankalaa, koska dataa on paljon ja sitä tulee nopealla tahdilla erilaisista lähteistä. Ensimmäinen askel on kysyä kysymyksiä, jotka auttavat löytämään oleellisen datan jota kannattaa käsitellä. Kysymykset auttavat myös tunnistamaan onko datanäyte edustava, mikä on normaalia dataa ja >mitataanko oikeaa asiaa. Vaikka datan suuri määrä voi tuoda tarkkuutta ja datan moninaisuus syvyyttä tutkittavaan ilmiöön, ei big data välttämättä johda parempaan ymmärrykseen tutkittavasta ilmiöstä.

1) Lähde: IBM: In Idea Smarter Computing to BIG Data Analytics and Path from Insights to Value (pdf)

Mirva Toivonen

Mirva Toivonen on tietojenkäsittelytieteen opiskelija Helsingin yliopistosta, joka kirjoittaa gradua big datan laadunhallintaan liittyen.

Leave a comment

Filtered HTML

  • Www-osoitteet ja email-osoitteet muutetaan automaattisesti linkeiksi.
  • Sallitut HTML-tagit: <a> <em> <strong> <cite> <blockquote> <code> <ul> <ol> <li> <dl> <dt> <dd>
  • Rivit ja kappaleet päätetään automaattisesti.

Plain text

  • No HTML tags allowed.
  • Www-osoitteet ja email-osoitteet muutetaan automaattisesti linkeiksi.
  • Rivit ja kappaleet päätetään automaattisesti.
Roskapostitorjuntaa.