Big data on henkilötietojen kannalta ongelmallinen ilmiö, taloudellinen intressi jatkohyödyntää alun perin yhteen tarkoitukseen käytettyä dataa on korkea. Henkilötietolainsäädäntö suhtautuu kuitenkin kielteisesti kerätyn datan käyttöön ja hyödyntämiseen tilanteissa, joissa henkilötietoja sisältävä data on kerätty jotakin muuta käyttötarkoitusta varten. Uusi eurooppalainen henkilötietoasetus ei muuta tilannetta. Suurin rajoitus on käyttötarkoitussidonnaisuuden vaatimus, mikä edellyttää sitä, että kerättyjä henkilötietoja käytetään vain siihen tarkoitukseen mikä tietosuojaselosteessa on mainittu. Vaatimuksesta on kuitenkin mahdollista poiketa anonymisoimalla henkilötiedot, millä tarkoitetaan sitä että henkilötietoja sisältävästä tietomassasta poistetaan ne tiedot, joiden perusteella henkilö on tunnustettavissa. Anonymisoinnin myötä henkilötietolainsäädäntö ei enää sovellu dataan ja tiedot ovat vapaasti hyödynnettävissä.

Kotimaista oheistusta anonymisoinnista ei vielä ole, mutta erityisesti Ison-Britannian tietosuojavaltuutettu on ohjeistuksellaan valottanut anonymisointia. Myös EU tasolta on hiljattain ilmestynyt ohjeistusta anonymisointiin liittyvistä tulkintakysymyksistä. Oleellista on se, että anonymisoinnin on oltava tehokasta ja kestävää. Tehokuutta mitataan sillä, kuinka hyvin menettely vähentää riskiä uudelleenidentifikaatiosta. Uudelleenidentifikaatiolla (re-identification tai de-anonymization) tarkoitetaan sitä, että jokin taho pystyy hyödyntämällä esimerkiksi julkisesti saatavilla olevaa tietoa murtamaan anonymisoinnin. Esimerkin re-identifikaatiosta antaa hyvin Kuuluisassa yhdysvaltalaisessa tutkimuksessa on todettu, että 87% väestöstä on tunnistettavissa postinumeron, iän ja sukupuolen perusteella. Käytännössä tämä helppo tunnistettavuus näkyy tapauksissa AOL ja Netflix.

Epäonnistuneen anonymisoinnin lopputulokset voivat olla hirvittäviä ja yrityksen maineelle kalliita. Tunnetut esimerkit sisältävät AOLin ja Netflixin tekemät virheelliset ja puutteelliset anonymisoinnit. Netflix julkaisi osana algoritimien kehittämämistä suuren määrän tietoja, siten että kunkin tilin nimiksi muutettiin numerokoodit. Näitä tietoja hyödyntämällä tutkimusryhmä yhdisti IMDB-käyttäjätilit Netflixin julkaisemiin tietoihin ja paljasti lukuisan tilin taustalla olleen henkilön. AOLin tapauksessa tutkijoiden käyttöön annettiin yksityishenkilöiden hakuhistorioita, joiden pohjalta bloggarit löysivät useita henkilöitä.

Ison-Britannian tietosuojavaltuutetun laatima ohjeistus auttaa osaltaan anonymisoimaan siten, että riskit ja sudenkuopat vältetään. Oheistus sisältää osion riskien arvioimisesta, keskeisenä testinä hyödynnetään motivoituneen tunkeutujan tekemää yritystä murtaa anonymisointi. Onnistuneen anonymisoinnin purkaminen (de-anonymization) ei onnistu motivoituneelta tunkeutujalta. Sataprosenttista varmuutta ei vaadita, eikä se olisi mahdollista saati taloudellisesti kannattavaa.

Anonymisoinnista on paljon aikaisempaa kokemusta lääketieteellisen tutkimuksen puolelta. Tutkimuksessa on hyvin tavallista, että potilastiedot anonymisoidaan, jotta useat eri tutkimusryhmät voivat perehtyä niihin. Tulevaisuudessa vastaavanlaisia teknologioita voidaan hyödyntää myös muussa data-intensiivisessä toiminnassa, kuten markkinointidatan tai kanta-asiakastietojen laajamittaisemmassa hyödyntämisessä. 

Riskipohjainen lähestyminen tarjoaa parhaan mahdollisuuden data hyödyntämiseen ja datan arvon säilyttämiseen. Riskipohjaisessa anonymisoinnissa anonymisointi malli ja tekniikat valitaan tietojen arkaluontoisuuden ja käyttötarkoituksen pohjalta. Myös datan mahdollinen käyttötarkoitus ja hyödyntävät tahot otetaan arvioinnissa huomioon. Onnistuneesti anonymisoitu data on taloudellisesti arvokasta, eikä yksityisyys vaarannu. Anonymisoitu data mahdollistaakin näin big data -analytiikan ja poistaa osan henkilötietosääntelyn tuomista haasteista.

Antti Antikainen

Kirjoittaja on Helsingin Yliopiston oikeustieteellisen tiedekunnan opiskelija, joka kirjoittaa parhaillaan lopputyötään aiheesta ”Risk Based-Approach to Secondary Use of Data.”

Leave a comment

Filtered HTML

  • Www-osoitteet ja email-osoitteet muutetaan automaattisesti linkeiksi.
  • Sallitut HTML-tagit: <a> <em> <strong> <cite> <blockquote> <code> <ul> <ol> <li> <dl> <dt> <dd>
  • Rivit ja kappaleet päätetään automaattisesti.

Plain text

  • No HTML tags allowed.
  • Www-osoitteet ja email-osoitteet muutetaan automaattisesti linkeiksi.
  • Rivit ja kappaleet päätetään automaattisesti.
Roskapostitorjuntaa.