Hadoopin versioiden julkaisuajankohdat

04.07.2007 julkaistiin versio 0.14.1
14.09.2009 julkaistiin versio 0.20.1
27.12.2011 julkaistiin versio 1.0.0
13.10.2012 julkaistiin versio 1.1.0
13.05.2013 julkaistiin versio 1.2.0
23.05.2012 julkaistiin versio 2.0.0 alpha
25.08.2013 julkaistiin versio 2.1.0 beta
15.10.2013 julkaistiin versio 2.2.0
24.02.2014 julkaistiin versio 2.3.0
07.04.2014 julkaistiin versio 2.4.0
30.06.2014 julkaistiin versio 2.4.1
11.08.2014 julkaistiin versio 2.5.0
12.09.2014 julkaistiin versio 2.5.1
18.01.2015 julkaistiin versio 2.6.0
21.04.2015 julkaistiin versio 2.7.0

Hadoop-jakelut

Hadoop-jakelut ovat valmiiksi paketoituja Hadoop-ratkaisuja, jotka usein integroituvat laajempiin kokonaisuuksiin (appliances). Jakelumarkkina on ollut voimakkaassa kasvussa vuodesta 2008, jolloin Cloudera aloitti toimintansa. Tässä aakkosjärjestyksessä tunnetuimpia jakeluita tarjoavia yrityksiä:

  • Amazon (EMR)
  • Cloudera (CDH 5.3)
  • Hortonworks (HDP 2.2)
  • Microsoft (HDInsight)
  • IBM (IHC)
  • Intel (Intel distrivution for Apache Hadoop, lopetettu)
  • MapR (M3, M5, M7)
  • Pivotal (Pivotal HD)
  • Teradata (TDH)

Vaihtoehtona jakelulle on rakentaa kokonaisuus itse Apache-projekteista (Hadoop ja sisarprojektit).

Mikä on Hadoop?

Apache.org:n sivuilla määritellään Apache Hadoop seuraavasti:

The Apache Hadoop software library is a framework that allows for the distributed processing of large data sets across clusters of computers using a simple programming model.

Apache Hadoopin alaprojekteja ovat:

Hadoop Common (Hadoop Common includes FileSystem, RPC, and serialization libraries)

Hadoop Distributed Filesystem (HDFS) (A distributed file system that provides high-throughput access to application data)

Hadoop MapReduce (A software framework for distributed processing of large data sets on compute clusters)

Hadoop YARN (3.8.2012 äänestettiin liitettäväksi alaprojektiksi yllämainitun kolmen rinnalle. Mahdollistaa MapReducen korvaamisen.)

Hadoopiin keskeisesti liittyviä Apache-projekteja ovat mm.:

Eniten Hadoop-projektiin on koodia tuottanut omien sanojensa mukaan Yahoo, mutta muitakin mielipiteitä on: Cloudera ja Hortonworks

Hadoop ei välttämättä ole nopein tapa datan analysointiin (A Comparison of Approaches to Large-scale Data Analysis), mutta sen etuina ovat:

  • Alustariippumattomuus: toimii hyvin erilaisilla alustoilla (omista palvelimista virtualisoituihin pilvipalvelimiin)
  • Vikasietoisuus: ei häiriinny, vaikka osa laitteista viottuisi kesken analyysin
  • Skaalautuva: uusia palvelimia (node) helppo lisätä tarpeen mukaan
  • Yksinkertainen: käyttöönotto on helppo ja nopeaa
  • Ilmainen: Apache-lisensoitu, avointa lähdekoodia
  • Ekosysteemi: Valtava määrä lisäosia ja laajennoksia (sisarprojekteja)

Hadoopissa laskentakapasiteetin tarpeen kasvaessa klusteria eli palvelinten (node) määrää kasvatetaan (scale-out). Tyypillisesti palvelimet ovat x86 Linux-palvelimia.

Hadoop adoption by commercial and government organizations is not a matter of “if” but “when". (CSC, 2011)

IBM:n vastaus kysymykseen: What is Hadoop?

Hadoop ja Nokia

Hadoop-osaajien kysyntä (Indeed.com)

Hadoop-sertifikaatti

Ivorio tarjoaa mahdollisuuden sertifioitua Hadoop-osaajaksi. Lue lisää