O prezentare rapidă a cadrului Apache Hadoop

Hadoop, acum cunoscut sub numele de Apache Hadoop, a fost numit după un elefant de jucărie care aparținea fiului cofondatorului Doug Cutting. Doug a ales numele pentru proiectul open-source, deoarece a fost ușor de scris, pronunțat și găsit în rezultatele căutării. Elefantul galben original, care a inspirat numele, apare în sigla Hadoop.

Ce este Apache Hadoop?

Biblioteca software Apache Hadoop este un cadru care permite procesarea distribuită a unor seturi mari de date în clustere de computere utilizând modele simple de programare. Este proiectat pentru a crește de la servere unice la mii de mașini, fiecare oferind calcul și stocare locală. În loc să se bazeze pe hardware pentru a oferi o disponibilitate ridicată, biblioteca în sine este concepută pentru a detecta și gestiona defecțiunile la nivelul aplicației, oferind astfel un serviciu extrem de disponibil pe un cluster de computere, fiecare dintre acestea putând fi predispus la defecțiuni.

Sursa: Apache Hadoop

În 2003, Google și-a lansat lucrarea pe Google File System (GFS). Acesta a detaliat un sistem de fișiere distribuite proprietar destinat să ofere acces eficient la cantități mari de date folosind hardware de marfă. Un an mai târziu, Google a lansat o altă lucrare intitulată „MapReduce: Simplified Data Processing on Large Clusters”. La acea vreme, Doug lucra la Yahoo. Aceste lucrări au fost inspirația pentru proiectul său open source Apache Nutch. În 2006, componentele proiectului cunoscute atunci ca Hadoop s-au mutat din Apache Nutch și au fost lansate.

De ce este util Hadoop?

În fiecare zi, miliarde de gigaocteți de date sunt create într-o varietate de forme. Câteva exemple de date create frecvent sunt:

  • Metadate din utilizarea telefonului
  • Jurnalele site-urilor web
  • Tranzacții de cumpărare cu card de credit
  • Postări pe rețelele sociale
  • Videoclipuri
  • Informații culese de pe dispozitive medicale

„Date mari” se referă la seturi de date care sunt prea mari sau complexe pentru a fi procesate utilizând aplicații software tradiționale. Factorii care contribuie la complexitatea datelor sunt dimensiunea setului de date, viteza procesorelor disponibile și formatul datelor.

La momentul lansării sale, Hadoop era capabil să proceseze date la o scară mai mare decât software-ul tradițional.

Core Hadoop

Datele sunt stocate în sistemul de fișiere distribuite Hadoop (HDFS). Folosind map reduce, Hadoop procesează date în bucăți paralele (procesând mai multe părți în același timp), mai degrabă decât într-o singură coadă. Acest lucru reduce timpul necesar procesării seturilor mari de date.

HDFS funcționează stocând fișiere mari împărțite în bucăți și reproducându-le pe mai multe servere. A avea mai multe copii ale fișierelor creează redundanță, care protejează împotriva pierderii de date.

Ecosistemul Hadoop

Există multe alte pachete software care completează Hadoop. Aceste programe cuprind ecosistemul Hadoop. Unele programe facilitează încărcarea datelor în clusterul Hadoop, în timp ce altele facilitează utilizarea Hadoop.

Ecosistemul Hadoop include:

  • Apache Hive
  • Porc Apache
  • Apache HBase
  • Apache Phoenix
  • Apache Spark
  • Apache ZooKeeper
  • Cloudera Impala
  • Apache Flume
  • Apache Sqoop
  • Apache Oozie

Mai multe informatii:

  • Apache Hadoop