Startseite | Impressum | Datenschutzerklärung

Hadoop

Apache Hadoop ist ein freies, in Java geschriebenes Framework für skalierbare, verteilt arbeitende Software. Es basiert auf dem MapReduce-Algorithmus von Google und ermöglicht es, intensive Rechenprozesse mit großen Datenmengen wie beispielsweise bei Big Data-Projekten benötigt auf Computerclustern durchzuführen.

Hadoop basiert auf zwei "Säulen": Hadoop Distributed File System (HDFS) und MapReduce

Hadoop Distributed File System (HDFS) ist ein hochverfügbares, leistungsfähiges Dateisystem zur Speicherung sehr großer Datenmengen auf den Dateisystemen mehrerer Rechner (Knoten). Dateien werden in Datenblöcke mit fixer Länge zerlegt und diese redundant auf die teilnehmenden Knoten verteilt.

MapReduce ist ein Algorithmus für parallele Verarbeitung in großen Datenbeständen, welcher von vielen NoSQL Datenbankmanagementsystemen zur Verfügung gestellt wird. Er eignet sich besonders zum Abarbeiten von Abfragen auf verteilten Datenbanken.
Dabei nimmt ein Masterknoten eine Anfrage entgegen, und teilt sie in Teilaufgaben auf, die er an andere Knoten verteilt. Dabei ist wesentlich, dass die Teilaufgaben voneinander unabhängig gelöst werden können.

In der Map Phase verarbeitet jeder Knoten seine Teilaufgabe, und stellt die Ergebnisse bereit. In der Reduce Phase werden die einzelnen Teilergebnisse gesammelt, konsolidiert und zu einem Gesamtergebnis weiterverarbeitet. Je nach Problemstellung kann u.U. auch die Reduce Phase parallelisiert werden.
Bei geeigneten Problemstellungen und geeigneter Systemarchitektur ist MapReduce ein fast beliebig skalierbarer Algorithmus. Diese Eigenschaft macht ihn bei der Verarbeitung riesiger Datenmengen attraktiv.


Hive erweitert Hadoop um Data-Warehouse-Funktionalitäten, v.a. um die SQL-basierte Anfragesprache HiveQL.

Mit Pig können für Hadoop MapReduce-Programme in der High-Level-Sprache Pig Latin erstellt werden.



Hadoop mit Microsoft
In Zusammenarbeit von Microsoft und Hortonworks entstand die Apache Hadoop-Lösungen für Windows.
HDInsight ist der auf Hadoop basierende Dienst von Microsoft, der eine Apache Hadoop-Lösung in der Microsoft Cloud bereitstellt.

http://msdn.microsoft.com/de-de/magazine/dn385705.aspx

  Microsoft Business Intelligence Portal von New Elements GmbH