Naar inhoud springen

MapReduce

Uit Wikipedia, de vrije encyclopedie

MapReduce is een door Google LLC geïntroduceerd framework voor het in korte tijd uitvoeren van berekeningen over zeer grote hoeveelheden data van vaak meerdere petabytes. MapReduce wordt door Google onder andere gebruikt voor het indiceren van grote hoeveelheden documenten voor zijn zoekmachine en het analyseren van bezoekersaantallen en bezoekersgedrag van websites (Google Analytics).

MapReduce kan in korte tijd veel data verwerken doordat het een grote taak opsplitst in deeltaken. Die deeltaken worden over meerdere computers verdeeld. De computers voeren vervolgens de deeltaken gelijktijdig uit (distributie). Dit gebeurt met behulp van de functies map en fold (reduce), die bekend zijn uit de functionele programmeertalen. Als een van de computers het tijdens het uitvoeren van zijn deeltaak begeeft, wordt die deeltaak automatisch door een andere computer overgenomen. Dit maakt het systeem zeer robuust.

Apache Hadoop is een op MapReduce geïnspireerd opensource Java-framework voor de bouw van data-intensieve gedistribueerde applicaties.