MapReduce: Simplified Data Zpracování na Velké Shluky

MapReduce je programovací model a související provádění pro zpracování a generování velkých datových sad. Uživatelé určit, mapa funkce, která zpracovává klíč/hodnota pár, chcete-li vytvořit sadu intermediate klíč/hodnota páry, a snížit funkci, která sloučí všechny mezilehlé hodnoty spojené se stejnou střední klíč. Mnoho úkolů v reálném světě je v tomto modelu vyjádřitelné, jak je uvedeno v článku.

programy napsané v tomto funkčním stylu jsou automaticky paralelizovány a prováděny na velkém shluku komoditních strojů. Systém run-time se stará o podrobnosti o rozdělení vstupních dat, plánování provádění programu na sadu strojů, zpracování selhání stroje a řízení požadované komunikace mezi stroji. To umožňuje programátorům bez zkušeností s paralelními a distribuovanými systémy snadno využívat zdroje velkého distribuovaného systému.

naše implementace MapReduce běží na velkém shluku komoditních strojů a je vysoce škálovatelná: typický výpočet MapReduce zpracovává mnoho terabajtů dat na tisících strojích. Programátoři považují systém za snadno použitelný: byly implementovány stovky programů MapReduce a každý den se v klastrech Google provádí více než tisíc úloh MapReduce.

HTML snímky