맵리 듀스:대형 클러스터에 대한 단순화 된 데이터 처리

맵리 듀스는 대규모 데이터 세트를 처리하고 생성하기 위해 프로그래밍 모델 및 관련 구현입니다. 사용자는 키/값 쌍을 처리하여 중간 키/값 쌍 집합을 생성하는 맵 함수와 동일한 중간 키와 연결된 모든 중간 값을 병합하는 축소 함수를 지정합니다. 이 모델에서는 종이에 표시된 것처럼 많은 실제 작업을 표현할 수 있습니다.

이 기능 스타일로 작성된 프로그램은 자동으로 병렬화되고 대규모 상용 시스템 클러스터에서 실행됩니다. 런타임 시스템은 입력 데이터를 분할하고,일련의 시스템에서 프로그램 실행을 예약하고,기계 오류를 처리하고,필요한 기계 간 통신을 관리하는 세부 사항을 처리합니다. 이를 통해 병렬 및 분산 시스템에 대한 경험이없는 프로그래머는 대규모 분산 시스템의 리소스를 쉽게 활용할 수 있습니다.

우리의 맵리 듀스의 구현은 상용 기계의 큰 클러스터에서 실행되며 확장 성이 뛰어납니다:일반적인 맵리 듀스 계산은 수천 대의 컴퓨터에서 많은 테라 바이트의 데이터를 처리합니다. 프로그래머는 사용하기 쉬운 시스템을 찾을 수:맵리 듀스 프로그램의 수백 구현 된 이상 천 맵리 듀스 작업의 매일 구글의 클러스터에서 실행됩니다.