맵리듀스(MapReduce)

Notice

Recent Posts

Tags more

Archives

관리 메뉴

First Starters

IT/Big Data

구구콘 2018. 7. 15. 22:26

맵리듀스(MapReduce) :

대용량 데이터 처리를 분산 병렬 컴퓨팅에서 처리하기 위한 구글의 소프트웨어 프레임워크이다. (2004년 발표)

맵(Map)과 리듀스(Reduce)라는 함수 기반으로 구성되는 프레임워크.

이해를 위해 단어의 개수를 세는 맵리듀스 프로세스를 보며 설명하자면 다음과 같다.

맵(Map) : 함수의 매핑(Mapping) 처럼 각 데이터마다 value값을 대응시킨다. (단어의 함수화)

리듀스(Reduce) : 프로세스 중 생성된 임시 데이터 집합에서 중복 데이터를 제거하고 원하는 데이터를 추출한다.

- Splitting : 입력값을 라인 단위의 조각으로 나눈다.

- Mapping : 입력값을 공백 기준으로 나누어 각 value값과 대응시킨다. 이 때 임시 데이터 결과가 메모리에 저장된다.

- Shuffling : 메모리에 저장된 맵(Map)함수의 결과를 파티셔닝(partition)과 정렬(sort)하여 로컬 디스크에 저장한 후 네트워크를 통하여 리듀서(Reducer)의 입력 데이터로 전달한다.

- Reducing : 입력 받은 데이터에서 중복을 제거하고 원하는 데이터를 추출한다. (word count process에서는 단어의 개수가 원하는 데이터가 된다.)

출처 :

빅데이터 기초 SlideShare 링크 (0)	2018.07.15

'IT/Big Data' Related Articles