목록IT/Big Data (2)
First Starters
맵리듀스(MapReduce)
맵리듀스(MapReduce) :대용량 데이터 처리를 분산 병렬 컴퓨팅에서 처리하기 위한 구글의 소프트웨어 프레임워크이다. (2004년 발표)맵(Map)과 리듀스(Reduce)라는 함수 기반으로 구성되는 프레임워크. 이해를 위해 단어의 개수를 세는 맵리듀스 프로세스를 보며 설명하자면 다음과 같다. 맵(Map) : 함수의 매핑(Mapping) 처럼 각 데이터마다 value값을 대응시킨다. (단어의 함수화)리듀스(Reduce) : 프로세스 중 생성된 임시 데이터 집합에서 중복 데이터를 제거하고 원하는 데이터를 추출한다.- Splitting : 입력값을 라인 단위의 조각으로 나눈다.- Mapping : 입력값을 공백 기준으로 나누어 각 value값과 대응시킨다. 이 때 임시 데이터 결과가 메모리에 저장된다.- ..
IT/Big Data
2018. 7. 15. 22:26