Hadoop

[빅데이터를 지탱하는 기술] 빅데이터의 분산 처리

2023.11.15

1. 빅데이터의 세계 빅데이터의 세계에서는 그냥 그대로는 DWH에 가져올 텍스트 파일 등의 ‘비구조화 데이터’ 또는 ‘스키마 리스 데이터’ 등을 취급하는 경우가 많으므로 이러한 데이터를 여러 컴퓨터에서 ‘분산 처리’하는 방법이 요구된다. 2. Hadoop과 Spark - ‘Hadoop'과 ’Spark'는 널리 이용되고 있는 분산처리프레임워크다. - Hadoop은 ‘분산 파일 시스템’에서 ‘리소스 관리자’ 그리고 ‘Mapreduce'에 의한 ‘분산처리’에 이르기까지 종합적인 컴포넌트를 제공하여 많은 분산 애플리케이션의 공통 플랫폼으로 이용된다. - Spark는 ‘대량의 메모리를 활용한 고속의 데이터 처리 기반‘이므로, ‘mapreduce'를 대체하는 ‘분산 프로그래밍 환경‘이로 사용된다. 3. Hive와 ..

[빅데이터를 지탱하는 기술] 빅데이터의 분산 처리

티스토리툴바