Hadoop은 대용량의 데이터를 처리하고 저장하기 위한 오픈소스 프레임워크.
아파치 소프트웨어 재단에서 개발되었으며, 분산 환경에서 데이터 처리를 가능하게 해주는 핵심 기술들로 구성
주요 구성 요소:
1. HDFS (Hadoop Distributed File System):
- Hadoop의 데이터 저장 시스템으로, 대용량의 데이터를 여러 머신에 분산하여 저장
- 파일을 작은 블록으로 분할하고, 각 블록을 여러 노드에 복제하여 데이터의 안정성과 가용성을 보장합니다.
- 높은 내고장성을 갖추고, 데이터의 스트리밍 액세스에 적합
2. MapReduce:
- Hadoop의 핵심 처리 모델로, 대규모 데이터 처리를 위해 개발된 프로그래밍 모델
- Map 단계에서 데이터를 작은 조각으로 분할하여 병렬 처리하고, Reduce 단계에서 결과를 모아서 분석
- 분산 처리를 통해 높은 처리량을 달성하며, 병렬 처리로 인한 빠른 속도를 제공
Hadoop은 대규모 데이터를 처리하고 저장하는 데에 특화되어 있으며, 빅데이터 분석, 대규모 로그 처리, 웹 검색 엔진, 추천 시스템 등에 활용. 또한, 데이터 엔지니어, 빅데이터 분석가, 데이터 사이언티스트 등 데이터 관련 업무를 수행하는 데에 필수적인 기술이 됨.
하지만 최근에는 Hadoop의 기술을 기반으로 한 다양한 솔루션들이 등장하면서, Hadoop의 역할과 위치가 변화하고 있음.
대규모 실시간 처리에는 제한이 있으며, Spark, Flink, HBase 등의 기술과 조합하여 사용하는 경우도 많아짐.
Hadoop을 활용하려면 설정과 운영이 복잡하고, 효율적으로 사용하기 위해서는 데이터의 특성과 요구사항을 잘 이해해야 함. 그러나 대용량 데이터 처리와 분석에는 여전히 중요한 역할을 수행하고 있으며, 관련 분야에서 꾸준히 활용
'Data Engineering > 빅데이터를 지탱하는 기술' 카테고리의 다른 글
[빅데이터를 지탱하는 기술] 빅데이터 기초 지식 (3) | 2023.11.10 |
---|---|
[빅데이터를 지탱하는 기술] 데이터 웨어하우스와 데이터 마트 (0) | 2023.08.01 |
[빅데이터를 지탱하는 기술] NoSQL 데이터베이스 (1) | 2023.08.01 |
[빅데이터를 지탱하는 기술] Hadoop VS Spark (0) | 2023.07.28 |
[빅데이터를 지탱하는 기술] Spark (0) | 2023.07.28 |