Data Engineering/빅데이터를 지탱하는 기술
[빅데이터를 지탱하는 기술] Hadoop VS Spark
Hadoop과 Spark는 둘 다 빅데이터 처리를 위한 분산 처리 프레임워크이지만, 몇 가지 차이점이 있다. 처리 모델: Hadoop: Hadoop은 대표적으로 MapReduce 처리 모델을 사용. MapReduce는 데이터를 작은 블록으로 나누어 병렬 처리하고, Reduce 단계에서 결과를 모아서 처리하는 방식으로 동작 Spark: Spark는 MapReduce보다 훨씬 더 다양한 처리 모델을 제공한다. Spark는 Resilient Distributed Dataset (RDD)라는 데이터 구조를 활용하여 데이터를 빠르게 메모리에 저장하고 다양한 연산을 수행한다. 또한, Spark는 인메모리 처리를 지원하여 디스크 기반의 MapReduce보다 빠른 처리 속도를 제공한다. 성능: Hadoop: Hadoo..