Data Engineering

Data Engineering/빅데이터를 지탱하는 기술

[빅데이터를 지탱하는 기술] Hadoop VS Spark

Hadoop과 Spark는 둘 다 빅데이터 처리를 위한 분산 처리 프레임워크이지만, 몇 가지 차이점이 있다. 처리 모델: Hadoop: Hadoop은 대표적으로 MapReduce 처리 모델을 사용. MapReduce는 데이터를 작은 블록으로 나누어 병렬 처리하고, Reduce 단계에서 결과를 모아서 처리하는 방식으로 동작 Spark: Spark는 MapReduce보다 훨씬 더 다양한 처리 모델을 제공한다. Spark는 Resilient Distributed Dataset (RDD)라는 데이터 구조를 활용하여 데이터를 빠르게 메모리에 저장하고 다양한 연산을 수행한다. 또한, Spark는 인메모리 처리를 지원하여 디스크 기반의 MapReduce보다 빠른 처리 속도를 제공한다. 성능: Hadoop: Hadoo..

Data Engineering/빅데이터를 지탱하는 기술

[빅데이터를 지탱하는 기술] Spark

Spark Spark는 대용량 데이터 처리를 위한 빅데이터 분산 처리 엔진으로서, 빠른 속도와 다양한 기능을 제공한다. 아파치 소프트웨어 재단에서 개발된 오픈소스 프로젝트로, Hadoop 기반의 MapReduce보다 높은 처리 속도와 유연성을 가지고 있다. 주요 특징 : 1. 인메모리 처리: Spark는 데이터를 디스크 대신 메모리에 저장하고 처리하기 때문에, 빅데이터 작업에 특히 빠른 속도를 제공한다. 따라서 반복적이거나 실시간 데이터 처리에 용이하다. 2. 다양한 작업 모델: Spark는 기본적으로 데이터 처리를 위한 배치 작업을 지원하지만, 스트리밍, 머신 러닝, 그래프 처리 등 다양한 작업 모델을 지원한다. 3. 간편한 프로그래밍 모델: Spark는 다양한 프로그래밍 언어 (Scala, Java,..

Data Engineering/빅데이터를 지탱하는 기술

[빅데이터를 지탱하는 기술] Hadoop

Hadoop은 대용량의 데이터를 처리하고 저장하기 위한 오픈소스 프레임워크. 아파치 소프트웨어 재단에서 개발되었으며, 분산 환경에서 데이터 처리를 가능하게 해주는 핵심 기술들로 구성 주요 구성 요소: 1. HDFS (Hadoop Distributed File System): Hadoop의 데이터 저장 시스템으로, 대용량의 데이터를 여러 머신에 분산하여 저장 파일을 작은 블록으로 분할하고, 각 블록을 여러 노드에 복제하여 데이터의 안정성과 가용성을 보장합니다. 높은 내고장성을 갖추고, 데이터의 스트리밍 액세스에 적합 2. MapReduce: Hadoop의 핵심 처리 모델로, 대규모 데이터 처리를 위해 개발된 프로그래밍 모델 Map 단계에서 데이터를 작은 조각으로 분할하여 병렬 처리하고, Reduce 단계에..

달려라 국나뇽
'Data Engineering' 카테고리의 글 목록 (3 Page)