1. 빅데이터의 세계
빅데이터의 세계에서는 그냥 그대로는 DWH에 가져올 텍스트 파일 등의 ‘비구조화 데이터’ 또는 ‘스키마 리스 데이터’ 등을 취급하는 경우가 많으므로 이러한 데이터를 여러 컴퓨터에서 ‘분산 처리’하는 방법이 요구된다.
2. Hadoop과 Spark
- ‘Hadoop'과 ’Spark'는 널리 이용되고 있는 분산처리프레임워크다.
- Hadoop은 ‘분산 파일 시스템’에서 ‘리소스 관리자’ 그리고 ‘Mapreduce'에 의한 ‘분산처리’에 이르기까지 종합적인 컴포넌트를 제공하여 많은 분산 애플리케이션의 공통 플랫폼으로 이용된다.
- Spark는 ‘대량의 메모리를 활용한 고속의 데이터 처리 기반‘이므로, ‘mapreduce'를 대체하는 ‘분산 프로그래밍 환경‘이로 사용된다.
3. Hive와 Presto 데이터 엔진
- Hadoop과 Spark를 활용해서 ‘SQL’을 실행하기 위한 ‘SQL - On - Hadoop'이라는 소프트웨어가 개발되고 있다.
- hive는 디스크 상에서 대규모 데이터를 처리하고 있기때문에 ‘대규모 배치 처리’에 적합하다.
- presto는 메모리 상에서의 고속 집계의 특화되어 있어 ‘대화형 쿼리 실행‘에 적합하다.
- SQL-On-Hadoop 뿐만 아니라 ‘기존의 MPP 데이터베이스‘ 등에서도 적재적소에 구사하면 빅데이터 집계가 이루어진다.
4. 데이터 마트의 구축과정
- ‘데이터의 구조화‘만 잘되어 있으면 그 후에는 데이터 웨어하우스와 같은 개념으로 데이터마트를 구축할 수 있다.
- ‘팩트 테이블’과 ‘디멘전 테이블’을 준비하고 그것들을 ‘결합’ 및 ‘집계’하면서 시각화에 적합한 ‘비정규화 테이블’을 만든다.
- 디멘전으로 사용하는 데이터는 평소 주기적으로 ‘스냅샷’으로 이력을 ‘축적’해두도록 한다. 최종적으로는 디멘전의 ‘카디널리티’만 작아지면 비정규화 테이블은 아주 작게 집약할 수 있다.
'Data Engineering > 빅데이터를 지탱하는 기술' 카테고리의 다른 글
[빅데이터를 지탱하는 기술] 빅데이터 탐색 (0) | 2023.11.13 |
---|---|
[빅데이터를 지탱하는 기술] 빅데이터 기초 지식 (3) | 2023.11.10 |
[빅데이터를 지탱하는 기술] 데이터 웨어하우스와 데이터 마트 (0) | 2023.08.01 |
[빅데이터를 지탱하는 기술] NoSQL 데이터베이스 (1) | 2023.08.01 |
[빅데이터를 지탱하는 기술] Hadoop VS Spark (0) | 2023.07.28 |