MPP데이터베이스

[빅데이터를 지탱하는 기술] 빅데이터의 분산 처리

2023.11.15

1. 빅데이터의 세계 빅데이터의 세계에서는 그냥 그대로는 DWH에 가져올 텍스트 파일 등의 ‘비구조화 데이터’ 또는 ‘스키마 리스 데이터’ 등을 취급하는 경우가 많으므로 이러한 데이터를 여러 컴퓨터에서 ‘분산 처리’하는 방법이 요구된다. 2. Hadoop과 Spark - ‘Hadoop'과 ’Spark'는 널리 이용되고 있는 분산처리프레임워크다. - Hadoop은 ‘분산 파일 시스템’에서 ‘리소스 관리자’ 그리고 ‘Mapreduce'에 의한 ‘분산처리’에 이르기까지 종합적인 컴포넌트를 제공하여 많은 분산 애플리케이션의 공통 플랫폼으로 이용된다. - Spark는 ‘대량의 메모리를 활용한 고속의 데이터 처리 기반‘이므로, ‘mapreduce'를 대체하는 ‘분산 프로그래밍 환경‘이로 사용된다. 3. Hive와 ..

Data Engineering/빅데이터를 지탱하는 기술

[빅데이터를 지탱하는 기술] 빅데이터 탐색

2023.11.13

1. 열 지향 스토리지 - 데이터를 대화식으로 시각화하고 그 내용을 알기 위해선 ‘초단위 고속집계’가 필요하다. - 데이터 양을 모두 읽어들일 수 있을때는 한번에 BI도구로 읽어들일 수 있지만, 메모리상에 올릴 수 없을 정도로 많은 양의 데이터를 처리해야한다면 ‘열 지향 스토리지’가 필요하다. - ‘MRP 데이터베이스’를 이용하면 병렬화에 의한 쿼리 고속화가 가능하다. 2. 시각화 - 시각화에 사용되는 도구로는 주로 ‘애드혹 분석’에 사용되는 ‘노트북’ 및 ‘지속적인 모니터링’에 사용되는 ‘대시보드‘ 또는 ‘대화형으로 데이터를 시각화‘하기 위한 ‘BI도구’등이 있다. - BI 도구를 사용하고 싶을때에는 보고싶은 데이터를 한 곳에 모으는 ‘데이터 마트’를 구축해야한다. 3. 데이터 마트 - 데이터 마트를 ..

[빅데이터를 지탱하는 기술] 빅데이터의 분산 처리

[빅데이터를 지탱하는 기술] 빅데이터 탐색

티스토리툴바