1. 빅데이터의 세계 빅데이터의 세계에서는 그냥 그대로는 DWH에 가져올 텍스트 파일 등의 ‘비구조화 데이터’ 또는 ‘스키마 리스 데이터’ 등을 취급하는 경우가 많으므로 이러한 데이터를 여러 컴퓨터에서 ‘분산 처리’하는 방법이 요구된다. 2. Hadoop과 Spark - ‘Hadoop'과 ’Spark'는 널리 이용되고 있는 분산처리프레임워크다. - Hadoop은 ‘분산 파일 시스템’에서 ‘리소스 관리자’ 그리고 ‘Mapreduce'에 의한 ‘분산처리’에 이르기까지 종합적인 컴포넌트를 제공하여 많은 분산 애플리케이션의 공통 플랫폼으로 이용된다. - Spark는 ‘대량의 메모리를 활용한 고속의 데이터 처리 기반‘이므로, ‘mapreduce'를 대체하는 ‘분산 프로그래밍 환경‘이로 사용된다. 3. Hive와 ..
1. 열 지향 스토리지 - 데이터를 대화식으로 시각화하고 그 내용을 알기 위해선 ‘초단위 고속집계’가 필요하다. - 데이터 양을 모두 읽어들일 수 있을때는 한번에 BI도구로 읽어들일 수 있지만, 메모리상에 올릴 수 없을 정도로 많은 양의 데이터를 처리해야한다면 ‘열 지향 스토리지’가 필요하다. - ‘MRP 데이터베이스’를 이용하면 병렬화에 의한 쿼리 고속화가 가능하다. 2. 시각화 - 시각화에 사용되는 도구로는 주로 ‘애드혹 분석’에 사용되는 ‘노트북’ 및 ‘지속적인 모니터링’에 사용되는 ‘대시보드‘ 또는 ‘대화형으로 데이터를 시각화‘하기 위한 ‘BI도구’등이 있다. - BI 도구를 사용하고 싶을때에는 보고싶은 데이터를 한 곳에 모으는 ‘데이터 마트’를 구축해야한다. 3. 데이터 마트 - 데이터 마트를 ..
1. 빅데이터의 역사와 주변 기술 - 2011년까지 Hadoop과 NoSQL 'DB 분산시스템 기술'이 확립되어 기존의 '데이터웨어하우스'를 보완, 대체하기 시작했다. 그리고 이것이 현재 ’빅데이터‘라는 이름으로 비즈니스화 되었다. 2. 빅데이터 기술 - '클라우드 서비스' 및 'BI 도구'의 보급으로 지난 몇 년동안 빅데이터 기술은 대단히 친밀한 것이 되었다. 이것은 실제로 '여러 기술의 집합체'이며, '데이터 수집'에서 '쿼리엔진', '워크플로 관리'에 이르기까지 다양한 옵션이 제공된다. 사용자는 입맛에 따라 그 중에서 자신에게 필요한 기술을 선택하면 된다. 3. 빅데이터 스토리지 - 빅데이터는 다양한 데이터가 취급되기 때문에, 그것을 축적하는 스토리지를 ‘데이터 레이크’라고 부른다. 축적된 데이터는..
데이터 웨어하우스 기업이나 조직이 각종 데이터들을 한 곳에 모아서 통합하고, 효율적으로 분석하고 조회할 수 있는 중앙 데이터 저장소 일반적으로 기업은 다양한 소스에서 많은 양의 데이터를 생성하고 수집한다. 이러한 데이터는 데이터베이스, 엑셀 파일, 웹 로그 등 다양한 형태로 존재하며, 각각의 데이터 소스에 따라 데이터가 분산되어 있다. 데이터 웨어하우스는 이렇게 분산된 데이터를 한 곳에 통합하여 정리하고, 효율적으로 분석하고 비즈니스 인텔리전스(BI) 도구를 활용하여 의사 결정에 도움을 준다. 데이터 웨어하우스의 주요 특징: 중앙 집중화: 다양한 데이터 소스에서 추출한 데이터를 중앙 데이터베이스에 통합하여 한 곳에서 관리한다. 통합된 데이터: 데이터 웨어하우스는 일관된 형식으로 데이터를 저장하고, 데이터..
NoSQL(Not Only SQL) 기존의 관계형 데이터베이스가 갖는 특징과 제한을 극복하기 위해 개발된 다양한 형태의 비관계형 데이터베이스 주요 특징: 유연한 스키마: 관계형 데이터베이스는 미리 정의된 스키마를 따라야 하지만, NoSQL은 유연한 스키마를 지원한다. 데이터의 구조를 변경하거나 새로운 필드를 추가하는 등의 작업이 쉽고 빠르게 가능하다. 확장성: NoSQL 데이터베이스는 수평적 확장을 지원하여 대용량의 데이터를 효율적으로 처리할 수 있다. 클러스터를 확장하거나 분산 데이터베이스를 구성할 수 있어서 높은 처리 능력을 갖추고 있다. 다양한 모델: NoSQL은 다양한 모델을 제공한다. 일반적으로 키-값 스토어, 컬럼 패밀리 스토어, 문서 스토어, 그래프 스토어 등 다양한 데이터 모델을 지원한다...
Hadoop과 Spark는 둘 다 빅데이터 처리를 위한 분산 처리 프레임워크이지만, 몇 가지 차이점이 있다. 처리 모델: Hadoop: Hadoop은 대표적으로 MapReduce 처리 모델을 사용. MapReduce는 데이터를 작은 블록으로 나누어 병렬 처리하고, Reduce 단계에서 결과를 모아서 처리하는 방식으로 동작 Spark: Spark는 MapReduce보다 훨씬 더 다양한 처리 모델을 제공한다. Spark는 Resilient Distributed Dataset (RDD)라는 데이터 구조를 활용하여 데이터를 빠르게 메모리에 저장하고 다양한 연산을 수행한다. 또한, Spark는 인메모리 처리를 지원하여 디스크 기반의 MapReduce보다 빠른 처리 속도를 제공한다. 성능: Hadoop: Hadoo..
Spark Spark는 대용량 데이터 처리를 위한 빅데이터 분산 처리 엔진으로서, 빠른 속도와 다양한 기능을 제공한다. 아파치 소프트웨어 재단에서 개발된 오픈소스 프로젝트로, Hadoop 기반의 MapReduce보다 높은 처리 속도와 유연성을 가지고 있다. 주요 특징 : 1. 인메모리 처리: Spark는 데이터를 디스크 대신 메모리에 저장하고 처리하기 때문에, 빅데이터 작업에 특히 빠른 속도를 제공한다. 따라서 반복적이거나 실시간 데이터 처리에 용이하다. 2. 다양한 작업 모델: Spark는 기본적으로 데이터 처리를 위한 배치 작업을 지원하지만, 스트리밍, 머신 러닝, 그래프 처리 등 다양한 작업 모델을 지원한다. 3. 간편한 프로그래밍 모델: Spark는 다양한 프로그래밍 언어 (Scala, Java,..
Hadoop은 대용량의 데이터를 처리하고 저장하기 위한 오픈소스 프레임워크. 아파치 소프트웨어 재단에서 개발되었으며, 분산 환경에서 데이터 처리를 가능하게 해주는 핵심 기술들로 구성 주요 구성 요소: 1. HDFS (Hadoop Distributed File System): Hadoop의 데이터 저장 시스템으로, 대용량의 데이터를 여러 머신에 분산하여 저장 파일을 작은 블록으로 분할하고, 각 블록을 여러 노드에 복제하여 데이터의 안정성과 가용성을 보장합니다. 높은 내고장성을 갖추고, 데이터의 스트리밍 액세스에 적합 2. MapReduce: Hadoop의 핵심 처리 모델로, 대규모 데이터 처리를 위해 개발된 프로그래밍 모델 Map 단계에서 데이터를 작은 조각으로 분할하여 병렬 처리하고, Reduce 단계에..