빅데이터를지탱하는기술

Data Engineering/빅데이터를 지탱하는 기술

[빅데이터를 지탱하는 기술] 빅데이터의 분산 처리

1. 빅데이터의 세계 빅데이터의 세계에서는 그냥 그대로는 DWH에 가져올 텍스트 파일 등의 ‘비구조화 데이터’ 또는 ‘스키마 리스 데이터’ 등을 취급하는 경우가 많으므로 이러한 데이터를 여러 컴퓨터에서 ‘분산 처리’하는 방법이 요구된다. 2. Hadoop과 Spark - ‘Hadoop'과 ’Spark'는 널리 이용되고 있는 분산처리프레임워크다. - Hadoop은 ‘분산 파일 시스템’에서 ‘리소스 관리자’ 그리고 ‘Mapreduce'에 의한 ‘분산처리’에 이르기까지 종합적인 컴포넌트를 제공하여 많은 분산 애플리케이션의 공통 플랫폼으로 이용된다. - Spark는 ‘대량의 메모리를 활용한 고속의 데이터 처리 기반‘이므로, ‘mapreduce'를 대체하는 ‘분산 프로그래밍 환경‘이로 사용된다. 3. Hive와 ..

Data Engineering/빅데이터를 지탱하는 기술

[빅데이터를 지탱하는 기술] 빅데이터 탐색

1. 열 지향 스토리지 - 데이터를 대화식으로 시각화하고 그 내용을 알기 위해선 ‘초단위 고속집계’가 필요하다. - 데이터 양을 모두 읽어들일 수 있을때는 한번에 BI도구로 읽어들일 수 있지만, 메모리상에 올릴 수 없을 정도로 많은 양의 데이터를 처리해야한다면 ‘열 지향 스토리지’가 필요하다. - ‘MRP 데이터베이스’를 이용하면 병렬화에 의한 쿼리 고속화가 가능하다. 2. 시각화 - 시각화에 사용되는 도구로는 주로 ‘애드혹 분석’에 사용되는 ‘노트북’ 및 ‘지속적인 모니터링’에 사용되는 ‘대시보드‘ 또는 ‘대화형으로 데이터를 시각화‘하기 위한 ‘BI도구’등이 있다. - BI 도구를 사용하고 싶을때에는 보고싶은 데이터를 한 곳에 모으는 ‘데이터 마트’를 구축해야한다. 3. 데이터 마트 - 데이터 마트를 ..

Data Engineering/빅데이터를 지탱하는 기술

[빅데이터를 지탱하는 기술] 빅데이터 기초 지식

1. 빅데이터의 역사와 주변 기술 - 2011년까지 Hadoop과 NoSQL 'DB 분산시스템 기술'이 확립되어 기존의 '데이터웨어하우스'를 보완, 대체하기 시작했다. 그리고 이것이 현재 ’빅데이터‘라는 이름으로 비즈니스화 되었다. 2. 빅데이터 기술 - '클라우드 서비스' 및 'BI 도구'의 보급으로 지난 몇 년동안 빅데이터 기술은 대단히 친밀한 것이 되었다. 이것은 실제로 '여러 기술의 집합체'이며, '데이터 수집'에서 '쿼리엔진', '워크플로 관리'에 이르기까지 다양한 옵션이 제공된다. 사용자는 입맛에 따라 그 중에서 자신에게 필요한 기술을 선택하면 된다. 3. 빅데이터 스토리지 - 빅데이터는 다양한 데이터가 취급되기 때문에, 그것을 축적하는 스토리지를 ‘데이터 레이크’라고 부른다. 축적된 데이터는..

달려라 국나뇽
'빅데이터를지탱하는기술' 태그의 글 목록