1. 빅데이터의 역사와 주변 기술
- 2011년까지 Hadoop과 NoSQL 'DB 분산시스템 기술'이 확립되어 기존의 '데이터웨어하우스'를 보완, 대체하기 시작했다. 그리고 이것이 현재 ’빅데이터‘라는 이름으로 비즈니스화 되었다.
2. 빅데이터 기술
- '클라우드 서비스' 및 'BI 도구'의 보급으로 지난 몇 년동안 빅데이터 기술은 대단히 친밀한 것이 되었다.
이것은 실제로 '여러 기술의 집합체'이며, '데이터 수집'에서 '쿼리엔진', '워크플로 관리'에 이르기까지 다양한 옵션이 제공된다. 사용자는 입맛에 따라 그 중에서 자신에게 필요한 기술을 선택하면 된다.
3. 빅데이터 스토리지
- 빅데이터는 다양한 데이터가 취급되기 때문에, 그것을 축적하는 스토리지를 ‘데이터 레이크’라고 부른다.
축적된 데이터는 분산 시스템에서 가공, 집계되고 '데이터 마트'에 기록된다. 그리고 그것을 BI도구 등을 이용해 엑세스하고 원하는 정보를 얻을 수 있다.
4. 테이블 형식의 데이터
- python을 사용하면 ‘Dataframe'을 사용하여 테이블 형식에 데이터를 처리할 수 있다.
이것은 특히 ‘로우데이터’를 취급하는 데이터 엔지니어에게 유용하고 SQL로 집계한 결과를 스크립트로 처리하고자 할때도 유리하다.
빅데이터 분석도 결국 ‘이와 같은 걸 어떻게 대규모로 실행할 것인가?‘ 하는 문제다.
궁극적으로는 빅데이터나 스몰데이터 모두 동일하게 분석할 수 있는 것이 가장 이상적이다. 그러나 현실적으로는 빅데이터를 다루는 것이 스몰데이터만큼은 쉽지 않다. 빅데이터를 전개하기 위해 학습해야한다.
'Data Engineering > 빅데이터를 지탱하는 기술' 카테고리의 다른 글
[빅데이터를 지탱하는 기술] 빅데이터의 분산 처리 (1) | 2023.11.15 |
---|---|
[빅데이터를 지탱하는 기술] 빅데이터 탐색 (0) | 2023.11.13 |
[빅데이터를 지탱하는 기술] 데이터 웨어하우스와 데이터 마트 (0) | 2023.08.01 |
[빅데이터를 지탱하는 기술] NoSQL 데이터베이스 (1) | 2023.08.01 |
[빅데이터를 지탱하는 기술] Hadoop VS Spark (0) | 2023.07.28 |