# 빅데이터의 이해
1. 빅데이터 개요 및 활용
- 빅데이터 활용 3대요소 : 인력, 자원(데이터), 기술
→ 인자기(이탈리아 축구 감독)
- 빅데이터의 3V / 5V / 7V(규 다 속 가 신 정 휘)
3V- Volume 규모
- Variety 다양성
- Velocity 속도
- Value 가치
- Veracity 신뢰성
- Validity 정확성
- Volatility 휘발성
규 다 속 가 신 정 휘
- DIKW 피라미드 → Data Info Knowledge Wisdom
- 암묵지(나만 아는 지식) / 형식지(문서, 메뉴얼 등으로 형상화) 상호작용
- 공통화
- 표출화
- 연결화
- 내면화
- 데이터베이스 특징
- 공용 데이터 : 여러 사용자가 공동 이용
- 통합된 데이터 : 중복 x
- 저장된 데이터
- 변화하는 데이터 : 새로운 데이터 추가, 수정에도 현재데이터 유지 무결성
- 빅데이터가 만들어내는 변화
- 표본 → 전수조사
- 사전처리 → 사후처리
- 질 → 양
- 인과관계 → 상관관계
- 데이터싸이언스의 핵심 구성 요소 : Analytics(이론적 지식) / IT(프로그래밍적 지식) / 비즈니스 분석(비즈니스적 능력)
- 데싸의 필요 역량
- 하드스킬 → 이론적 지식
- 소프트 스킬 → 창의력 분석력 리더십
- 하둡 : 여러 컴퓨터를 하나로 묶어 대용량 데이터를 처리하는 오픈소스 솔루션
- KB → MB → GB → TB → PB → EB → ZB → YB
- 데이터 단위2의 10승, 20승, 30승…
- 빅데이터 조직 및 인력방안
- 집중 구조 : 독립 전담 조직 구성
- 기능 구조 : 각 현업 부서들에서 직접 분석(따로 분석 조직이 없음)
- 분산 구조 : 분석 조직의 인력을 현업 부서에 배치
2. 빅데이터 기술 및 제도
- 빅데이터 플랫폼의 계층 구조
- 인프라(하위) < 플랫폼 < 소프트웨어(상위)
- 딥러닝 < 머신러닝 < 인공지능
- 약인공지능 : 주어진 조건에서만 동작
- 강인공지능 : 인간과 동일한 사고가 가능
- 머신러닝의 종류
- 지도학습 : 정답을 알려줌
- 비지도학습 : 정답을 알려주지 않음
- 강화학습 : 보상을 받기위해 학습
- 전이학습 : 사전에 훈련된 모델을 재사용하는 학습방식
- fine-tuning : 이미 학습된 모델을 특정 타겟에 맞게 재조정
- 데이터 3법 → 개인정보보호법, 정보통신망, 신용정보법(개 망 신)
- 주요특징
- 가명정보의 개념 도입 → 가명 처리 시 동의없이 활용 가능
- 개인정보보보호 거버넌스 체계 효율화
- 개인정보처리자 핵심 강화 → 사용자의 책임
- 개인정보 판단기준 명확화
- 주요특징
- 개인정보 비식별 조치 가이드라인 : 사전검토 → 비식별조치 → 적정성평가 → 사후관리(비식별 조치 가이드라인 → 사 비 적 사)
#데이터분석 계획
1. 분석방안수립
- 분석 대상과 방법
- 최적화
- 솔루션
- 통찰
- 발견
- 대상 / 방법
- o o
- x o
- x x
- o x
- 분석 기획 방안
- 과제 중심적 접근 : 빠르게 해결
- 장기적 마스터 플랜 : 지속적 분석 원인 해결
- 하향식 접근 방법
- 문제가 먼저 주어지고 해결방법을 찾기위해 진행
- 문제 탐색 → 문제 정의 → 해결방안 → 타당성 도출
- 문제 탐색 : 비즈니스 모델 캔버스 단순화
- 업무 - 제품 - 고객 - 규제와 감사 - 지원 인프라
- 문제가 먼저 주어지고 해결방법을 찾기위해 진행
- 상향식 접근 방법
- 문제 정의 자체가 어려울때
- 분석 방법론의 구성요소 : 전차, 방법, 도구와 기법, 템플릿과 산출물
- 분석과제에서 고려해야할 5가지 요소
- 데이터 크기, 속도, 복잡도, 분석복잡도, 정확도
- 크 속 복 분 정
- ROI 관점
- 시급성 : 비즈니스 관점(Value)
- 난이도 ; 투자요소 관점 (3V → 다양성, 속도, 규모)
- 분석 방법론 모델
- 폭포수 모델 : Top - Down
- 나선형 모델 : 점진적으로 완성, 위험요소 제거에 초점
- 프로토타입 모델 : 프로토타입 우선 개발한 후 보완
- 애자일 : 일정 주기를 가지고 프로토타입 끊임없이 수정 → 고객 니즈 반영
- KDD 분석 방법론
- 데이터 선택 → 전처리 → 변환 → 마이닝 → 결과 평가
- Crisp-DM 분석 방법론(엡데준 분모평)
- 업무 이해 → 데이터 이해 → 데이터 준비 → 분석 → 모델링(모델 평가) → 평가(모델 적용성 평가)
- 빅데이터 분석 방법론
- 기획 → 준비 → 분석 → 시스템 구현 → 평가 및 전개(빅데이터 분석 방법론 → 기준분시평)
- P P A D D
- 분석 기획
- 비즈니스 이해 및 범위 설정 : 구조화된 작업 기술서(SOW) 작성
- 프로젝트 정의 및 계획 수립 : 작업분할구조도(WBS) 작성
- 프로젝트 위험 계획 수립 : 회피, 전이, 완화, 수용
- 데이터 분석
- 분석용 데이터 준비 → 텍스트 분석 → 탐색적 분석(EDA) → 모델링(데이터 분석) → 모델 평가 및 검증
- 분석 기획
- 분석 거버넌스 체계 구성요소
- 조직, 프로세스, 시스템, 데이터, 분석관련 교육 및 마인드 육성체계
- 데이터 분석 수준 진단
- 분석 준비도 : 분석 업무 파악, 분석 인력 및 조직, 기법, 데이터, 문화
- 분석 성숙도 : CMMI 모델 기반, 비즈니스 / 조직, 역량 / IT 부문 관점
- 데이터 분석 성숙도 모델 → 기업의 도입 적정성 여부 평가
- 데이터 거버넌스
- 전사 차원에서 데이터에 대해 표준화된 관리 체계 수립
- 구성요소 : 원 조 프 (원칙, 조직, 프로세스)
#데이터 수집 및 저장 계획
1. 데이터 수집 및 전환
- 데이터 수집 기술
- ETL
- FTP - TCP/IP 네트워크에서 컴퓨터 간 파일 교환
- API
- 스쿱 - RDBMS 와 하둡 간 데용량 데이터 전송
- 크롤링
- 반정형 데이터는 ‘메타 데이터’를 포함
- 개인정보 비식별화(마가 총범)
- 데이터 마스킹
- 가명처리
- 총계처리
- 범주화
- 프라이버시 보호 모델
- k-익명성 : 일정수준 이상으로 비식별
- l-다양성 : 다양성을 높음
- t-근접성 : 분포를 낮춤(t이하)
- 데이터 품질 기준 : 정확성, 일관성, 유용성, 접근성, 적시성, 보안성, 무결성
2. 데이터 적재 및 저장
- 분산파일 시스템 → 네트워크를 통해 여러 호스트 컴퓨터 파일에 접근할 수 있게하는 파일 시스템(디스크 파일처리)
- HDFS(하둡 분산파일 시스템)
- 분산처리 → 시스템의 과부화 및 병목현상 해소
- 맵리듀스(ISMSR)
- 분산데이터를 병렬로 처리
- Input → Splitting → Mapping → Shuffling → Reducing
- 입력데이터를 쪼개서 맵핑하고 섞은 후 분류
- GFS(구글 데이터 처리를 위해 설계)
- HDFS(하둡 분산파일 시스템)
- 데이터베이스
- 관계형 데이터 베이스 : 정형 데이터 처리
- 병렬 DBMS : 대규모 처리를 위해 일정 단위로 나눠 병렬처리하는 시스템
- NoSQL : 비정형데이터처리
- 관계형 데이터 베이스 : 정형 데이터 처리
- DW, DM, DataLake
- 데이터 웨어하우스(DW) : 정형데이터 저장 + 주제지향성, 데이터 통합(일관된 형식), 시계열성, 비휘발성
- 데이터 마트(DM) : 데이터 웨어하우스의 한 분야, 특정 목적을 위해 사용
- 데이터레이크 : 다양한 유형의 대량 데이터 저장, 원시(raw) 및 비정형 데이터 저장, 하둡과 연계
'Certification > 빅데이터 분석기사' 카테고리의 다른 글
4과목 (2) | 2024.09.03 |
---|---|
3과목 (2) | 2024.09.03 |
2과목 (0) | 2024.08.25 |