#데이터 전처리2. 분석 변수 처리변수 선택 방법전진선택법 → 하나씩 추가후진제거법 → 모두 있는 상태에서 하나씩 제거단계별 선택법 → 전진 + 후진차원축소(데이터 개수 줄임) : 여러 변수의 정보를 최대한 유지하면서 데이터셋 변수의 갯수를 줄이는 분석방법 → 주요다특주성분 분석(PCA)(선형결합, 새로운 변수생성) : 상관성 높은 변수의 선형 결합으로 차원 축소 & 새로운 변수 생성(정방 행렬)요인 분석(요인 회전) : 요인들을 회전시켜 데이터 내부 잠재 요인을 도출하고 구조를 해석하는 기법(독립/종속변수 구분x)직각회전방식 → 요인들 사이 상관관계를 0으로 만들어 서로 독립적인 것으로 가정(Varimax)사각회전방식 → 요인들 사이 상관관계를 0이 아닌 값으로 유지 (Promax, Oblimin)다차..
# 빅데이터의 이해1. 빅데이터 개요 및 활용빅데이터 활용 3대요소 : 인력, 자원(데이터), 기술→ 인자기(이탈리아 축구 감독) 빅데이터의 3V / 5V / 7V(규 다 속 가 신 정 휘)3VVolume 규모Variety 다양성Velocity 속도4VValue 가치5VVeracity 신뢰성7VValidity 정확성Volatility 휘발성 규 다 속 가 신 정 휘 DIKW 피라미드 → Data Info Knowledge Wisdom 암묵지(나만 아는 지식) / 형식지(문서, 메뉴얼 등으로 형상화) 상호작용공통화표출화연결화내면화공 표 연 내 데이터베이스 특징공용 데이터 : 여러 사용자가 공동 이용통합된 데이터 : 중복 x저장된 데이터변화하는 데이터 : 새로운 데이터 추가, 수정에도 현재데이터 유지 무결성..