#데이터 전처리
2. 분석 변수 처리
- 변수 선택 방법
- 전진선택법 → 하나씩 추가
- 후진제거법 → 모두 있는 상태에서 하나씩 제거
- 단계별 선택법 → 전진 + 후진
- 차원축소(데이터 개수 줄임) : 여러 변수의 정보를 최대한 유지하면서 데이터셋 변수의 갯수를 줄이는 분석방법 → 주요다특
- 주성분 분석(PCA)(선형결합, 새로운 변수생성) : 상관성 높은 변수의 선형 결합으로 차원 축소 & 새로운 변수 생성(정방 행렬)
- 요인 분석(요인 회전) : 요인들을 회전시켜 데이터 내부 잠재 요인을 도출하고 구조를 해석하는 기법(독립/종속변수 구분x)
- 직각회전방식 → 요인들 사이 상관관계를 0으로 만들어 서로 독립적인 것으로 가정(Varimax)
- 사각회전방식 → 요인들 사이 상관관계를 0이 아닌 값으로 유지 (Promax, Oblimin)
- 다차원 척도법(군집 시각화) : 개체 사이의 군집을 시각적으로 표현하는 방법
- 특이값 분해(SVD)(MxN) : MxN 크기의 비정방 행렬 분해
- 선형판별분석 & 독립성분분석
- *차원의 저주 : 데이터 학습 시 차원이 높아질수록 알고리즘 성능이 저하됨
- Z-score ⇒ 정규화
- 요약변수 & 파생병수
- 요약변수 : 수집된 정보를 종합한 변수 (재활용성)
- 파생변수 : 기존 변수를 기반으로 새로운 변수를 생성한 것, 논리적 타당성 필요
- 수치형 변수 변환
- Z-score 정규화 : 평균 0, 표준편차 1로 변환
- (현재 값 - 평균) / 표준편차
- 최소-최대 정규화
- (현재값-최소값) / (최대값-최소값)
- 로그 변환
- 범주형 변수 변환
- 레이블 인코딩 : 데이터를 단순 정수로 변환(0, 1, 2, 3…) / 범주형 값 → 수치형 값
- *컴퓨터가 정수를 순서가 아닌 크기로 인식할 수 있음
- 원-핫 인코딩 : 고유 값 해당 컬럼만 1로 표시. 나머지는 다 0으로 표시 ex) [0, 0, 1]…
- 타깃 인코딩 : 타깃 변수를 평균값으로 변환
- 불균형 데이터 처리 → 정확도 올라가지만, 민감도(=재현율) 낮아짐
- 가중치 균형 적용 : 불균형 데이터에 가중치를 줌
- +) 비용민감학습 : 소수 클래스에 더 많은 가중치를 줌으로서 예측 정확도 향상(모든 클래스의 중요도가 동일하지 않은 경우에 사용)
- 앙상블 기법 : 여러가지 모형들의 예측/분류 결과 조합, 의사결정에 활용
- 언더샘플링(과소표집) : 다수 데이터를 일부만 선택
- 오버샘플링(과대표집) : 소수 데이터를 복사해서 수를 늘림
- *SMOTE : 가상 직선을 활용해 소수 클래스 데이터를 합성하는 오버샘플링 기법 (가상직선 → SMOTE)
- CNN : 데이터 제거하여 대표적인 데이터만 남기는 방법(데이터 제거, 대표 데이터 남김 → CNN)
- 임곗값 이동 : 테스트 단계 적용(임곗값 데이터가 적은쪽에서 많은쪽으로 이동) 테스트 단계에서 적용!!!
- ENN : 소수 클래스 주위에 인접한 다수 클래스 데이터 제거(소수클래스 주위 데이터 제거 → ENN)
- 토멕링크방법 : 토멕링크 제거
#데이터 탐색
1. 데이터 탐색 기초
- EDA(탐색적 자료 분석)
- 데이터의 의미를 찾기위한 통계, 시각화를 의미 ~ 데이터를 이해하며 의미 있는 관계를 찾아애는 과정
- 4가지 주제 : 저항성(이상치 영향 적게 받음), 잔차 계산, 자료변수의 재표현, 그래프를 통한 현시성
- 탐색적 분서
- 데이터 분석 초기에 데이터 셋을 조사하기 위해서 활용
- 상관분석
- 피어슨 상관분석 양적 척도 (연속형 변수, 선형관계)
- 스피어만 상관분석 : 서열 척도 (비선형적 관계 나타냄)
- 첨도와 왜도
- 첨도 : 자료분포가 얼마나 뾰족한지
- 0 = 정규분포, 값이 클수록 뾰족함 (3을 기준으로 정규분포 형태를 판단하기도 함)
- 왜도 : 자료 분포의 비대칭 정도
- 0보다 크면 오른쪽으로 꼬리 긴 형태 (최빈값 < 중앙값 < 평균값) 최 중 평 (오른쪽)
- 0보다 작으면 왼쪽으로 꼬리 긴 형태 (평균값 < 중앙값 < 최빈값) 평 중 최 (왼쪽)
- 첨도 : 자료분포가 얼마나 뾰족한지
2. 고급 데이터 탐색
- 시공간 데이터 (공간 정보 + 시간 흐름)
- 활용 : 시공간 패턴을 통한 예측, 지도를 통한 위치정보, 지리공간의 격자 차트 결합
- ⇒ 패지격(패턴 / 지도 / 격자)
- 다변량 데이터 탐색방법
- 주성분 분석(PCA : 선형결합 & 새로운 변수생성)
- 다차원척도법(MDS) : 데이터 간 거리를 보존하여 차원 축소
- 로컬선형임베딩(LLE)
- *다변량 데이터 = 높은 차원의 데이터 ⇒ 차원을 축소해서 분석해야 함
#통계기법 이해
1. 기술통계
- ⭐️표본 추출 방법
- 랜덤 추출법
- 계통 추출법 : 번호를 부여해서 일정간격으로 추출
- 집락 추출법(랜덤 → 군집 내 이질 / 군집 간 동질) : 여러 군집을 나눈 뒤 군집을 선택하여 랜덤 추출
- 군집 내 이질적, 군집 간 동질적
- 층화 추출법(유사한 요소 → 군집 내 동질 / 군집 간 이질) : 유사한 요소끼리 층을 묶어서 층별 추출
- 군집 내 동질적, 군집 간 이질적
- 복원 / 비복원 추출
- 층화추출(군집 내 동질, 군집 외 이질) 동 이
- ⭐️확률분포 : 확률변수가 특정 값을 가질 확률을 나타내는 함수
- 이산 확률 분포 - 값을 셀 수 있는 분포 (확률질량함수 → 값을 셀 수 있는 분포)
- 이산균등분포 : 모든 곳에서 값 일정 (일정)
- 베르누이분포 : 매 시행마다 오직 2가지 결과 뿐 (베르누이 ⇒ 2개 결과)
- 이항분포 : n번의 독립적 베르누이 실행 중 성공할 확률 p를 가지는 분포 (이항분포 ⇒ n번 베르누이, p확률)
- 기하분포 : 처음 성공할 때까지의 시도횟수를 확률변수로 가지는 분포 (기하분포 ⇒ 처음 성공 시도횟수)
- 다항분포 : 여러 값을 가질 수 있는 확률변수들에 대한 분포 (다항분포 ⇒ 여러값)
- ⭐️포아송분포 : 단위 공간 내에서 발생할 수 있는 사건의 발생 횟수 표현 (포아송 분포 ⇒ 단위(주어진) 공간 내)
- 연속확률분포 - 값을 셀 수 없는 분포(확률밀도함수 → 값을 셀 수 없는 분포)
- 정규분포 - Z 검정
- t분포(평균치 차이) : 두 집단의 평균치 차이 비교 → t검정
- ⭐️자유도 n-1일 때, t분포를 따름⭐️
- 데이터 개수 30개 이상이면 정규성 검정 불필요
- 이유 ⇒ 데이터 개수가 많을수록 정규분포랑 유사한 형태가 되기 때문
- 카이제곱분포(동질성 / 모분산) : 두집단의 동질성 검정 / 단일 집단 모분산에 대한 검정 → 카이제곱 검정
- F분포 : 두 집단 분산의 동일성 검정 → F검정 (독립적인 두 카이제곱 분포)
- 지수분포
- ⇒ 정 T 카 F 지
- 이산 확률 분포 - 값을 셀 수 있는 분포 (확률질량함수 → 값을 셀 수 있는 분포)
- 표본집단의 표본분포
- 표본분포의 평균 = 모집단의 평균
- 표본분포의 분산 = 표본크기 / 모집단의 분산
- 중심극한정리 : 표본 크기가 충분히 크면(n=30) 모집단 분포에 상관없이 표본분포가 정규분포를 이룸
2. 추론통계
- 점추정 : 모집단의 모수를 통계량 특정 값으로 추정
- 점추정 조건 : 불편성 / 효율성 / 일치성 / 충족성 (불 효 일 충)
- 구간추정 : 모집단을 특정 구간으로 추정(95%, 99%를 가장 많이 사용)
- 평균추정 : 동일집단에 대해 처치 전 후 의 평균에 대한 차이를 추정
- 표본크기 30이상 → z-분포 / 30미만 → t-분포
- 비모수 검정
- 모평균의 구간 추정
- 모집단 분산을 알고 있는 경우(신뢰수준 95%→1.96 / 99% → 2.57)
- 모집단 분산을 모르는 경우 ⇒ 정규분포를 사용할 수 없음
- 자유도가 n-1인 t분포를 이용
- 유의 확률(p-확률)
- 유의확률 < 유의수준 ⇒ 귀무가설 기각
- 유의확률 > 유의수준 ⇒ 귀무가설 채택
두 집단 통계검정구분 비모수통계 모수통계 단일표본 윌콕슨부호순위검정 단일표본t검정 두 표본 윌콕슨순위합 독립표본t검정 대응표본 윌콕슨부호순위 대응표본t검정 분산분석 크루스칼 anova 무작위성 런검정 없음 상관분석 스피어만 피어슨 - 가설검정(귀 대 유 기 ⇒ 귀무가설 대립가설 유의수준 기각역)
- 귀무가설(H0) : 일반적으로 생각하는 가설
- 대립가설(H1) : 증명하고자 하는 가설
- 유의수준(a) : 1종 오류를 범할 확률의 허용 한계
- 기각역 : 귀무가설이 기각되고 대립가설이 채택되는 검정통계량의 영역
- 귀무가설이 사실인데 거짓이라고 판정 ⇒ 1종오류(→ 판매자 오류(o → x판정))
- 귀무가설이 거짓인데 사실이라고 판정 ⇒ 2종오류(→ 구매자 오류(x → o판정))
- → 모집단 특성에 대한 주장을 가설로 세우고 표본조사를 통해 가설의 채택여부를 판정
- ⭐️가설검정 문제 풀이 방법⭐️
- 귀무가설 / 대립가설 설정
- 양측 혹은 단측검정확인
- 값이 ‘같지 않다’ → 양측검정
- 값이 ‘크다 or 작다’ → 단측검정
- 일표본 혹은 이표본 확인(모집단이 하나인지, 2개 이상인지)
- 검정통계량 계산과 기각역 판단
- t검정이 경우) 단일 / 대응 / 독립표본 확인 ⇒ 단 대 독
- 모집단에 대한 평균 검정 : 단일표본(단 → 평균검정)
- 동일 모집단에 대한 평균비교 검정 : 대응표본(대 → 동일모 평균비교검정)
- 서로다른 모집단에 대한 평균비교 검정 : 독립표본(독 → 동일않모 평균비교검정)
'Certification > 빅데이터 분석기사' 카테고리의 다른 글
4과목 (2) | 2024.09.03 |
---|---|
3과목 (2) | 2024.09.03 |
1과목 (0) | 2024.08.23 |