#분석모형 설계
1. 분석 절차 수립
- 과대적합 : 모델이 지나치게 데이터를 학습해 매우 복잡해진 모형
- 과소적합 : 데이터를 충분히 설명하지 못하는 단순한 모델
- 비지도 학습 → Lable이 알려지지않은 데이터를 학습(군집분석, 연관, 신경망…) 종속변수x(k평균)
- 지도학습 → Lable o, 종속변수 o (로지스틱, 의사결정나무, K-NN)
- ⭐️초매개변수 → 사람에 의해 수작업으로 설정
- ⭐️매개변수 →측정되거나 데이터로부터 학습
2. 분석 환경 구축
- 분석 도구 선정
- R : 통계 분석에 특화, 처리속도 느림, 강력한 시각화
- Python : 간결함, 높은 가독성, R보다 빠른 속도, R보다 약한 시각화
- 데이터 분할 : 과대적합/과소적합 방지 및 데이터 불균형 문제 해결
- 훈련용(Training) : 모델 학습 - 50%
- 검증용(Validation) - 30%
- 평가용(Test) : 모델 평가 - 20%
#분석기법 적용
1. 분석기법
- 회귀분석 : 독립변수가 종속변수에 미치는 영향을 파악
- 잔차 : 실제값과 예측값의 차이 (오차 = 모집단 기준, 잔차 = 표본집단 기준)
- 회귀계수 추정방법 : 최소제곱법
- 잔차의 제곱합이 최소가 되는 회귀계수와 절편을 구하는 방법
- 회귀모형 평가 : R-square (0~1사이의 값)
- ⭐️다중선형회귀분석
- 평가 지표 → AIC(실제 데이터 분포, 모델 예측 데이터 분포) / Mallow’s Cp(적절하지 않은 독립변수추가 패널티 부과) / 결정 계수(회귀모형이 실젯값 얼마나 잘 나타내는지)
- 독립변수, 종속변수 → 선형관계
- 오차항은 독립, 오차항 평균 = 0
- ⭐️선형회귀분석(범주형이 아닌 연속형)의 가정 ⇒ 선 독 정 등 비
- 선형성 : 종속 - 독립변수는 선형관계
- 독립성 : 잔차와 독립변수 간 상관관계가 없음
- 다중공선성 : 독립변수 서로 간에 강한 상관관계가 나타나는 문제 → 차원 축소, 상관계수 분해를 통해 해결
- 정상성(정규성) : 잔차가 정규분포의 특성을 지님
- 등분산성 : 잔차의 분산이 고르게 분포 / 오차항의 분산이 독립변수와 무관하게 일정
- 비상관성 : 잔차들끼리 상관이 없어야 함
- 회귀 모형 변수 선택 방법
- 전진선택법
- 후진선택법
- 단계별 선택법 : 전진+후진 / 변수 추가 시 벌점(AIC, BIC) 고려
- ⭐️로지스틱 회귀분석 : ⭐️반응변수(종속변수)가 범주형 데이터⭐️일 때 활용
- 반응변수를 1과 0으로 2진분류 할때 사용
- 오즈 : 성공 확률과 실패 확률의 비
- 로짓(logit) 변환 : 오즈에 자연로그를 취하는 방법
- → 독립변수가 n 증가하면 확률이 e의 n승 만큼 증가
- ⭐️의사결정 나무 : 여러 개 분리 기준으로 최종 분류 값을 찾음
- 분류에서의 분할 방법 : CHAID, CART(지니지수), C4.5/C5.0(엔트로피지수)
- 회귀에서의 분할 방법 : CHAID, CART
- CHAID → 불순도의 척도로 카이 제곱 통계량 사용
- 정지규칙 : 분리를 더 이상 수행하지 않게 함
- 가지치기 : 일부 가지를 제거하여 과적합 방지
- 인공신경망 : 인간의 뇌 구조를 모방한 퍼셉트론 활용
- 다중 퍼셉트론 → 입력층~출력층 사이에 1개 이상의 은닉층 보유
- *은닉층 수는 사용자가 직접 설정
- ⭐️활성화 함수 : 인공신경망의 선형성 극복(XOR 문제 해결)
- 시그모이드 함수 : 0~1 사이 값을 가지며 로지스틱 회귀분석과 유사
- 소프트맥스 함수 : 목표 데이터가 다범주인 경우 각 범주에 속할 사후확률을 제공
- 하이퍼볼릭 탄젠트 함수 : 시그모이드의 중심 값을 0으로 이동 → -1 ~ 1 사이의 값
- ReLU 함수 : 기울기 소실 문제 극복 → 0 또는 1 둘 중 하나 값
- 인공신경망 학습 방법
- 역전파 알고리즘 : 가중치를 수정하여 오차를 줄임(출력층 → 입력층)
- 경사하강법 : 기울기를 낮은 쪽으로 이동시켜 극값(global minimum)에 이를 때까지 반복(부스팅 - GBM)
- 서포트벡터머신(SVM) : 마진이 최대가 되는 초평면을 찾아 분류
- 초평면(하이퍼플레인) : 데이터를 구분하는 기준이 되는 경계
- 서포트벡터 : 클래스를 나누는 초평면과 가까운 위치의 샘플
- 마진 : 하이퍼플레인과 서포트벡터 사이의 거리
- 커널함수 : 저차원 데이터를 고차원 데이터로 변경하는 함수 ⇒ 선 다 가 시
- SVM 유형
- 하드마진분류 : 오류 비허용
- 소프트마진분류 : 마진 내 어느 정도 오류 허용
- 비지도학습(종속변수 x) → k-평균
- 지도학습(종속변수 o) → 로지스틱, 의사결정나무, K-NN
- 군집분석 : 비지도 학습, 데이터 간 거리나 유사성을 기준으로 군집 나눔
- 계층적 군집분석
- 거리측정 방법 : 최단, 최장, 평균, 중심, 와드
- 덴드로그램(Tree 모양 그래프)
- 비계층적 군집분석
- ⭐️K평균 군집화
- 지정된 군집 개수에 따라 평균을 기준으로 중심점 설정 → 중심점 변경 시 군집 변할 수 있음
- 이상치에 민감 → 이에 대응하기 위해 K-medoids 군집방법 존재
- k값 구하기 → 엘보우 기법
- DBSCAN
- 밀도기반, 군집개수 지정 필요 없음
- 노이즈 / 이상치에 강함
- 기타
- 퍼지군집화
- EM알고리즘
- 자기조직화지도(SOM) : 신경망 활용하여 차원축소(고차원 → 저차원)를 통해 군집화
- ⭐️K평균 군집화
2. 고급분석기법
- 분할표 : 여러 개 범주형 변수를 기준으로 관측치 기록한 표 (오즈비 계산)
- ⭐️⭐️⭐️PCA(차원 축소 기법)
- 상관관계가 있는 고차원 자료, 자료의 변동 최대한 보존 → 저차원 자료 변환
- 차원축소 → 상관성이 높은 변수들의 선형 결합 / 차원 축소 시 변수 추출 방법 이용
- 수학적 행렬 분해 → 고윳값 분해 / 특이값 분해, 고윳값 높은 순으로 정렬, 공분산 행렬, 수학적으로 직교 선형 변환 정의
- 분산이 큰 벡터 선택 → 가장 큰 데이터 변동성을 기반으로 첫번째 벡터 축 pc1생성, pc2는 pc1 직각, pc3는 pc1, pc2 직각
- 다변량 분석
- 요인분석 : 다수 변수들의 상관관계를 분석하여 소수 요인으로 축약하는 기법
- 요인추출방법 : 주성분분석, 공통요인분석
- 요인회전
- 요인분석 : 다수 변수들의 상관관계를 분석하여 소수 요인으로 축약하는 기법
- ⇒ 다변량 데이터들은 분석할 때 차원축소!
- ⭐️시계열 분석 : 시간 흐름에 따라 관찰된 자료 특성을 파악하여 미래 예측
- 정상성 = 모든 시점에 일정한 평균과 분산을 가져야 함*자기상관 : 현재 상태가 과거&미래와 밀접한 관련이 있음 = 독립적이지 않음(시계열 데이터에서의 공분산 기법)
- *차분 : 현 시점의 자료를 이전 값으로 빼는 방법
- 백색잡음 : 시계열 모형의 오차항 의미
- ⭐️시계열 모형 ⇒ 자 이 누(자기 이동 자기회귀누적이동)
- 자기회귀(AR) 모형 : 자신의 과거 값이 미래를 결정
- 이동평균(MA) 모형 : 백색잡음들의 선형결합으로 표현 (관측치에 모두 동일 가중치 부여)
- *지수평활법 : MA 종류 중 하나로, 최근 관측치에 더 높은 가중치를 부여
- 자기회귀누적이동평균(ARIMA) 모형 = AR + MA
- : ARIMA (p, d, q)에서 d는 차분 횟수를 의미
- ⭐️분해시계열 - 시계열에 영향을 주는 요인을 분리해 해석하는 방법 ⇒ 추 계 순 불(추세 / 계절 / 순환 / 불규칙)
- 추세 요인 : 장기적으로 증가하거나 감소
- 계절 요인 : 특정 시기에 나타나는 고정된 주기
- 순환(주기, cycle) 요인 : 알려지지 않은 주기, 중장기적
- 불규칙 요인 : 설명 불가 요인 ⇒ 추 계 순 불
- 베이지안 기법
- 베이즈 정리
- 나이브베이즈 분류 = 나이브(독립) + 베이즈 이론
- ⭐️인공신경망
- DNN : 은닉층 2개 이상으로 구성된 인공신경망, 오차역전파, 시그모이드 < ReLU
- CNN(합성곱 신경망) : 이미지에서 패턴을 찾음
- RNN(순환 신경망) : 순차적 데이터(시계열 데이터) 학습에 특화 / 입력층, 은닉층, 출력층 구성, 은닉층에거 재귀적인 신경망을 갖고있는 알고리즘
- 장기의존성 문제 ~ 과거 정보가 전달되지 못함
- ⇒ LSTM / GRU 모델(Reset, Update)로 극복
- 오토인코더 : 입력 데이터를 인코더로 압축한 후 디코더로 재구성하는 비지도 학습 신경망
- ⭐️텍스트 마이닝
- 통계적 기반
- TDM : 문서에서 등장하는 단어들의 빈도를 행렬로 표현
- TF-IDF : 단어 등장 빈도를 특정 문서, 전체 문서에서 비교하는 것(얼마나 중요한지? 가중치)
- 단어 수준 기반
- Word2Vec : 거리를 기반으로 하여 벡터로 표현 ~ CBOW, Skip-Gram
- FastText : 하나의 단어를 여러 개로 잘라서 벡터로 계산
- ELMo : 양방향 언어 모델 적용
- 통계적 기반
- 트랜스포머 : RNN의 느린 속도와 병렬 처리 불가 단점을 개선한 모델 (BERT, GPT)
- ⭐️앙상블 분석 : 여러 개의 예측 모형들을 조합 → 전체적인 분산을 감소시켜 성능 향상
- 보팅 : 다수결 방식
- 배깅 : 복원추출하는 붓스트랩으로 자료생성, 각자료를 보팅으로 결합
- 부스팅 : 잘못된 분류 데이터에 큰 가중치를 주는 방법(순차적) ~ 이상치에 민감, 병렬처리 불가
- 랜덤포레스트 : 배깅 + 의사결정트리 ⇒ 분류기 여러개 쓸수록 성능 우수하며 이상치에 강함
- 비모수검정
- 모집단에 대한 정보가 없을 때, 관측 자료의 분포 가정 불가한 상태일 때
- 두 관측 간 순위나 차이로 검정
- 종류 : 부호검정, 순위합검정, 만-휘트니 U 검정, 크러스컬-월리스 검정
3과목 🐶빡세다…
'Certification > 빅데이터 분석기사' 카테고리의 다른 글
4과목 (2) | 2024.09.03 |
---|---|
2과목 (0) | 2024.08.25 |
1과목 (0) | 2024.08.23 |