1. 분석모형 평가
- 분석모델 평가지표
- ⭐️⭐️⭐️⭐️⭐️혼동행렬(오분류표)
- 재현율(Recall) = 민감도(sensitivity) = TP Rate = Hit Rate
- F-1 Score : 정밀도(Precision)와 재현율(Recall)=민감도(sensitivity)의 조화평균
F1-Score = 2 * (Precision*Recall / Precision+Recall) - 특이도(Specificity) : 실제 False 인 것 중 맞춘 것
- 정밀도와 재현율은 Trade - off 관계
클래스 positive negative Positive TP FP Negative FN TN
- ⭐️⭐️⭐️⭐️⭐️혼동행렬(오분류표)
- TPR(참긍정률)→재현율
- FPR(거짓긍정률)
- 민감도 → 긍정긍정 긍정맨인데 / 특이도 → 부정부정 부정맨
- ⭐️⭐️⭐️ROC 커브
- 가로축 = 1 - 특이도(=FP Rate) / 세로축 = 민감도
- 면적(AUC)이 1에 가까울수록 성능 좋다고 평가
- 참조선(reference line)에 멀수록 성능이 우수(참조선은 0.5)
- 이익도표(Lift Table)
- 불균형 데이터 집합에 사용, 성과 향상도를 각 등급별로 파악할 수 있음
- 향상도 곡선 : 이익도표를 시각화한 곡선
- 회귀모델 평가지표
- 손실함수(비용함수) : MSE, MAE, RMSE … 등
- 결정계수(R square) → 0~1 사이의 값
- ⭐️교차 검증
- 홀드아웃 : 랜덤하게 훈련용, 평가용 데이터 셋 분리
- K-fold 교차검증 : 데이터를 k개 집단으로 구분하여 k-1개 학습, 나머지 1개로 평가
- LOOCV : 1개의 데이터로만 평가, 나머지로 학습
- 붓스트랩 : 복원추출 (데이터 부족과 불균형 문제 해소)
- ⭐️적합도 검정
- Q-Q plot : 데이터 정규성을 시각적으로 파악(대각선 선을 따라 값들이 분포하면 정규성 만족)
- 카이제곱 검정
- 샤피로 윌크 검정 : 선형 상관관계를 측정하여 검정, p-value 0.05보다 크면 정규성 가정
- 콜모고로프 스미르노프 검정
2. 분석모형 개선
- 하이퍼 파라미터
- 경사하강법 : a가 너무 크면 값이 높은 곳으로 발산, 너무 작으면 오랜 시간이 걸림
- Batch Size : 하나의 소그룹에 속하는 데이터 수
- Epoch - 모든 데이터셋을 학습하는 횟수
- Iteration - Epoch를 한 번 마치기 위해 필요한 배치 수
- 하이퍼파라미터 튜닝 → 메 그 랜 베
- : 메뉴얼 서치(경험 또는 감으로 설정), 그리드 서치, 랜덤 서치, 베이지안 최적화(기존 평가 결과를 활용)
- 경사하강법 옵티마이저
- 확률적 경사 하강법 : 기울기가 가장 작은 지점에 도달하도록 함
- 모멘텀 : 관성 물리법칙 적용, 빠른 최적점 수렴 가능
- AdaGrad : 기울기 크기에 따라 학습률을 조정 / 처음엔 크게 → 점차 작게 학습
- Adam : 모멘텀+AdaGrad ⇒ 좌우 흔들림이 덜함
- 과대적합방지
- 정규화, 드롭아웃(은닉층의 노드 무작위 삭제)
#분석결과 해석 및 활용
2. 분석결과 시각화
- ⭐️시각화 분류
- 시간 시각화 : 막대, 점, 선, 계단식
- 공간 시각화 : 등치지역도, 카토그램, 등치선도, 버블 플롯
- ⭐️관계 시각화 : 산점도, 산점도 행렬, 버블차트, 히스토그램, 네트워크 그래프 // 산 행 버 히 네
- 데이터 사이 관계나 분포, 패턴 표현 ⇒ 산 행 버 히 네 (산점도, 산점도 행렬, 버블차트, 히스토그램, 네트워크 그래프)
- ⭐️비교 시각화 : 히트맵, 체르노프 페이스, 스타차트, 평행좌표계 // 플 히 체 스 평
- 여러 변수 간 차이나 유사성 비교 ⇒ 플 히 체 스 평 (플로팅바차트, 히트맵, 체르노프차트, 스타차트, 평행차트)
- 인포그래픽 = 정보 + 시각적 형상
- 패턴 발견보다 일반인에게 설득형 메시지 전달이 목적
- 유형 : 타임라인(시간 순서로 나열), 컨셉 맵(주제-내용 간 연관성)
'Certification > 빅데이터 분석기사' 카테고리의 다른 글
3과목 (2) | 2024.09.03 |
---|---|
2과목 (0) | 2024.08.25 |
1과목 (0) | 2024.08.23 |