전체 글
愚公🏃移山⛰️주야경독(feat. HDAT 2)
머신러닝.. 꽤나 맛있을지도..?Pandas(모듈)새로운 자료구조 2개Series(1차원), DataFrame(2차원)엑셀 데이터를 df로 만들기컬럼 ⇒ 인덱스 ⇒ 데이터 값 순으로 가공컬럼(사용할 컬럼 추리기, 컬렴명을 사용하기 좋게 바꾸기)인덱스데이터 값(결측 데이터 처리, 데이터 타입 체크)시각화데이터를 잘 이해하기 위해서, 살펴보기 위해서 ⇒ 현미경카테고리 데이터(Countplot)연속된 숫자 데이터(히스토그램)관계 : 카테고리 + 숫자(boxplot)숫자 + 숫자 (산포도)머신러닝사이킷런 ← 잘 만들어짐feature engineering하이퍼 파라미터 세팅모델 생성모델 훈련(fit)예측(predict), 검증(score)머신러닝 데이터 나누기feature(2차원) // target(1차원)tar..
주경야독(feat. HDAT 1)
Pandas데이터 → 행과 열이 있는 2차원 데이터 테이블테이블을 판다스로 직접 다룰 수 있음2개의 새로운 자료구조를 제공 ⇒ Series, DataframeSeries1차원 자료구조구성요소 2개순서가 있어서 슬라이싱과 for문 사용 가능Series의 기능들math_sr.sort_values(ascending=False) # D 100 # A 89 # C 48 # E 48 # B 39 # dtype: int64필터링 → 조건을 이용해서 데이터를 가져오기math_sr[math_sr DataFrame2차원 자료구조math = [89, 39, 48, 100, 48]eng = [89, 90, 91, 92, 100]kor = [50, 60, 70, 80, 90]temp = {'math':math, 'eng':en..
tableau prep & Desktop 간 데이터 오류
(본 포스팅은 *Tableau prep 2024.2.0 기준으로 작성되었습니다.) 안녕하세요. 오늘은 prep 흐름 상에는 이상 없이 데이터 형식과 데이터가 잘 들어가있는데, Desktop에서 BI 개발하는 과정에서 오류가 나는 상황에 대해 알아보겠습니다. 여기 이렇게 prep에서 흐름으로 작업한 데이터가 있습니다. 분명 여기서는 ['WORK_DATE'] 컬럼에 값이 datetime 형식으로 잘 들어가있습니다. 그런데 이 데이터를 출력하고 서버에 게시해서 Desktop에서 데이터를 연동하고 보니 Desktop에서는 datetime이긴 하지만 값들이 1899-12-30으로 싹 채워져있더라고요. 이게 아무리 찾아봐도 이유를 모르겠습니다. 제가 내린 결론은 tableau 렉이라고밖에 생각되지 않는데, 혹..
4과목
1. 분석모형 평가분석모델 평가지표⭐️⭐️⭐️⭐️⭐️혼동행렬(오분류표)재현율(Recall) = 민감도(sensitivity) = TP Rate = Hit RateF-1 Score : 정밀도(Precision)와 재현율(Recall)=민감도(sensitivity)의 조화평균 F1-Score = 2 * (Precision*Recall / Precision+Recall)특이도(Specificity) : 실제 False 인 것 중 맞춘 것정밀도와 재현율은 Trade - off 관계클래스positivenegativePositiveTPFPNegativeFNTNTPR(참긍정률)→재현율FPR(거짓긍정률)민감도 → 긍정긍정 긍정맨인데 / 특이도 → 부정부정 부정맨 ⭐️⭐️⭐️ROC 커브가로축 = 1 - 특이도(=FP R..
3과목
#분석모형 설계1. 분석 절차 수립과대적합 : 모델이 지나치게 데이터를 학습해 매우 복잡해진 모형과소적합 : 데이터를 충분히 설명하지 못하는 단순한 모델비지도 학습 → Lable이 알려지지않은 데이터를 학습(군집분석, 연관, 신경망…) 종속변수x(k평균)지도학습 → Lable o, 종속변수 o (로지스틱, 의사결정나무, K-NN)⭐️초매개변수 → 사람에 의해 수작업으로 설정⭐️매개변수 →측정되거나 데이터로부터 학습2. 분석 환경 구축분석 도구 선정R : 통계 분석에 특화, 처리속도 느림, 강력한 시각화Python : 간결함, 높은 가독성, R보다 빠른 속도, R보다 약한 시각화데이터 분할 : 과대적합/과소적합 방지 및 데이터 불균형 문제 해결훈련용(Training) : 모델 학습 - 50%검증용(Vali..
2과목
#데이터 전처리2. 분석 변수 처리변수 선택 방법전진선택법 → 하나씩 추가후진제거법 → 모두 있는 상태에서 하나씩 제거단계별 선택법 → 전진 + 후진차원축소(데이터 개수 줄임) : 여러 변수의 정보를 최대한 유지하면서 데이터셋 변수의 갯수를 줄이는 분석방법 → 주요다특주성분 분석(PCA)(선형결합, 새로운 변수생성) : 상관성 높은 변수의 선형 결합으로 차원 축소 & 새로운 변수 생성(정방 행렬)요인 분석(요인 회전) : 요인들을 회전시켜 데이터 내부 잠재 요인을 도출하고 구조를 해석하는 기법(독립/종속변수 구분x)직각회전방식 → 요인들 사이 상관관계를 0으로 만들어 서로 독립적인 것으로 가정(Varimax)사각회전방식 → 요인들 사이 상관관계를 0이 아닌 값으로 유지 (Promax, Oblimin)다차..
1과목
# 빅데이터의 이해1. 빅데이터 개요 및 활용빅데이터 활용 3대요소 : 인력, 자원(데이터), 기술→ 인자기(이탈리아 축구 감독) 빅데이터의 3V / 5V / 7V(규 다 속 가 신 정 휘)3VVolume 규모Variety 다양성Velocity 속도4VValue 가치5VVeracity 신뢰성7VValidity 정확성Volatility 휘발성 규 다 속 가 신 정 휘 DIKW 피라미드 → Data Info Knowledge Wisdom 암묵지(나만 아는 지식) / 형식지(문서, 메뉴얼 등으로 형상화) 상호작용공통화표출화연결화내면화공 표 연 내 데이터베이스 특징공용 데이터 : 여러 사용자가 공동 이용통합된 데이터 : 중복 x저장된 데이터변화하는 데이터 : 새로운 데이터 추가, 수정에도 현재데이터 유지 무결성..