전체 글

愚公🏃移山⛰️
DI(Digital Innovation)/Tableau

tableau prep & Desktop 간 데이터 오류

(본 포스팅은 *Tableau prep 2024.2.0 기준으로 작성되었습니다.) 안녕하세요. 오늘은 prep 흐름 상에는 이상 없이 데이터 형식과 데이터가 잘 들어가있는데,  Desktop에서 BI 개발하는 과정에서 오류가 나는 상황에 대해 알아보겠습니다. 여기 이렇게 prep에서 흐름으로 작업한 데이터가 있습니다.  분명 여기서는 ['WORK_DATE'] 컬럼에 값이 datetime 형식으로 잘 들어가있습니다. 그런데 이 데이터를 출력하고 서버에 게시해서 Desktop에서 데이터를 연동하고 보니  Desktop에서는 datetime이긴 하지만 값들이 1899-12-30으로 싹 채워져있더라고요. 이게 아무리 찾아봐도 이유를 모르겠습니다. 제가 내린 결론은 tableau 렉이라고밖에 생각되지 않는데, 혹..

Certification/빅데이터 분석기사

4과목

1. 분석모형 평가분석모델 평가지표⭐️⭐️⭐️⭐️⭐️혼동행렬(오분류표)재현율(Recall) = 민감도(sensitivity) = TP Rate = Hit RateF-1 Score : 정밀도(Precision)와 재현율(Recall)=민감도(sensitivity)의 조화평균 F1-Score = 2 * (Precision*Recall / Precision+Recall)특이도(Specificity) : 실제 False 인 것 중 맞춘 것정밀도와 재현율은 Trade - off 관계클래스positivenegativePositiveTPFPNegativeFNTNTPR(참긍정률)→재현율FPR(거짓긍정률)민감도 → 긍정긍정 긍정맨인데 / 특이도 → 부정부정 부정맨 ⭐️⭐️⭐️ROC 커브가로축 = 1 - 특이도(=FP R..

Certification/빅데이터 분석기사

3과목

#분석모형 설계1. 분석 절차 수립과대적합 : 모델이 지나치게 데이터를 학습해 매우 복잡해진 모형과소적합 : 데이터를 충분히 설명하지 못하는 단순한 모델비지도 학습 → Lable이 알려지지않은 데이터를 학습(군집분석, 연관, 신경망…) 종속변수x(k평균)지도학습 → Lable o, 종속변수 o (로지스틱, 의사결정나무, K-NN)⭐️초매개변수 → 사람에 의해 수작업으로 설정⭐️매개변수 →측정되거나 데이터로부터 학습2. 분석 환경 구축분석 도구 선정R : 통계 분석에 특화, 처리속도 느림, 강력한 시각화Python : 간결함, 높은 가독성, R보다 빠른 속도, R보다 약한 시각화데이터 분할 : 과대적합/과소적합 방지 및 데이터 불균형 문제 해결훈련용(Training) : 모델 학습 - 50%검증용(Vali..

Certification/빅데이터 분석기사

2과목

#데이터 전처리2. 분석 변수 처리변수 선택 방법전진선택법 → 하나씩 추가후진제거법 → 모두 있는 상태에서 하나씩 제거단계별 선택법 → 전진 + 후진차원축소(데이터 개수 줄임) : 여러 변수의 정보를 최대한 유지하면서 데이터셋 변수의 갯수를 줄이는 분석방법 → 주요다특주성분 분석(PCA)(선형결합, 새로운 변수생성) : 상관성 높은 변수의 선형 결합으로 차원 축소 & 새로운 변수 생성(정방 행렬)요인 분석(요인 회전) : 요인들을 회전시켜 데이터 내부 잠재 요인을 도출하고 구조를 해석하는 기법(독립/종속변수 구분x)직각회전방식 → 요인들 사이 상관관계를 0으로 만들어 서로 독립적인 것으로 가정(Varimax)사각회전방식 → 요인들 사이 상관관계를 0이 아닌 값으로 유지 (Promax, Oblimin)다차..

Certification/빅데이터 분석기사

1과목

# 빅데이터의 이해1. 빅데이터 개요 및 활용빅데이터 활용 3대요소 : 인력, 자원(데이터), 기술→ 인자기(이탈리아 축구 감독) 빅데이터의 3V / 5V / 7V(규 다 속 가 신 정 휘)3VVolume 규모Variety 다양성Velocity 속도4VValue 가치5VVeracity 신뢰성7VValidity 정확성Volatility 휘발성 규 다 속 가 신 정 휘 DIKW 피라미드 → Data Info Knowledge Wisdom 암묵지(나만 아는 지식) / 형식지(문서, 메뉴얼 등으로 형상화) 상호작용공통화표출화연결화내면화공 표 연 내 데이터베이스 특징공용 데이터 : 여러 사용자가 공동 이용통합된 데이터 : 중복 x저장된 데이터변화하는 데이터 : 새로운 데이터 추가, 수정에도 현재데이터 유지 무결성..

DI(Digital Innovation)/HYUNDAI NGV in Data Analysis

[NGV & KAP 데이터 분석 in 모빌리티] 4주차

필수 교육을 완강 해씁니다 ㄹㅊㄱㄹㄹㄹㄹ 1. 여행을 좋아하는 익중이는 여행지를 알아보고 있습니다. 주어진 데이터에는 총 몇 개의 도시와 몇 개의 나라가 있는지 알아맞혀 보세요.df['City / Urban area'].value_counts().shapedf['Country'].value_counts().shape2. 사람 만나기를 좋아하는 익중이는 가장 사람이 붐비는 도시로 여행을 가기로 마음 먹었습니다. 주어진 데이터에서, 인구 밀도(명/sqKm) 가 10000 이 넘는 도시는 총 몇 개인지 알아보세요.참고로 인구 밀도는 인구 수 / 땅의 면적 (in sqKm) 로 구할 수 있습니다.df["Density"] = df["Population"] / df["Land area (in sqKm)"]df_hi..

DI(Digital Innovation)/HYUNDAI NGV in Data Analysis

[NGV & KAP 데이터 분석 in 모빌리티] 3주차

uipath에 뇌가 절여진 국나뇽… 오랜만에 파이썬으로 데이터 프레임 만지니까 너무 재밋고 데이터 만지는게 천직인가..?방송사 시청률 받아오기 I실습 설명지난 시간에 DataFrame에서 원하는 부분을 선택하는 인덱싱을 배웠는데요. 이를 통해서 값을 찾는 연습을 해봅시다.2016년도에 KBS방송국의 시청률을 찾아봅시다. 데이터를 한번 잘 살펴보고 어떻게 값을 찾아야 할지 고민해보세요! 주의 사항: 자동 채점 과제입니다. 정답 출력 코드는 print 없이 작성해 주세요. (예시: df)국코.pyimport pandas as pddf = pd.read_csv('data/broadcast.csv', index_col=0)# 여기에 코드를 작성하세요df.loc[2016,'KBS']df모범답안.pyimport p..

DI(Digital Innovation)/HYUNDAI NGV in Data Analysis

[NGV & KAP 데이터 분석 in 모빌리티] 2주차

이거 8주차 계획인데 쉴때 집에서 4주차까지 다 들어버렸음 쿄ㅕㅋ쿄쿜쿜 그래도 옛날에 코테 준비할때 알고리즘 제법 많이 풀어둔 덕분에 조금...? 수월하게 풀 수이써따 (몸이 기억하는 것 같음…. 마치 머슬메모리?)  특히 피보나치 수열 알고리즘 문제 나올때 코테할때 디지게 많이 풀었던 문제라 빨리 풀었움 담주에는 빅분기 접수... ㄹㅊㄱㄹ 1. 이상한 수학 문제 I실습 설명 while문과 if문을 활용하여, 100 이하의 자연수 중 8의 배수이지만 12의 배수는 아닌 것을 모두 출력하세요. 예를 들어서 16은 8의 배수이지만 12의 배수가 아니니까 조건에 부합합니다. 하지만 48은 8의 배수이면서 12의 배수이기도 해서 조건에 부합하지 않습니다.실습 결과816324056648088국코.py# 여기에 코..

DI(Digital Innovation)/Tableau

tableau prep 흐름 업데이트 후 Desktop 연동

(본 포스팅은 *Tableau prep 2024.2.0 기준으로 작성되었습니다.) 안녕하세요. 오늘은 prep에서 흐름으로 작업한 데이터를 tableau server로 올릴 때,  prep과 desktop의 연동과정에대해 알아보겠습니다. 여기 이렇게 prep에서 흐름으로 작업한 데이터가 있습니다. 작업한 데이터를 출력으로 tableau server에 올립니다.  해당 태블로 desktop에서 시각화를 진행하다가 요구사항을 잘못 알았거나,  Data Transform이 잘못되었단 것을 깨달았습니다. 그러면 이제 데이터를 prep에서 다시 고치고 desktop에서 재 시각화 해야하는데요. 그럴땐 어떻게해야하느냐? prep에서 흐름을 요구사항에 맞게 다시 만들고 → [출력]을 다시해줍니다. 그럼 서버에 올라간..

DI(Digital Innovation)/HYUNDAI NGV in Data Analysis

[NGV & KAP 데이터 분석 in 모빌리티] 1주차

1. 칼로리 계산기 총 다섯 가지 과자가 있습니다.kitkat: 190 칼로리oreos: 502 칼로리pringles: 292 칼로리twix: 135.9 칼로리cheetos: 485 칼로리과자를 다양하게 조합해서 먹었을 때 총 몇 칼로리인지 계산해 보려고 하는데요. 각 과자의 이름을 변수 이름으로 사용하여, 해당 과자의 칼로리를 저장해 주세요. 변수를 사용하는 코드는 이미 작성되어 있으니, 여러분은 변수를 정의만 하면 됩니다. 변수를 제대로 정의하시면 콘솔에는 이렇게 출력이 됩니다.11941940929.91880  answer.py# 여기에 코드를 작성하세요.kitkat = 190oreos = 502pringles = 292twix = 135.9cheetos = 485# 다양한 과자 조합print(kit..

달려라 국나뇽
swk99