Data Engineering/실리콘밸리에서 날아온 데이터 엔지니어링 스타터 키트

Data Engineering/실리콘밸리에서 날아온 데이터 엔지니어링 스타터 키트

[2주차] SQL for Data Engineers(2)

SQL : DDL과 DML, DDL과 DML이 무엇인지 알아보자 데이터 엔지니어가 기억할 점(1) - 현업에서 깨끗한 데이터란 존재하지 않음 > 항상 데이터를 믿을 수 있는지 의심할 껏! → 의(疑)데이터증 > 실제 레코드를 몇 개 살펴보는 것 만한 것이 없음 → 노가다 - 데이터 일을 한다면 항상 데이터의 품질을 의심하고 체크하는 버릇이 필요 > 중복된 레코드들 체크하기 > 최근 데이터의 존재 여부 체크하기 (freshness) > Primary key uniqueness가 지켜지는지 체크하기 > 값이 비어있는 컬럼들이 있는지 체크하기 > 위의 체크는 코딩의 unit test 형태로 만들어 매번 쉽게 체크해볼 수 있음 데이터 엔지니어가 기억할 점(2) - 어느 시점이 되면 너무나 많은 테이블들이 존재하..

Data Engineering/실리콘밸리에서 날아온 데이터 엔지니어링 스타터 키트

[2주차] SQL for Data Engineers(1)

Redshift 데모 환경 설명, Redshift를 구글 Colab으로 접근해보는 데모를 하고 SQL 연습 관계형 데이터베이스의 구조 - 관계형 데이터 베이스는 2단계로 구성 > 가장 밑단에는 테이블들이 존재(테이블은 엑셀의 시트에 해당) > 테이블들은 데이터베이스 (or 스키마)라는 폴더 밑으로 구성 테이블의 구조 (테이블 스키마라고 부르기도 함) - 테이블은 레코드들로 구성 - 레코드는 하나 이상의 필드로 구성 - 필드는 이름과 타입으로 구성됨 관계형 데이터베이스 예제 - 웹서비스 사용자/세션 정보 (1) - 사용자 ID: 보통 웹서비스에서는 등록된 사용자마다 부여하는 유일한 ID - 세션 ID: 세션마다 부여되는 ID > 세션: 사용자의 방문을 논리적인 단위로 나눈 것 ㄴ사용자가 외부 링크(보통 광..

Data Engineering/실리콘밸리에서 날아온 데이터 엔지니어링 스타터 키트

[1주차] RedShift 소개

What is Data Engineering? 데이터 엔지니어링은 무엇일까? 데이터 엔지니어는 다양한 역할을 수행 - 데이터 웨어하우스 관리 - 데이터 파이프라인 구축 및 관리 > 데이터 파이프라인 == ETL(Extract 수집, Transform 변환, Load 적재) == Data Job == DAG - 데이터 파이프라인의 종류 > 배치형 프로세스(Batch Processing) VS 실시간 프로세스(Realtime Processing) > 요약 데이터 생성(Summary Data Generation : dbt - Analytics Engineer이 하는 일) - 이벤트 수집(Event Collection) > 유저 행동 데이터(User's Behavioral data) 데이터 엔지니어가 알아야 하..

Data Engineering/실리콘밸리에서 날아온 데이터 엔지니어링 스타터 키트

[1주차] 데이터팀의 역할

요즘의 커리어란? 요즘의 커리어는 정글짐 - 예전에는 커리어가 사다리라는 생각이 있었지만, 요즘의 커리어는 정글짐이다. - 어디에서 시작하느냐는 별로 중요하지않다. up&down을 거치며, 나를 경험하는 것이 중요하다. - 젊을 때에 실패는 실패가 아니라는 생각을 가지며 나아가기 배움의 전형적인 패턴 - 처음 배울 때 가장 조심해야 할 것 > 잘하는 사람을 보고 기죽지 말 것. 모든 공부는 시간이 걸린다. 기죽는 것이 아닌, 나도 저 사람처럼 열심히 해야겠다라는 생각 갖기 - 배움의 정체기는 오게 되어있다. 여기서 어떻게 하느냐가 아주 중요하다. 1. 가장 중요한 것은 버티는 힘 → 이걸 즐겨야함 :) 2. 내가 뭘 모르는지 다시한번 생각해보자 → 내가 어디서 막혔는지 스스로 자문자답 해보기 3. 꾸준함..

달려라 국나뇽
'Data Engineering/실리콘밸리에서 날아온 데이터 엔지니어링 스타터 키트' 카테고리의 글 목록 (2 Page)