Airflow 소개, 가장 많이 사용되는 데이터 파이프라인 관리 / 구현 프레임워크인 Airflow에 대해 알아보자 Airflow 소개 (1) ● Airflow는 파이썬으로 작성된 데이터 파이프라인 (ETL) 프레임워크 ○ Airbnb에서 시작한 아파치 오픈소스 프로젝트 ○ 가장 많이 사용되는 데이터 파이프라인 관리/작성 프레임워 ● 데이터 파이프라인 스케줄링 지원 ○ 정해진 시간에 ETL 실행 혹은 한 ETL의 실행이 끝나면 다음 ETL 실행 ○ 웹 UI를 제공하기도 함 Airflow 소개 (2) ● 데이터 파이프라인(ETL)을 쉽게 만들 수 있도록 해줌 ○ 다양한 데이터 소스와 데이터 웨어하우스를 쉽게 통합해주는 모듈 제공 ○ 데이터 파이프라인 관리 관련 다양한 기능을 제공해줌: 특히 Backfill..
데이터 파이프라인이란? 데이터 파이프라인 혹인 ETL로 알려진 프로세스가 구체적으로 무엇인지 알아보자 용어 설명 : ETL ● ETL: Extract(수집), Transform(변환) and Load(적재) ● Data Pipeline, ETL, Data Workflow, DAG ○ ETL (Extract, Transform, and Load) ○ Called DAG (Directed Acyclic Graph) in Airflow, Airflow에선 DAG라고 부른다. ● ETL vs ELT ○ ETL: 데이터를 데이터 웨어하우스 외부에서 내부로 가져오는 프로세스 ○ ELT: 데이터 웨어하우스 내부 데이터를 조작해서 (보통은 좀더 추상화되고 요약된) 새로운 데이터를 만드는 프로세스 ■ 이 경우 데이터 레..
SQL : DDL과 DML, DDL과 DML이 무엇인지 알아보자 데이터 엔지니어가 기억할 점(1) - 현업에서 깨끗한 데이터란 존재하지 않음 > 항상 데이터를 믿을 수 있는지 의심할 껏! → 의(疑)데이터증 > 실제 레코드를 몇 개 살펴보는 것 만한 것이 없음 → 노가다 - 데이터 일을 한다면 항상 데이터의 품질을 의심하고 체크하는 버릇이 필요 > 중복된 레코드들 체크하기 > 최근 데이터의 존재 여부 체크하기 (freshness) > Primary key uniqueness가 지켜지는지 체크하기 > 값이 비어있는 컬럼들이 있는지 체크하기 > 위의 체크는 코딩의 unit test 형태로 만들어 매번 쉽게 체크해볼 수 있음 데이터 엔지니어가 기억할 점(2) - 어느 시점이 되면 너무나 많은 테이블들이 존재하..
Redshift 데모 환경 설명, Redshift를 구글 Colab으로 접근해보는 데모를 하고 SQL 연습 관계형 데이터베이스의 구조 - 관계형 데이터 베이스는 2단계로 구성 > 가장 밑단에는 테이블들이 존재(테이블은 엑셀의 시트에 해당) > 테이블들은 데이터베이스 (or 스키마)라는 폴더 밑으로 구성 테이블의 구조 (테이블 스키마라고 부르기도 함) - 테이블은 레코드들로 구성 - 레코드는 하나 이상의 필드로 구성 - 필드는 이름과 타입으로 구성됨 관계형 데이터베이스 예제 - 웹서비스 사용자/세션 정보 (1) - 사용자 ID: 보통 웹서비스에서는 등록된 사용자마다 부여하는 유일한 ID - 세션 ID: 세션마다 부여되는 ID > 세션: 사용자의 방문을 논리적인 단위로 나눈 것 ㄴ사용자가 외부 링크(보통 광..
What is Data Engineering? 데이터 엔지니어링은 무엇일까? 데이터 엔지니어는 다양한 역할을 수행 - 데이터 웨어하우스 관리 - 데이터 파이프라인 구축 및 관리 > 데이터 파이프라인 == ETL(Extract 수집, Transform 변환, Load 적재) == Data Job == DAG - 데이터 파이프라인의 종류 > 배치형 프로세스(Batch Processing) VS 실시간 프로세스(Realtime Processing) > 요약 데이터 생성(Summary Data Generation : dbt - Analytics Engineer이 하는 일) - 이벤트 수집(Event Collection) > 유저 행동 데이터(User's Behavioral data) 데이터 엔지니어가 알아야 하..
요즘의 커리어란? 요즘의 커리어는 정글짐 - 예전에는 커리어가 사다리라는 생각이 있었지만, 요즘의 커리어는 정글짐이다. - 어디에서 시작하느냐는 별로 중요하지않다. up&down을 거치며, 나를 경험하는 것이 중요하다. - 젊을 때에 실패는 실패가 아니라는 생각을 가지며 나아가기 배움의 전형적인 패턴 - 처음 배울 때 가장 조심해야 할 것 > 잘하는 사람을 보고 기죽지 말 것. 모든 공부는 시간이 걸린다. 기죽는 것이 아닌, 나도 저 사람처럼 열심히 해야겠다라는 생각 갖기 - 배움의 정체기는 오게 되어있다. 여기서 어떻게 하느냐가 아주 중요하다. 1. 가장 중요한 것은 버티는 힘 → 이걸 즐겨야함 :) 2. 내가 뭘 모르는지 다시한번 생각해보자 → 내가 어디서 막혔는지 스스로 자문자답 해보기 3. 꾸준함..
데이터 웨어하우스 기업이나 조직이 각종 데이터들을 한 곳에 모아서 통합하고, 효율적으로 분석하고 조회할 수 있는 중앙 데이터 저장소 일반적으로 기업은 다양한 소스에서 많은 양의 데이터를 생성하고 수집한다. 이러한 데이터는 데이터베이스, 엑셀 파일, 웹 로그 등 다양한 형태로 존재하며, 각각의 데이터 소스에 따라 데이터가 분산되어 있다. 데이터 웨어하우스는 이렇게 분산된 데이터를 한 곳에 통합하여 정리하고, 효율적으로 분석하고 비즈니스 인텔리전스(BI) 도구를 활용하여 의사 결정에 도움을 준다. 데이터 웨어하우스의 주요 특징: 중앙 집중화: 다양한 데이터 소스에서 추출한 데이터를 중앙 데이터베이스에 통합하여 한 곳에서 관리한다. 통합된 데이터: 데이터 웨어하우스는 일관된 형식으로 데이터를 저장하고, 데이터..
NoSQL(Not Only SQL) 기존의 관계형 데이터베이스가 갖는 특징과 제한을 극복하기 위해 개발된 다양한 형태의 비관계형 데이터베이스 주요 특징: 유연한 스키마: 관계형 데이터베이스는 미리 정의된 스키마를 따라야 하지만, NoSQL은 유연한 스키마를 지원한다. 데이터의 구조를 변경하거나 새로운 필드를 추가하는 등의 작업이 쉽고 빠르게 가능하다. 확장성: NoSQL 데이터베이스는 수평적 확장을 지원하여 대용량의 데이터를 효율적으로 처리할 수 있다. 클러스터를 확장하거나 분산 데이터베이스를 구성할 수 있어서 높은 처리 능력을 갖추고 있다. 다양한 모델: NoSQL은 다양한 모델을 제공한다. 일반적으로 키-값 스토어, 컬럼 패밀리 스토어, 문서 스토어, 그래프 스토어 등 다양한 데이터 모델을 지원한다...