데이터파이프라인

Data Engineering/실리콘밸리에서 날아온 데이터 엔지니어링 스타터 키트

[4주차] Airflow Deepdive - Airflow로 데이터 파이프라인 만들기 (1)

Hello World 예제 프로그램, Hello World 살펴보기 프로그램을 설명하고 Web UI와 터미널에서 실행해 보자 ● 2개의 태스크로 구성된 데이터 파이프라인 (DAG) ○ print_hello: PythonOperator로 구성되어 있으며 먼저 실행 ○ print_goodbye: PythonOperator로 구성되어 있으며 두번째로 실행 dag = DAG( dag_id = "helloWorld", start_date = datetime(2022,6,15), catchup=False, tags=['example'], schedule = '0 2 * * *', default_args=default_args ) Operators - PythonOperator ● Airflow Python Oper..

Data Engineering/실리콘밸리에서 날아온 데이터 엔지니어링 스타터 키트

[3주차] ETL

데이터 파이프라인이란? 데이터 파이프라인 혹인 ETL로 알려진 프로세스가 구체적으로 무엇인지 알아보자 용어 설명 : ETL ● ETL: Extract(수집), Transform(변환) and Load(적재) ● Data Pipeline, ETL, Data Workflow, DAG ○ ETL (Extract, Transform, and Load) ○ Called DAG (Directed Acyclic Graph) in Airflow, Airflow에선 DAG라고 부른다. ● ETL vs ELT ○ ETL: 데이터를 데이터 웨어하우스 외부에서 내부로 가져오는 프로세스 ○ ELT: 데이터 웨어하우스 내부 데이터를 조작해서 (보통은 좀더 추상화되고 요약된) 새로운 데이터를 만드는 프로세스 ■ 이 경우 데이터 레..

달려라 국나뇽
'데이터파이프라인' 태그의 글 목록