Data Engineering/실리콘밸리에서 날아온 데이터 엔지니어링 스타터 키트
[5주차] Airflow Deepdive 2 -Backfill과 Airflow
관리하는 데이터 파이프라인의 수가 늘어나면 이 중의 몇은 항상 실패하게 되며 이를 어떻게 관리하느냐가 데이터 엔지니어의 삶에 큰 영향을 준다. start_date과 execution_date Incremental Update가 실패하면? 하루에 한번 동작하고 Incremental하게 업데이트하는 파이프라인이라면? 실패한 부분을 재실행하는 것이 중요하다. Incremental Update ● Incremental Update란 ? ○ 새로운 데이터를 전체 데이터 세트에 다시 처리하는 대신 변경된 데이터만 처리하여 데이터 저장 및 관리를 최적화하는 방법 ● 다시 한번 가능하면 Full Refresh를 사용하는 것이 좋음 ○ 문제가 생겨도 다시 실행하면 됨 ● Incremental Update는 효율성이 더 ..