[링크] How I learned to time travel, or, data pipelining and scheduling with Airflow

에어플로우에 대해 재밌게 풀어 쓴 슬라이드가 있어 공유해 봅니다.

개인적으로 새롭게 알게 된 내용을 정리하면 다음과 같습니다.

  1. 페이지 7 그림을 보면 또 다른 작업흐름 소프트웨어가 Luigi로 명명된 이유를 알 수 있습니다.
  2. smart-airflow라는 플러그인을 사용하여 작업 간에 공유되는 파일 위치를 지정할 수 있습니다 (페이지 46-48).
  3. puckel/docker-airflow로 CeleryExecutor를 쉽게 테스트 해 볼 수 있습니다 (페이지 50).
  4. 기본 로깅 시스템이 파일 순환을 지원하지 않는데다 꽤 많은 양의 메시지를 출력합니다 (효주아빠는 min_file_process_interval과 print_stats_interval 값을 설정함으로써 로그 메시지 양을 줄였습니다).

2018년 8월 말 기준으로 작업흐름 소프트웨어를 비교함으로써 슬라이드를 마무리 합니다.  다른 경우도 그렇지만 에어플로우가 모든 경우에 잘 들어맞는 툴이라고 단정할 수는 없습니다.



댓글 남기기