시애틀 페이스북 아마존 인터뷰 후기

올 해 들어 미국 내 테크 대기업 두 군데에서 인터뷰 할 기회가 있었습니다.  바로 페이스북과 아마존이었는데 공교롭게도 두 군데 다 시애틀 출신 인터뷰어들이 들어왔네요.  나름대로 느낀 바를 간단하게 정리해 봅니다. 페이스북 ML 팀 올 해 3월 경, 시애틀 머신러닝 팀 리쿠르터에게 연락을 받고 온사이트 인터뷰까지 

[링크] How I learned to time travel, or, data pipelining and scheduling with Airflow

에어플로우에 대해 재밌게 풀어 쓴 슬라이드가 있어 공유해 봅니다. 개인적으로 새롭게 알게 된 내용을 정리하면 다음과 같습니다. 페이지 7 그림을 보면 또 다른 작업흐름 소프트웨어가 Luigi로 명명된 이유를 알 수 있습니다. smart-airflow라는 플러그인을 사용하여 작업 간에 공유되는 파일 위치를 지정할 수 있습니다 (페이지 46-48). puckel/docker-airflow로 

우분투에 아파치 카프카 서비스 설치하기

우분투에 아파치 카프카 서비스 설치하기

아파치 카프카는 링크드인에 의해 제작된 분산 메시지 시스템으로, 대량의 실시간 데이터를 효율적으로 처리하도록 설계되었습니다.  2018년 현재, “대량의 실시간 데이터”를 다루는 시스템을 제작하는 개발자들이 테크 회사들은 카프카를 기본적으로 사용한다고 가정해도 무리가 없습니다. 이 포스트에서는 아래 링크 내용을 바탕으로 우분투 16.04에 카프카 1.1.0을 서비스로 설치하는 방법을 설명합니다. 

아파치 에어플로우 DAG 수동으로 시작하기

아파치 에어플로우 DAG 수동으로 시작하기

이전 글에서 에어플로우의 기본 개념을 살피며 두니아 생존자들이 끼니를 준비하는 과정을 DAG로 표현할 수 있음을 보였습니다.  이렇게 정의된 DAG는 schedule_interval로 전달되는 crontab 표현식을 통해 정해진 타이밍에 실행될 수 있습니다. 만약 정해진 시간이 아니라, 필요할 때 DAG를 실행하려면 어떻게 해야 할까요?  두니아 생존의 예에서는 매일 오전 

아파치 에어플로우 유용한 팁

아파치 에어플로우 유용한 팁

이전 글에서 아파치 에어플로우의 기본 개념에 대해 알아 봤습니다.  이 포스트에서는 에어플로우 사용자가 알아두면 유용한 팁과 주의점을 정리해 보겠습니다. 에어플로우의 구성 요소 에어플로우는 다음 네 가지 요소로 구성됩니다. 데이터베이스: DAG 실행 정보를 보관한다. 웹 서버: GUI를 구동한다. 스케쥴러: DAG를 읽어 적절한 타이밍에 DAG를 실행한다. 작업자(workers): 

AWS Lightsail과 Route 53로 워드프레스 블로그 열기

AWS Lightsail과 Route 53로 워드프레스 블로그 열기

6개월 동안 워드프레스로 교회 홈페이지(joonimchurch.ca)를 운영해 온 경험을 바탕으로 개인 블로그를 열기로 했습니다.  AWS를 좀 더 경험해 보고자 Lightsail(이하 라이트세일)과 Route 53을 서버와 도메인 서비스로 선택했습니다. 설치 과정 가운데 스위프트 님의 블로그 포스트를 통해 많은 도움을 받았습니다.  부분적으로 업데이트가 필요한 내용이 있었지만 유익한 배경 설명이 

아파치 에어플로우 기본 개념

아파치 에어플로우 기본 개념

Apache Airflow(이하 에어플로우)는 작업 흐름을 실행, 관리하는 오픈소스 플랫폼으로, 에어비앤비에 의해 개발되었고 아파치 재단 인큐베이션 단계에 있습니다. 에어플로우가 타 작업 흐름 관리 도구에 비해 나은 점은: 동적인 작업 흐름 정의: 작업 흐름은 파이썬 코드로 정의되며 동적으로 작성될 수 있습니다. 확장성: 새로운 연산자와 실행자를 쉽게 정의하고