안녕하세요. 이번에는 퇴사 기념(?)으로 마지막 프로젝트에서 작업한 내용을 피드백해보려고 합니다. 잘못된 원천 데이터를 제공받아 몇 번 재작업한 일이 있었습니다. (지난 글에서 몇 억 건 데이터 포함입니다 ㅎㅎ..) 그럴 때마다 재작업을 하는데 아무리 기록하고 조심해도 데이터에 실수가 있었습니다. "데이터에는 테스트 코드가 없나?" 생각하다가 찾아보니 데이터 파이프라인을 위한 Python 라이브러리 Luigi가 있었습니다. 또한 데이터 엔지니어링에서 자주 보이는 ETL이라는 단어도 알게 되었습니다.기존 데이터 파이프라인 구축 방식기존 방식의 문제점Luigi의 소개와 장점향후 데이터 파이프라인 개선 방안위 단계를 따라 피드백을 해보려 합니다. 인수인계를 준비하면서 제가 작업했던 흐름을 보니 실수를 체크하기..