Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
Tags
- Spark jdbc parallel read
- 추천시스템
- 배깅
- 앙상블
- Spark Data Read
- eda
- 데이터 분석
- airflow 정리
- git stash
- Collaborative filtering
- Decision Tree
- BFS
- SQL
- Oracle ASSM
- enq: FB - contention
- Spark 튜닝
- CF
- 오라클 데이터 처리방식
- 리눅스 환경변수
- git init
- 의사결정나무
- Oracle 논리적 저장 구조
- git 기본명령어
- Linux
- 랜덤포레스트
- 네트워크
- 데이터분석
- Python
- 통계분석
- 알고리즘
Archives
- Today
- Total
목록airflow (1)
[Alex] 데이터 장인의 블로그

데이터 파이프라인 자동화 데이터의 수집, 가공, 적재 프로세스를 자동화 하는 것. 대표적으로 리눅스의 crontab 등의 프로그램을 사용하여 '배치'화 할수있겠지만, 구동 실패시 재실행하는 과정에서 데이터의 규모나, 워크플로우의 규모가 커지게 된다면 점차 어려워짐. 이런 문제점을 보완하기 위해 우리가 자주 사용(?)하는 서비스인 에어비엔비에서 수많은 프로세스를 관리하기 위한 솔루션으로 시작되었음. 기존방식의 문제점 실패복구 - 언제 어떻게 다시 실행할 것인가? 모니터링, 의존성 관리(파이프라인 간 의존성) 확장성 - 분산된 환경에서 파이프라인 관리. Airflow - 워크플로우 관리 도구 워크플로우를 작성하고 스케줄링하고 모니터링하는 작업을 프로그래밍 할 수 있게 해주는 플랫폼 태스크를 정기적인 스케줄로..
Airflow
2022. 6. 11. 23:43