Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
Tags
- Oracle 논리적 저장 구조
- eda
- Oracle ASSM
- Decision Tree
- airflow 정리
- 데이터분석
- BFS
- 앙상블
- SQL
- 네트워크
- git stash
- git 기본명령어
- 의사결정나무
- Spark jdbc parallel read
- git init
- 통계분석
- Collaborative filtering
- 데이터 분석
- CF
- Python
- 알고리즘
- 오라클 데이터 처리방식
- Linux
- 배깅
- Spark 튜닝
- enq: FB - contention
- Spark Data Read
- 추천시스템
- 리눅스 환경변수
- 랜덤포레스트
Archives
- Today
- Total
목록airflow (1)
[Alex] 데이터 장인의 블로그

데이터 파이프라인 자동화 데이터의 수집, 가공, 적재 프로세스를 자동화 하는 것. 대표적으로 리눅스의 crontab 등의 프로그램을 사용하여 '배치'화 할수있겠지만, 구동 실패시 재실행하는 과정에서 데이터의 규모나, 워크플로우의 규모가 커지게 된다면 점차 어려워짐. 이런 문제점을 보완하기 위해 우리가 자주 사용(?)하는 서비스인 에어비엔비에서 수많은 프로세스를 관리하기 위한 솔루션으로 시작되었음. 기존방식의 문제점 실패복구 - 언제 어떻게 다시 실행할 것인가? 모니터링, 의존성 관리(파이프라인 간 의존성) 확장성 - 분산된 환경에서 파이프라인 관리. Airflow - 워크플로우 관리 도구 워크플로우를 작성하고 스케줄링하고 모니터링하는 작업을 프로그래밍 할 수 있게 해주는 플랫폼 태스크를 정기적인 스케줄로..
Airflow
2022. 6. 11. 23:43