Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
Tags
- 네트워크
- 데이터분석
- 앙상블
- 추천시스템
- 통계분석
- enq: FB - contention
- 랜덤포레스트
- Spark jdbc parallel read
- git 기본명령어
- Collaborative filtering
- Spark Data Read
- 알고리즘
- Spark 튜닝
- Decision Tree
- Python
- SQL
- 데이터 분석
- Oracle 논리적 저장 구조
- 오라클 데이터 처리방식
- 의사결정나무
- 배깅
- BFS
- 리눅스 환경변수
- Oracle ASSM
- git stash
- eda
- airflow 정리
- CF
- git init
- Linux
Archives
- Today
- Total
목록airflow (1)
[Alex] 데이터 장인의 블로그
[Airflow] Why Airflow?
데이터 파이프라인 자동화 데이터의 수집, 가공, 적재 프로세스를 자동화 하는 것. 대표적으로 리눅스의 crontab 등의 프로그램을 사용하여 '배치'화 할수있겠지만, 구동 실패시 재실행하는 과정에서 데이터의 규모나, 워크플로우의 규모가 커지게 된다면 점차 어려워짐. 이런 문제점을 보완하기 위해 우리가 자주 사용(?)하는 서비스인 에어비엔비에서 수많은 프로세스를 관리하기 위한 솔루션으로 시작되었음. 기존방식의 문제점 실패복구 - 언제 어떻게 다시 실행할 것인가? 모니터링, 의존성 관리(파이프라인 간 의존성) 확장성 - 분산된 환경에서 파이프라인 관리. Airflow - 워크플로우 관리 도구 워크플로우를 작성하고 스케줄링하고 모니터링하는 작업을 프로그래밍 할 수 있게 해주는 플랫폼 태스크를 정기적인 스케줄로..
Airflow
2022. 6. 11. 23:43