Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
Tags
- 통계분석
- 알고리즘
- git init
- Oracle 논리적 저장 구조
- git 기본명령어
- 네트워크
- Python
- Spark Data Read
- Spark jdbc parallel read
- 추천시스템
- 오라클 데이터 처리방식
- Collaborative filtering
- CF
- 앙상블
- enq: FB - contention
- Spark 튜닝
- Oracle ASSM
- BFS
- 리눅스 환경변수
- airflow 정리
- eda
- 데이터분석
- 데이터 분석
- Decision Tree
- 랜덤포레스트
- 배깅
- SQL
- git stash
- Linux
- 의사결정나무
Archives
- Today
- Total
목록airflow (1)
[Alex] 데이터 장인의 블로그
[Airflow] Why Airflow?
데이터 파이프라인 자동화 데이터의 수집, 가공, 적재 프로세스를 자동화 하는 것. 대표적으로 리눅스의 crontab 등의 프로그램을 사용하여 '배치'화 할수있겠지만, 구동 실패시 재실행하는 과정에서 데이터의 규모나, 워크플로우의 규모가 커지게 된다면 점차 어려워짐. 이런 문제점을 보완하기 위해 우리가 자주 사용(?)하는 서비스인 에어비엔비에서 수많은 프로세스를 관리하기 위한 솔루션으로 시작되었음. 기존방식의 문제점 실패복구 - 언제 어떻게 다시 실행할 것인가? 모니터링, 의존성 관리(파이프라인 간 의존성) 확장성 - 분산된 환경에서 파이프라인 관리. Airflow - 워크플로우 관리 도구 워크플로우를 작성하고 스케줄링하고 모니터링하는 작업을 프로그래밍 할 수 있게 해주는 플랫폼 태스크를 정기적인 스케줄로..
Airflow
2022. 6. 11. 23:43