일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- BFS
- 데이터분석
- Oracle 논리적 저장 구조
- Decision Tree
- eda
- 오라클 데이터 처리방식
- git stash
- Spark 튜닝
- 랜덤포레스트
- 추천시스템
- enq: FB - contention
- git init
- Spark jdbc parallel read
- CF
- 앙상블
- git 기본명령어
- Spark Data Read
- 데이터 분석
- SQL
- Collaborative filtering
- Linux
- 통계분석
- 네트워크
- Python
- 의사결정나무
- Oracle ASSM
- 알고리즘
- 배깅
- airflow 정리
- 리눅스 환경변수
- Today
- Total
목록airflow 정리 (2)
[Alex] 데이터 장인의 블로그
DAGs airflow에서는 워크플로우를 DAG(Directed Acyclic Graph)로 관리. DAGs : 비순환, 방향성을 가지고 있는 그래프를 뜻함. Airflow 웹서버에서 DAGs Task 확인. DAGs - Operator의 모음 DAGs는 Operator(Task) 의 모음이다. 개별 Task 상태 값을 확인하여 재실행, Failed 마킹, Success 마킹 등의 여러가지 개별 작업을 수행할 수 있다. DAGs 작성방법 (주의점) Scope 파이썬 파일 내에 DAG는 전역 스코프에 존재해야 함. dag_1 = DAG('this_dag_will_be_discovered') def my_function(): dag_2 = DAG('this_dag_will_not') my_function()..
데이터 파이프라인 자동화 데이터의 수집, 가공, 적재 프로세스를 자동화 하는 것. 대표적으로 리눅스의 crontab 등의 프로그램을 사용하여 '배치'화 할수있겠지만, 구동 실패시 재실행하는 과정에서 데이터의 규모나, 워크플로우의 규모가 커지게 된다면 점차 어려워짐. 이런 문제점을 보완하기 위해 우리가 자주 사용(?)하는 서비스인 에어비엔비에서 수많은 프로세스를 관리하기 위한 솔루션으로 시작되었음. 기존방식의 문제점 실패복구 - 언제 어떻게 다시 실행할 것인가? 모니터링, 의존성 관리(파이프라인 간 의존성) 확장성 - 분산된 환경에서 파이프라인 관리. Airflow - 워크플로우 관리 도구 워크플로우를 작성하고 스케줄링하고 모니터링하는 작업을 프로그래밍 할 수 있게 해주는 플랫폼 태스크를 정기적인 스케줄로..