Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
Tags
- 데이터분석
- 랜덤포레스트
- Collaborative filtering
- 의사결정나무
- 앙상블
- Oracle ASSM
- Spark Data Read
- git 기본명령어
- git init
- BFS
- 데이터 분석
- git stash
- Spark jdbc parallel read
- 네트워크
- Python
- Linux
- Decision Tree
- enq: FB - contention
- Oracle 논리적 저장 구조
- eda
- SQL
- Spark 튜닝
- 배깅
- 추천시스템
- 통계분석
- 오라클 데이터 처리방식
- airflow 정리
- 알고리즘
- CF
- 리눅스 환경변수
Archives
- Today
- Total
목록Spark Data Read (1)
[Alex] 데이터 장인의 블로그
[Spark] 성능 튜닝(1) - Data Ingestion (Feat. JDBC Parallel Read)
Data Ingestion 단계에서 튜닝이 필요한 이유 . 내가 겪어본 케이스 중에서는 Data Ingestion 단계에서부터 튜닝이 필요한 경우는 다음과 같다. 1. Spark Job의 Task 중 데이터를 메모리에 올리는 시간이 생각보다 오래 걸린다. (비용, 쉬는 자원 발생) 때문에 병렬로 데이터를 한꺼번에 빠르게 가져와야 구동 시간을 그만큼 줄일 수 있다. 2. Data Ingestion 를 수행하는 task가 하나의 executor에 몰려서 GC Time (정확히 꼽자면 Major GC가 극악으로 발생하여 어마어마한 Job 실행시간을 늘려버리는 경우가 발생한다.) 이 케이스는 간헐적으로 발생하는 케이스였어서 배치로 실행시킨 spark job 이 이런 경우를 보였을때는 진짜 멘붕 그 자체 였다....
Hadoop & Spark
2023. 1. 5. 13:53