Notice
														
												
											
												
												
													Recent Posts
													
											
												
												
													Recent Comments
													
											
												
												
													Link
													
											
									| 일 | 월 | 화 | 수 | 목 | 금 | 토 | 
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | |||
| 5 | 6 | 7 | 8 | 9 | 10 | 11 | 
| 12 | 13 | 14 | 15 | 16 | 17 | 18 | 
| 19 | 20 | 21 | 22 | 23 | 24 | 25 | 
| 26 | 27 | 28 | 29 | 30 | 31 | 
													Tags
													
											
												
												- git 기본명령어
- 추천시스템
- BFS
- 네트워크
- Oracle 논리적 저장 구조
- SQL
- 랜덤포레스트
- 알고리즘
- Spark Data Read
- Collaborative filtering
- 앙상블
- Decision Tree
- 데이터 분석
- airflow 정리
- CF
- Spark jdbc parallel read
- git stash
- eda
- Spark 튜닝
- Python
- 배깅
- 리눅스 환경변수
- enq: FB - contention
- Oracle ASSM
- git init
- 의사결정나무
- 데이터분석
- 오라클 데이터 처리방식
- Linux
- 통계분석
													Archives
													
											
												
												- Today
- Total
목록Spark Data Read (1)
[Alex] 데이터 장인의 블로그
 [Spark] 성능 튜닝(1) - Data Ingestion (Feat. JDBC Parallel Read)
			
			
				[Spark] 성능 튜닝(1) - Data Ingestion (Feat. JDBC Parallel Read)
				Data Ingestion 단계에서 튜닝이 필요한 이유 . 내가 겪어본 케이스 중에서는 Data Ingestion 단계에서부터 튜닝이 필요한 경우는 다음과 같다. 1. Spark Job의 Task 중 데이터를 메모리에 올리는 시간이 생각보다 오래 걸린다. (비용, 쉬는 자원 발생) 때문에 병렬로 데이터를 한꺼번에 빠르게 가져와야 구동 시간을 그만큼 줄일 수 있다. 2. Data Ingestion 를 수행하는 task가 하나의 executor에 몰려서 GC Time (정확히 꼽자면 Major GC가 극악으로 발생하여 어마어마한 Job 실행시간을 늘려버리는 경우가 발생한다.) 이 케이스는 간헐적으로 발생하는 케이스였어서 배치로 실행시킨 spark job 이 이런 경우를 보였을때는 진짜 멘붕 그 자체 였다....
				Hadoop & Spark
				
				2023. 1. 5. 13:53