Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
Tags
- CF
- 배깅
- git stash
- enq: FB - contention
- 네트워크
- Oracle ASSM
- Decision Tree
- Spark jdbc parallel read
- 데이터 분석
- 알고리즘
- eda
- Spark 튜닝
- SQL
- airflow 정리
- git init
- 리눅스 환경변수
- Collaborative filtering
- Oracle 논리적 저장 구조
- 의사결정나무
- BFS
- 랜덤포레스트
- Spark Data Read
- 추천시스템
- 오라클 데이터 처리방식
- Linux
- Python
- git 기본명령어
- 데이터분석
- 통계분석
- 앙상블
Archives
- Today
- Total
목록스파크 컨텍스트 (1)
[Alex] 데이터 장인의 블로그
Spark 프로그래밍 - RDD, DataFrame
Spark는 Mapreduce의 대체자 MapReduce의 경우 Disk에서 매번 데이터를 처음부터 읽어야한다. (-> RDD는 데이터를 처음부터 읽을 필요가 없게 만들어준다.) Spark는 데이터를 메모리에 올려서 연산 방식 데이터를 처음부터 읽어야할 필요가 없다. Spark는 반복적인 데이터 처리 작업에서 MapReduce보다 속도가 빠르다 Spark 의 활용사례 (장단점) 장점(사용 가능 바운더리) 데이터 전처리 집계 스트리밍 데이터 처리, 프로세싱 머신러닝 분석 단점(한계점) 단독 로컬 사용보다는 클러스터 환경에서 효과를 보임. (하둡, 카프카 등) Database를 대체할 수는 없음. 메모리 뿐만 아니라 CPU/GPU 스펙도 중요. RDD Resilient Distributed Dataset의 ..
Hadoop & Spark
2021. 5. 1. 23:31