Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
Tags
- SQL
- Oracle 논리적 저장 구조
- 랜덤포레스트
- 데이터 분석
- 네트워크
- 추천시스템
- 오라클 데이터 처리방식
- 통계분석
- eda
- enq: FB - contention
- 의사결정나무
- airflow 정리
- Spark Data Read
- 리눅스 환경변수
- Linux
- 알고리즘
- Python
- 앙상블
- Spark 튜닝
- git stash
- 배깅
- Collaborative filtering
- CF
- git 기본명령어
- BFS
- Spark jdbc parallel read
- Oracle ASSM
- 데이터분석
- Decision Tree
- git init
Archives
- Today
- Total
목록zookeeper (1)
[Alex] 데이터 장인의 블로그
Hadoop 기본
본 포스팅에 앞서 해당 내용은 T-academy의 '아파치 하둡 입문'의 강의 내용을 정리했음을 밝힙니다. Hadoop 이란? 분산 데이터베이스 + MapReduce 데이터를 저장, 프로세싱하는 Tool이라고 생각한다. 수천대 이상의 리눅스 기반 범용 서버들을 하나의 클러스터로 사용. 마스터 - 슬레이브 구조 파일은 Block 단위로 저장 Block 데이터의 복제본 유지로 인해 신뢰성 보장 데이터 처리의 지역성 보장 HDFS 분산 파일 시스템 Hive 하둡을 SQL과 비슷하게 사용할 수 있도록 하는 프레임워크 하둡에 저장되어있는 데이터를 사용하는 방법. Kafka 분산 스트리밍 플랫폼. 메시징, 메트릭 수집, 로그 수집, 스트림 처리 등 다양한 용도로 사용할 수 있음. 빠름: 수천개의 데이터 소스로 부터..
Hadoop & Spark
2021. 2. 27. 23:16