Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
Tags
- Python
- enq: FB - contention
- Spark jdbc parallel read
- Oracle 논리적 저장 구조
- 리눅스 환경변수
- git 기본명령어
- eda
- 랜덤포레스트
- 네트워크
- airflow 정리
- 오라클 데이터 처리방식
- 의사결정나무
- 추천시스템
- 알고리즘
- CF
- Spark 튜닝
- 통계분석
- 데이터 분석
- Oracle ASSM
- Collaborative filtering
- 앙상블
- 데이터분석
- SQL
- 배깅
- Decision Tree
- Linux
- Spark Data Read
- git stash
- BFS
- git init
Archives
- Today
- Total
목록고유벡터 (1)
[Alex] 데이터 장인의 블로그
데이터 분석을 위한 통계(PCA - 주성분분석) feat.python
쉽게쉽게 떠올리자. '주성분 분석' 주성분분석하면 생각해야할 용어들. 공분산 행렬, 벡터 등 여러가지들이 있습니다. 하지만 이것들은 주성분분석을 이해하고 떠올리는데 아무런 도움을 주지 않으므로 나름대로 쉽게 정리해보려고 합니다. (정말 제 나름대로..) 주성분이란 전체 데이터(columns: 변수들)의 분산을 가장 잘 설명하는 '성분'이라고 할 수 있습니다. 주성분 분석이란 말 그대로 여러개의 변수들의 분산을 활용하여 대표적인 변수들을 추출해내는 과정이라고 할 수 있습니다. 차원의 저주 차원의 저주란, columns 수가 늘어날수록 표현해야하는 데이터 범위가 점점 커지게 되어 발생하는 문제입니다. 예를들어, 충분하지 않은 데이터 수로 모델을 구성하게 되었을 때는 모델의 '과적합(overfitting)' ..
Statistic
2020. 6. 14. 16:36