일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 오라클 데이터 처리방식
- Oracle ASSM
- 네트워크
- 리눅스 환경변수
- 통계분석
- 데이터 분석
- Collaborative filtering
- Linux
- BFS
- enq: FB - contention
- Spark jdbc parallel read
- git init
- 배깅
- 알고리즘
- 앙상블
- 데이터분석
- 랜덤포레스트
- Spark 튜닝
- airflow 정리
- SQL
- git 기본명령어
- Oracle 논리적 저장 구조
- Decision Tree
- eda
- CF
- Spark Data Read
- git stash
- Python
- 의사결정나무
- 추천시스템
- Today
- Total
목록Statistic (4)
[Alex] 데이터 장인의 블로그
쉽게쉽게 떠올리자. '주성분 분석' 주성분분석하면 생각해야할 용어들. 공분산 행렬, 벡터 등 여러가지들이 있습니다. 하지만 이것들은 주성분분석을 이해하고 떠올리는데 아무런 도움을 주지 않으므로 나름대로 쉽게 정리해보려고 합니다. (정말 제 나름대로..) 주성분이란 전체 데이터(columns: 변수들)의 분산을 가장 잘 설명하는 '성분'이라고 할 수 있습니다. 주성분 분석이란 말 그대로 여러개의 변수들의 분산을 활용하여 대표적인 변수들을 추출해내는 과정이라고 할 수 있습니다. 차원의 저주 차원의 저주란, columns 수가 늘어날수록 표현해야하는 데이터 범위가 점점 커지게 되어 발생하는 문제입니다. 예를들어, 충분하지 않은 데이터 수로 모델을 구성하게 되었을 때는 모델의 '과적합(overfitting)' ..
카이스퀘어 검정, 쉽게 기억하자. 카이스퀘어 검정은 카이 제곱 분포에 기초한 통계분석 방법입니다. 관찰된 '빈도'수가 기대되는 값, 즉 기댓값과 얼마나 다른지 확인함으로써 '범주형 변수'들의 관계 유무를 파악합니다. 두 변수의 관계가 있는가? 없는가? 카이제곱검정은 일어난 사건이 '통계적으로' 일어날 만한 차이인지, 희귀한 경우인지를 통계적으로 파악하는데 사용합니다. 변수 관계의 유무만 확인할 수 있기 때문에 어떤 관계가 있는지는 상관분석, 회귀분석 등 추가적인 분석을 통해 알 수 있습니다. 횟수 관련 데이터, 빈도 관련 데이터를 분석할 때, 자주 사용되는 통계분석 방법입니다. 분할표 예를 들어보겠습니다. 횟수관련 데이터, 빈도관련 데이터 등을 보여주는 분할표를 통해 100명의 환자 상태를 표현합니다. ..
ANOVA '쉽게' 기억하자 t-test(t-검정)에 이어서 ANOVA(분산분석) 대해 기억하기 쉽게 정리를 해보겠습니다. t-검정에서는 A와 B 집단 딱 2개의 집단에 대한 차이를 비교할 수 있었다면 ANOVA 분석은 그보다 많은 집단의 차이를 비교할 수 있습니다. 세개 이상 집단 '평균'의 차이가 유의미한가? 출처: datanovia ANOVA 분석(분산분석)은 '세 집단(or 이상)의 평균의 차이가 유의미한가'를 확인하기 위해 사용하는 분석 방법입니다. 또한 t-test와는 조금 다르게 ANOVA 분석은 개체간-분산과 개체내-분산을 이용하여 각 집단별 평균에 대한 유의성을 확인합니다. ANOVA 분석은 t-test 마찬가지로 등분산성, 정규성, 독립성의 조건이 전제되어야 합니다. 이전 T-TEST에..
t-test '쉽게' 기억하자 t-테스트 또는 't-검증'은 검증 통계량이 귀무가설 하에서 t-분포를 따르는 통계적 가설 검정이다. t-검증은 검증 통계량의 스케일링 항 값이 알려진 경우 검증 통계량이 정규 분포를 따르는 경우에 가장 일반적으로 적용된다. 출처: 위키백과 '데이터 분석을 위한 통계분석'의 첫번째 주제로 t-test(t-검정)에 대해 기억하기 쉽게 정리하는 시간을 가져보도록 하겠습니다! 상단의 설명대로 t-test는 t-분포(student t 분포 등 뭐시기 예전에 배웠지만 그 이야기는 무시하겠습니다) 를 활용하여 내가 세운 가설이 우연이 아닐 확률이 높은지 확인하는 과정이라 생각하시면 됩니다. 이렇게만 머릿속에 정리해두고 있는다면.. 막상 이 통계분석 방법을 써먹어야 할때 기억하기 쉽지 ..