일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 알고리즘
- SQL
- 네트워크
- 통계분석
- git 기본명령어
- Spark Data Read
- 배깅
- 오라클 데이터 처리방식
- Oracle 논리적 저장 구조
- git stash
- 랜덤포레스트
- airflow 정리
- 리눅스 환경변수
- Python
- Spark 튜닝
- Spark jdbc parallel read
- 데이터분석
- git init
- Linux
- eda
- Oracle ASSM
- Collaborative filtering
- 앙상블
- 추천시스템
- BFS
- 의사결정나무
- Decision Tree
- 데이터 분석
- CF
- enq: FB - contention
- Today
- Total
목록전체 글 (85)
[Alex] 데이터 장인의 블로그
카이스퀘어 검정, 쉽게 기억하자. 카이스퀘어 검정은 카이 제곱 분포에 기초한 통계분석 방법입니다. 관찰된 '빈도'수가 기대되는 값, 즉 기댓값과 얼마나 다른지 확인함으로써 '범주형 변수'들의 관계 유무를 파악합니다. 두 변수의 관계가 있는가? 없는가? 카이제곱검정은 일어난 사건이 '통계적으로' 일어날 만한 차이인지, 희귀한 경우인지를 통계적으로 파악하는데 사용합니다. 변수 관계의 유무만 확인할 수 있기 때문에 어떤 관계가 있는지는 상관분석, 회귀분석 등 추가적인 분석을 통해 알 수 있습니다. 횟수 관련 데이터, 빈도 관련 데이터를 분석할 때, 자주 사용되는 통계분석 방법입니다. 분할표 예를 들어보겠습니다. 횟수관련 데이터, 빈도관련 데이터 등을 보여주는 분할표를 통해 100명의 환자 상태를 표현합니다. ..
ANOVA '쉽게' 기억하자 t-test(t-검정)에 이어서 ANOVA(분산분석) 대해 기억하기 쉽게 정리를 해보겠습니다. t-검정에서는 A와 B 집단 딱 2개의 집단에 대한 차이를 비교할 수 있었다면 ANOVA 분석은 그보다 많은 집단의 차이를 비교할 수 있습니다. 세개 이상 집단 '평균'의 차이가 유의미한가? 출처: datanovia ANOVA 분석(분산분석)은 '세 집단(or 이상)의 평균의 차이가 유의미한가'를 확인하기 위해 사용하는 분석 방법입니다. 또한 t-test와는 조금 다르게 ANOVA 분석은 개체간-분산과 개체내-분산을 이용하여 각 집단별 평균에 대한 유의성을 확인합니다. ANOVA 분석은 t-test 마찬가지로 등분산성, 정규성, 독립성의 조건이 전제되어야 합니다. 이전 T-TEST에..
t-test '쉽게' 기억하자 t-테스트 또는 't-검증'은 검증 통계량이 귀무가설 하에서 t-분포를 따르는 통계적 가설 검정이다. t-검증은 검증 통계량의 스케일링 항 값이 알려진 경우 검증 통계량이 정규 분포를 따르는 경우에 가장 일반적으로 적용된다. 출처: 위키백과 '데이터 분석을 위한 통계분석'의 첫번째 주제로 t-test(t-검정)에 대해 기억하기 쉽게 정리하는 시간을 가져보도록 하겠습니다! 상단의 설명대로 t-test는 t-분포(student t 분포 등 뭐시기 예전에 배웠지만 그 이야기는 무시하겠습니다) 를 활용하여 내가 세운 가설이 우연이 아닐 확률이 높은지 확인하는 과정이라 생각하시면 됩니다. 이렇게만 머릿속에 정리해두고 있는다면.. 막상 이 통계분석 방법을 써먹어야 할때 기억하기 쉽지 ..
얼마전까지 수행하던 프로젝트에서 VAN사에 속한 가맹점의 날씨에 대한 매출분석을 진행해 본 적이 있습니다. 날씨에 대한 매출 영향도나 제가 기대했던 의미있는 결과들이 나타나지는 않았지만 날씨에 대한 데이터를 이용하여 분석을 시도하는 경우가 많을 것 같아 api를 활용하여 날씨 데이터를 가져올 수 있도록 python script를 짜보았습니다. 스크립트를 짜기 전에 우선 api 사용을 위한 서비스 활용 신청이 필요합니다. 지상(종관, ASOS) 일자료 조회서비스 로그인 이후, 활용신청이 승인되면 아래처럼 고유 계정 인증키가 발급됩니다. 여기서 저는 기상관측 일자료목록 조회서비스를 활용할 예정입니다. python을 켭니다. 전 anaconda 환경의 jupyter notebook을 사용하였습니다. 1. 사용..
데이터 분석을 위한 SQL 쿼리 'SQL을 가장 많이 사용할때?!' feat. 저의 주관적 생각이 많이 담겨있습니다! 안녕하세요 ALEX 입니다! 예전부터 지금까지 'SQL을 어떤용도로 가장 많이 사용할까?' 생각해봤습니다. SQL은 단순히 전처리용이다? SQL의 용도를 '전처리' 로만 생각하시는 분들이 많으실 것 같은데. 그보다도 더 중요하고, 많이 쓰이는 순간이 있습니다. (아주 단순하지만 중요한 절차!) 만들어진 데이터도 다시보자. 확인하는 습관을 들이자. SQL과 함께 제가 생각하기에는 보여주려고 하는 데이터 값의 결과가 정확한가? 내가 생각하는 논리에 맞는가? 이상치는 없는가?를 기본적으로 빠르게 확인하는 과정에서 꼭 필요하고 가장 많이 쓰입니다. 보통 항상 저는 Data 결과를 다시한번 확인하..
데이터 분석&SQL를 배우기 시작한 사람들을 위한, 관련 서적 추천. 안녕하세요 알렉스입니다! 저번 글에 이어서 SQL 역량 (데이터 분석을 위한 SQL 쿼리 역량)을 쌓기 위해 어떤 준비를 해야하는지, 어떤 공부를 해야하는지 소개해드리는 시간을 갖도록 하겠습니다. 저는 학과 수업(데이터 베이스, 무려 4학점이나 차지했던)을 통해 처음 SQL쿼리문을 배웠습니다. 이때 배운 것들은 SELECT , FROM, WHERE UPDATE, DELETE... DDL, 데이터베이스 정의, 설계, 모델링.. 등등 또한 SQLD(국가공인 SQL 개발자) 자격증을 공부하였을 때도 .. 전반적으로 위의 내용과는 다르지 않았던 것 같습니다.... ㅎㅎ 물론 한번 대략적으로 SQL을 겪고나서 본격적인 공부를 시작하는 것도 좋지..
EDA = SQL 제가 이번글을 작성한 이후 생각해봤던 이 글의 전체적인 맥락은 위 표현으로 나타낼 수 있을 것 같습니다. 저는 마케팅 전공의 베이스로 처음 데이터 분석을 접하게 되었습니다. CRM 마케팅, Data Driven Marketing 이라고도 불리웁니다. 때문에 머신러닝, 딥러닝을 이용한 예측, 분류 등이 아닌 '기본적인' EDA를 실시하는 과정부터 배워왔습니다. 주로 Annual report , Monthly report 등을 작성하며 대략적인 현황조사를 진행하였으며 이때 사용했던 데이터 분석 Tool이 바로 'SQL' 이었습니다. 데이터 분석으로의 커리어를 쌓아야겠다고 생각했던 학생시절.. R과 Python, 머신러닝 기법 등 기초 통계분석에 대해 공부했던 저로서는 쌩뚱맞은 언어라 생각했..