일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 데이터 분석
- git stash
- 앙상블
- SQL
- git 기본명령어
- git init
- eda
- 랜덤포레스트
- 알고리즘
- Spark Data Read
- 통계분석
- Spark 튜닝
- airflow 정리
- enq: FB - contention
- Spark jdbc parallel read
- 네트워크
- 추천시스템
- Collaborative filtering
- 오라클 데이터 처리방식
- Linux
- Decision Tree
- 리눅스 환경변수
- CF
- Oracle ASSM
- Python
- BFS
- 배깅
- Oracle 논리적 저장 구조
- 의사결정나무
- 데이터분석
- Today
- Total
목록데이터분석 (7)
[Alex] 데이터 장인의 블로그
저번 학습에 이어서 SQL을 활용한 EDA를 학습하겠습니다. 이전글: 2020/06/21 - [SQL] - 데이터 분석을 위한 SQL 쿼리 - 2. EDA를 정복해보자 저번 EDA 분석에서는 다음과 같은 결론까지 지어낼 수 있었습니다. 이번 분석에서는 전체 정류소를 대상을 대상으로 특성을 파악하는 것이 아닌, 각각의 정류소의 특성을 파악해보는 방법으로 분석을 진행하도록 하겠습니다. 1. 저녁, 출근, 심야 시간대의 각각 정류소의 이용건수를 비교해보겠습니다. -- 1. 저녁, 출근, 심야만 가져와서 각 정류소 특성 파악하기 SELECT ST_ID , WD_YN , CASE WHEN HR >= 7 AND HR = 17 AND HR = 23 OR HR = 7 AND HR = 17 AND HR = 23 OR H..
SQL을 활용한 EDA 오늘은 데이터 분석의 꽃, EDA과정을 SQL로 수행해보는 시간을 가져보도록 하겠습니다. 굳이 Python이나 R로 작업을 하지 않고 SQL로 하는 이유가 있느냐.. 라는 질문을 받은적도 있습니다. 저는 Python, R로 작업을 진행하는 것보다 SQL이 더 '편하고 빠르다'라고 생각하기 때문입니다. 각자 자신이 편한 tool을 사용하여 EDA를 실시하는 것이 가장 바람직하다고 생각합니다. (저는 가끔 귀차니즘이 발생할 때 Tableau로 작업하기도 합니다.... 굳이 비싼 프로그램을 EDA로...ㅎ ) 거의 Data 자체가 데이터베이스(DB서버)에 저장되어있는 경우가 보통이며 굳이 이를 Python으로 호출해서 보지 않아도 속도 측면, 효율성 측면에서 SQL 자체가 훨씬 좋다고 ..
쉽게쉽게 떠올리자. '주성분 분석' 주성분분석하면 생각해야할 용어들. 공분산 행렬, 벡터 등 여러가지들이 있습니다. 하지만 이것들은 주성분분석을 이해하고 떠올리는데 아무런 도움을 주지 않으므로 나름대로 쉽게 정리해보려고 합니다. (정말 제 나름대로..) 주성분이란 전체 데이터(columns: 변수들)의 분산을 가장 잘 설명하는 '성분'이라고 할 수 있습니다. 주성분 분석이란 말 그대로 여러개의 변수들의 분산을 활용하여 대표적인 변수들을 추출해내는 과정이라고 할 수 있습니다. 차원의 저주 차원의 저주란, columns 수가 늘어날수록 표현해야하는 데이터 범위가 점점 커지게 되어 발생하는 문제입니다. 예를들어, 충분하지 않은 데이터 수로 모델을 구성하게 되었을 때는 모델의 '과적합(overfitting)' ..
ANOVA '쉽게' 기억하자 t-test(t-검정)에 이어서 ANOVA(분산분석) 대해 기억하기 쉽게 정리를 해보겠습니다. t-검정에서는 A와 B 집단 딱 2개의 집단에 대한 차이를 비교할 수 있었다면 ANOVA 분석은 그보다 많은 집단의 차이를 비교할 수 있습니다. 세개 이상 집단 '평균'의 차이가 유의미한가? 출처: datanovia ANOVA 분석(분산분석)은 '세 집단(or 이상)의 평균의 차이가 유의미한가'를 확인하기 위해 사용하는 분석 방법입니다. 또한 t-test와는 조금 다르게 ANOVA 분석은 개체간-분산과 개체내-분산을 이용하여 각 집단별 평균에 대한 유의성을 확인합니다. ANOVA 분석은 t-test 마찬가지로 등분산성, 정규성, 독립성의 조건이 전제되어야 합니다. 이전 T-TEST에..
얼마전까지 수행하던 프로젝트에서 VAN사에 속한 가맹점의 날씨에 대한 매출분석을 진행해 본 적이 있습니다. 날씨에 대한 매출 영향도나 제가 기대했던 의미있는 결과들이 나타나지는 않았지만 날씨에 대한 데이터를 이용하여 분석을 시도하는 경우가 많을 것 같아 api를 활용하여 날씨 데이터를 가져올 수 있도록 python script를 짜보았습니다. 스크립트를 짜기 전에 우선 api 사용을 위한 서비스 활용 신청이 필요합니다. 지상(종관, ASOS) 일자료 조회서비스 로그인 이후, 활용신청이 승인되면 아래처럼 고유 계정 인증키가 발급됩니다. 여기서 저는 기상관측 일자료목록 조회서비스를 활용할 예정입니다. python을 켭니다. 전 anaconda 환경의 jupyter notebook을 사용하였습니다. 1. 사용..
데이터 분석을 위한 SQL 쿼리 'SQL을 가장 많이 사용할때?!' feat. 저의 주관적 생각이 많이 담겨있습니다! 안녕하세요 ALEX 입니다! 예전부터 지금까지 'SQL을 어떤용도로 가장 많이 사용할까?' 생각해봤습니다. SQL은 단순히 전처리용이다? SQL의 용도를 '전처리' 로만 생각하시는 분들이 많으실 것 같은데. 그보다도 더 중요하고, 많이 쓰이는 순간이 있습니다. (아주 단순하지만 중요한 절차!) 만들어진 데이터도 다시보자. 확인하는 습관을 들이자. SQL과 함께 제가 생각하기에는 보여주려고 하는 데이터 값의 결과가 정확한가? 내가 생각하는 논리에 맞는가? 이상치는 없는가?를 기본적으로 빠르게 확인하는 과정에서 꼭 필요하고 가장 많이 쓰입니다. 보통 항상 저는 Data 결과를 다시한번 확인하..
비전공자의 데이터 분석가 취업 제목부터가 지루하다. 라고 생각하실지도 모르겠지만 데이터 분석가 취업에 희망하는 모든 사람들에게 도움이 되었으면 하는 바람에서 글을 쓰게 되었습니다. 저는 광고홍보학과 재학 중 '데이터 마케팅'에 대해 관심을 가지게 되었습니다. 마케팅 도메인의 학생으로서 디지털 마케팅 환경으로의 변화에 있어서 데이터 분석이 엄청나게 중요해질 거라는 (지금 생각해보면 막연한) 생각을 가지고 있었습니다. 그 생각의 연장선으로 1년 동안 CRM 데이터 마케팅 회사에서 고객데이터 분석과 타겟마케팅의 업무를 경험하였습니다. 현재는 모빌리티 관련 사업, 자동차 공유 서비스 분야 관련 '데이터 분석가'로 근무하고 있습니다. 약 3년간 공부했던 데이터 사이언스 분야에 대한 이야기와 인턴 경험, 그리고 짧..