일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- CF
- 통계분석
- 데이터분석
- Oracle 논리적 저장 구조
- Collaborative filtering
- git init
- enq: FB - contention
- 데이터 분석
- git stash
- 배깅
- Linux
- 앙상블
- Python
- 오라클 데이터 처리방식
- Spark jdbc parallel read
- Spark 튜닝
- 리눅스 환경변수
- SQL
- git 기본명령어
- 알고리즘
- Spark Data Read
- 추천시스템
- 랜덤포레스트
- 네트워크
- BFS
- eda
- airflow 정리
- Decision Tree
- 의사결정나무
- Oracle ASSM
- Today
- Total
목록eda (2)
[Alex] 데이터 장인의 블로그
저번 학습에 이어서 SQL을 활용한 EDA를 학습하겠습니다. 이전글: 2020/06/21 - [SQL] - 데이터 분석을 위한 SQL 쿼리 - 2. EDA를 정복해보자 저번 EDA 분석에서는 다음과 같은 결론까지 지어낼 수 있었습니다. 이번 분석에서는 전체 정류소를 대상을 대상으로 특성을 파악하는 것이 아닌, 각각의 정류소의 특성을 파악해보는 방법으로 분석을 진행하도록 하겠습니다. 1. 저녁, 출근, 심야 시간대의 각각 정류소의 이용건수를 비교해보겠습니다. -- 1. 저녁, 출근, 심야만 가져와서 각 정류소 특성 파악하기 SELECT ST_ID , WD_YN , CASE WHEN HR >= 7 AND HR = 17 AND HR = 23 OR HR = 7 AND HR = 17 AND HR = 23 OR H..
SQL을 활용한 EDA 오늘은 데이터 분석의 꽃, EDA과정을 SQL로 수행해보는 시간을 가져보도록 하겠습니다. 굳이 Python이나 R로 작업을 하지 않고 SQL로 하는 이유가 있느냐.. 라는 질문을 받은적도 있습니다. 저는 Python, R로 작업을 진행하는 것보다 SQL이 더 '편하고 빠르다'라고 생각하기 때문입니다. 각자 자신이 편한 tool을 사용하여 EDA를 실시하는 것이 가장 바람직하다고 생각합니다. (저는 가끔 귀차니즘이 발생할 때 Tableau로 작업하기도 합니다.... 굳이 비싼 프로그램을 EDA로...ㅎ ) 거의 Data 자체가 데이터베이스(DB서버)에 저장되어있는 경우가 보통이며 굳이 이를 Python으로 호출해서 보지 않아도 속도 측면, 효율성 측면에서 SQL 자체가 훨씬 좋다고 ..