일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- Spark 튜닝
- git init
- 배깅
- 랜덤포레스트
- 알고리즘
- 의사결정나무
- Spark jdbc parallel read
- airflow 정리
- eda
- 데이터분석
- Collaborative filtering
- 추천시스템
- 오라클 데이터 처리방식
- 앙상블
- Spark Data Read
- Oracle ASSM
- 통계분석
- SQL
- Oracle 논리적 저장 구조
- enq: FB - contention
- Linux
- git 기본명령어
- git stash
- Decision Tree
- BFS
- Python
- 리눅스 환경변수
- CF
- 데이터 분석
- 네트워크
- Today
- Total
목록분류 전체보기 (85)
[Alex] 데이터 장인의 블로그
1. 관련 라이브러리를 임포트. from IPython.core.display import display, HTML display(HTML("")) import numpy as np import pandas as pd import seaborn as sns from sklearn.metrics import classification_report from sklearn.model_selection import train_test_split from sklearn.ensemble import RandomForestClassifier import matplotlib.pyplot as plt %matplotlib inline import warnings warnings.filterwarnings('ignore'..
TREE가 모이게 되면 FOREST가 된다. 이전에 공부한 Decision Tree가 '나무' 였다면, 오늘 배울 Random Forest는 숲이다. 나무가 모여 숲이 되듯이 랜덤포레스트는 여러 의사결정나무 모델의 집합체라고 할 수 있다. 앙상블 기법 앙상블은 여러 모델의 집합을 이용해서 하나의 예측을 이끌어내는 방식이다. 배깅은 앙상블 방법 중 가장 많이 사용되는 방법 중 하나이다. 배깅은 데이터를 부트스트래핑하여 여러 모델을 만드는 가장 일반적인 방법을 말한다. 주로 배깅, 부스팅을 구분을 두어 학습하기도 하는데 간단히 정리하면 다음과 같다. Ensemble methods: Bagging & Boosting 배깅 배깅은 부트스트래핑 종합(Bootstrap aggregating)의 줄임말로 1994년 ..
의사결정트리라고도 불리는 의사결정나무는 객체 레이블을 예측하는 매우 직관적인 방법이다. 단순히 입력 변수를 특정한 기준으로 잘라(분기) 트리 형태의 구조로 분류를 하는 모델이다. 보통 의사결정나무를 분석 모델로 선택하는 이유는 예측모형을 직접 보고 충분히 이해할 수 있기 때문이다.(속도가 빠른 것도) 로지스틱 회귀 등등 coef를 보고 해석할 수 있는 경우 있기야 하지만 의사결정 트리만큼 직관적이고 쉽게 해석할 수 있는 모델은 없다. 의사결정나무는 이진 분할을 통해 각 예측 Class 들의 옵션 수를 줄이고 때문에 빠르게 동작할 수 있다는 장점이 있다. 물론 각 단계마다 어떤 Feature에 어떤 질문을 하느냐가 중요하다. 어떤 질문을 하는지는 보통 불순도를 낮추는 방향이나 순수도를 높히는 방향으로 이루..
출처 ratsgo_서포트 벡터 머신 [서적] 파이썬 데이터 사이언스 핸드북 https://pierpaolo28.github.io/blog/blog6/ SVM: Feature Selection and Kernels 기반으로 한 학습내용 정리입니다. 분류 = 분리 분류 학습의 가장 기본적인 아이디어는 훈련 데이터의 공간에서 하나의 분할 초평면을 찾아 서로 다른 클래스의 데이터를 찾아내어 분리하는 것이다. 그렇다면 위의 그림에서 분류를 하기 위한 분할선을 하나 찾는다고 가정할 때, 왜 오른쪽 초록선이 기준이 되는 것일까? 그 이유는 가장 '견고'한 선이기 때문이다. 노이즈(이상값)나 어떠한 영향으로 인해 새로운 데이터가 분류 경계에 가까이 가게된다면 '오류'가 생기게 된다. 이러한 오류를 최대한 줄일 수 있도..
1. 라이브러리를 호출하고 데이터를 불러옵니다. import pandas as pd import numpy as np import scipy as sp from sklearn.metrics.pairwise import cosine_similarity import operator %matplotlib inline anime = pd.read_csv('anime.csv') rating = pd.read_csv('rating.csv') anime.head() anime_id name genre type episodes rating members 0 32281 Kimi no Na wa. Drama, Romance, School, Supernatural Movie 1 9.37 200630 1 5114 Fullme..
Collaborative Filtering (협업필터링) [추천시스템] CF, 즉 협업필터링은 많은 유저들로부터 모은 취향 정보들을 기반으로 개별 사용자가 다음 선호할 것만 같은 아이템을 예측해서 '추천'해주는 기술을 말합니다. 취향이 비슷한 사람들을 파악하고 평점이 비슷할 것 같은 아이템을 분석하여 추천에 활용하는 방식입니다. 이 정도로만 이해하고 있으면 될 것 같습니다. 추가적인 사용나의 '개인정보'나 '아이템' 정보가 없이도 추천할 수 있는 것이 가장 큰 장점입니다. Memory-based Collaborative Filtering Memory-based 협업 필터링 추천 시스템은 유사도를 기반으로 동작합니다. 사용자-사용자 간의 유사도를 기준으로 하는 경우는 사용자 기반(User-Based), 아..
저번 학습에 이어서 SQL을 활용한 EDA를 학습하겠습니다. 이전글: 2020/06/21 - [SQL] - 데이터 분석을 위한 SQL 쿼리 - 2. EDA를 정복해보자 저번 EDA 분석에서는 다음과 같은 결론까지 지어낼 수 있었습니다. 이번 분석에서는 전체 정류소를 대상을 대상으로 특성을 파악하는 것이 아닌, 각각의 정류소의 특성을 파악해보는 방법으로 분석을 진행하도록 하겠습니다. 1. 저녁, 출근, 심야 시간대의 각각 정류소의 이용건수를 비교해보겠습니다. -- 1. 저녁, 출근, 심야만 가져와서 각 정류소 특성 파악하기 SELECT ST_ID , WD_YN , CASE WHEN HR >= 7 AND HR = 17 AND HR = 23 OR HR = 7 AND HR = 17 AND HR = 23 OR H..