일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 랜덤포레스트
- eda
- 통계분석
- BFS
- 앙상블
- 리눅스 환경변수
- 오라클 데이터 처리방식
- 데이터분석
- 데이터 분석
- 알고리즘
- Collaborative filtering
- 배깅
- CF
- Python
- Linux
- Spark Data Read
- enq: FB - contention
- 의사결정나무
- 네트워크
- git 기본명령어
- Oracle 논리적 저장 구조
- SQL
- 추천시스템
- airflow 정리
- git stash
- Spark jdbc parallel read
- Decision Tree
- git init
- Spark 튜닝
- Oracle ASSM
- Today
- Total
목록Python (6)
[Alex] 데이터 장인의 블로그
Tensorflow 모델 트레이닝 방법 중에 모든 gpu를 태워서 '학습(training)' 하는 방법에 대한 내용은 정리가 많이 되어있는 편입니다. 하지만 기존의 만들어진 모델을 각 GPU에 모두 태워서 '예측(predict)' 하는 방법은 거의 정리된 내용이 없어서 제가 겪은 뻘짓과 성공 경험을 정리해두려고 합니다. 분석 환경 AWS GPU instance Tesla M60 x 4 Memory : 480 G CPUs : 4 CPU N of Cores per CPU : 16 cores 목적 매일 쌓이는 상품코드에 대한 상품 이미지(url)를 2048 길이로 임베딩하여 저장. 많이 등록될 때에는 약 5000개의 상품이 등록되는 경우가 있어, 이를 자동화하여 배치 작업으로 수행할 수 있도록 함. 기존의 작..
함수(메서드)를 장식. -> decorator (장식자) class Calc: @staticmethod # 데코레이터 def add(a, b): print(a + b) 클래스에서 메서드를 만들 때 @staticmethod, @classmethod, @abstractmethod 등을 붙였는데, 이렇게 @로 시작하는 것들이 데코레이터입니다. 왜 데코레이터를 사용하는가? 간략히 정리하자면 기존의 작업(함수) 앞, 뒤에 추가적인 작업을 손쉽게 사용 가능하도록 도와주는 역할로 사용합니다. def 구문을 통해서 메인 구문(함수)을 만들고 난 후에 부가적인 기능을 추가하고 싶을 때가 존재한다? 이때 데코레이터를 활용하여 자유로운 사용이 가능합니다. 예를 들어 아래와 같은 메인 구문(함수)가 있다고 가정합니다. def..
1. 관련 라이브러리를 임포트. from IPython.core.display import display, HTML display(HTML("")) import numpy as np import pandas as pd import seaborn as sns from sklearn.metrics import classification_report from sklearn.model_selection import train_test_split from sklearn.ensemble import RandomForestClassifier import matplotlib.pyplot as plt %matplotlib inline import warnings warnings.filterwarnings('ignore'..
1. 라이브러리를 호출하고 데이터를 불러옵니다. import pandas as pd import numpy as np import scipy as sp from sklearn.metrics.pairwise import cosine_similarity import operator %matplotlib inline anime = pd.read_csv('anime.csv') rating = pd.read_csv('rating.csv') anime.head() anime_id name genre type episodes rating members 0 32281 Kimi no Na wa. Drama, Romance, School, Supernatural Movie 1 9.37 200630 1 5114 Fullme..
코호트 분석 코호트 분석을 검색하면 나오는 대표적인 이미지는 다음과 거의 대부분 비슷합니다. 하지만 회사에서는 코호트 분석을 지칭해서 이렇게 이야기하지 않습니다. (적어도 제가 다녔던 회사에서는) "OO님~ 내일까지 고객 데이터 코호트 분석해서 전달 주세요!" / "코호트 분석을 진행해보니 고객 성향이 어쩌고 저쩌고 ~" 저는 주로 아래의 형태의 방법으로 코호트 분석을 진행했던 것 같습니다. 코호트 = 동질집단 사전적 의미로 코호트는 '동질집단'을 뜻합니다. 예를들어 위에서처럼 '4월에 구매했던 회원'이 '코호트 집단'이 되는 것이고 해당 코호트 집단의 변화(주로 Retention)를 분석하는 것이 바로 코호트 분석입니다. 코호트 분석의 정의 코호트 분석은 기간/ 속성(회원, 상품) / 고객 관심사 등 ..
ANOVA '쉽게' 기억하자 t-test(t-검정)에 이어서 ANOVA(분산분석) 대해 기억하기 쉽게 정리를 해보겠습니다. t-검정에서는 A와 B 집단 딱 2개의 집단에 대한 차이를 비교할 수 있었다면 ANOVA 분석은 그보다 많은 집단의 차이를 비교할 수 있습니다. 세개 이상 집단 '평균'의 차이가 유의미한가? 출처: datanovia ANOVA 분석(분산분석)은 '세 집단(or 이상)의 평균의 차이가 유의미한가'를 확인하기 위해 사용하는 분석 방법입니다. 또한 t-test와는 조금 다르게 ANOVA 분석은 개체간-분산과 개체내-분산을 이용하여 각 집단별 평균에 대한 유의성을 확인합니다. ANOVA 분석은 t-test 마찬가지로 등분산성, 정규성, 독립성의 조건이 전제되어야 합니다. 이전 T-TEST에..