일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 앙상블
- Spark Data Read
- 리눅스 환경변수
- Python
- 알고리즘
- git 기본명령어
- Decision Tree
- Spark 튜닝
- 추천시스템
- git stash
- 데이터 분석
- 의사결정나무
- 오라클 데이터 처리방식
- CF
- git init
- Linux
- airflow 정리
- eda
- Oracle ASSM
- Collaborative filtering
- enq: FB - contention
- Oracle 논리적 저장 구조
- 네트워크
- 통계분석
- 데이터분석
- SQL
- 랜덤포레스트
- Spark jdbc parallel read
- BFS
- 배깅
- Today
- Total
목록분류 전체보기 (85)
[Alex] 데이터 장인의 블로그
코호트 분석 코호트 분석을 검색하면 나오는 대표적인 이미지는 다음과 거의 대부분 비슷합니다. 하지만 회사에서는 코호트 분석을 지칭해서 이렇게 이야기하지 않습니다. (적어도 제가 다녔던 회사에서는) "OO님~ 내일까지 고객 데이터 코호트 분석해서 전달 주세요!" / "코호트 분석을 진행해보니 고객 성향이 어쩌고 저쩌고 ~" 저는 주로 아래의 형태의 방법으로 코호트 분석을 진행했던 것 같습니다. 코호트 = 동질집단 사전적 의미로 코호트는 '동질집단'을 뜻합니다. 예를들어 위에서처럼 '4월에 구매했던 회원'이 '코호트 집단'이 되는 것이고 해당 코호트 집단의 변화(주로 Retention)를 분석하는 것이 바로 코호트 분석입니다. 코호트 분석의 정의 코호트 분석은 기간/ 속성(회원, 상품) / 고객 관심사 등 ..
SQL을 활용한 EDA 오늘은 데이터 분석의 꽃, EDA과정을 SQL로 수행해보는 시간을 가져보도록 하겠습니다. 굳이 Python이나 R로 작업을 하지 않고 SQL로 하는 이유가 있느냐.. 라는 질문을 받은적도 있습니다. 저는 Python, R로 작업을 진행하는 것보다 SQL이 더 '편하고 빠르다'라고 생각하기 때문입니다. 각자 자신이 편한 tool을 사용하여 EDA를 실시하는 것이 가장 바람직하다고 생각합니다. (저는 가끔 귀차니즘이 발생할 때 Tableau로 작업하기도 합니다.... 굳이 비싼 프로그램을 EDA로...ㅎ ) 거의 Data 자체가 데이터베이스(DB서버)에 저장되어있는 경우가 보통이며 굳이 이를 Python으로 호출해서 보지 않아도 속도 측면, 효율성 측면에서 SQL 자체가 훨씬 좋다고 ..
쉽게쉽게 떠올리자. '주성분 분석' 주성분분석하면 생각해야할 용어들. 공분산 행렬, 벡터 등 여러가지들이 있습니다. 하지만 이것들은 주성분분석을 이해하고 떠올리는데 아무런 도움을 주지 않으므로 나름대로 쉽게 정리해보려고 합니다. (정말 제 나름대로..) 주성분이란 전체 데이터(columns: 변수들)의 분산을 가장 잘 설명하는 '성분'이라고 할 수 있습니다. 주성분 분석이란 말 그대로 여러개의 변수들의 분산을 활용하여 대표적인 변수들을 추출해내는 과정이라고 할 수 있습니다. 차원의 저주 차원의 저주란, columns 수가 늘어날수록 표현해야하는 데이터 범위가 점점 커지게 되어 발생하는 문제입니다. 예를들어, 충분하지 않은 데이터 수로 모델을 구성하게 되었을 때는 모델의 '과적합(overfitting)' ..
안녕하세요. 오늘은 python 에서 SQL 연동하는 방법을 배워보고자 합니다. 필요한건, SQL 접속 정보와 Python에서 sql을 연동하기 위한 라이브러리 설치입니다. 제가 주로 사용하는 라이브러리는 다음과 같습니다. pymysql, mysql 라이브러리 - mysql 연동시 sqlalchemy 라이브러리 - mysql 포함 다른 sql 연동 python 에서 sql 사용을 위한 방법들을 바로 스크립트와 함께 살펴보겠습니다. 1. 데이터 불러오기 (python에서 데이터를 호출) 데이터 불러오기 import pymysql host = '서버ip or 주소' iid ='아이디' pw = '비밀번호' db_name = '데이터베이스' conn = pymysql.c..
Microsoft SQL Server 무료버전 설치하기 오늘은 혼자서 SQL를 공부해야 하는데.. SQL Server를 가지고 있는 학생이나 일반인 분들을 위해 MSSQL 무료버전을 설치하고 데이터 셋을 입력하는 방법을 공부해볼까 합니다. 1. 무료 테스트 버전인 MSSQL EXPRESS 버전을 설치합니다. https://www.microsoft.com/ko-kr/sql-server/sql-server-downloads SQL Server 다운로드 | Microsoft 지금 Microsoft SQL Server를 다운로드하세요. 각 데이터와 워크로드에 가장 적합한 SQL Server 체험판 또는 버전, 도구, 커넥터를 선택할 수 있습니다. www.microsoft.com 2. 다운로드 파일을 실행하고 기..
구직활동을 할 때, 데이터 마케팅(요즘은 그로스 해킹이라고 많이들 부르는 것 같습니다) 분야에서 AARRR 분석법에 대해 들어본적 있습니다. 그래도 1년동안 데이터 마케팅 업무했던 사람이... 저런 단어 하나 모른다는 것이 말도 안된다고 생각해 검색해봤습니다.. 예전에 FUNNEL 그래프를 보고 구현하는 방법에 대해 고민해본적 있었는데 딱 AARRR 분석을 보니 퍼널분석이 생각나더군요! 서비스 내에서의 고객행동을 측정하고 각 단계마다 수치를 보여준다면 성장하고 있는 서비스의 문제, 단점들을 쉽게 관리하고 극복할 수 있을 것입니다. FUNNEL 분석은 웹, 앱상에서의 사용자 로그 분석을 위해 많이 활용하는 분석 방법입니다. 사용자가 앱, 웹에 접속하여 어떠한 행동까지 이어졌는지 확인, 측정하기 위해 많이 ..
상가업소 폐점여부 확인하기 프로젝트 진행 중, VAN 사업을 운영하는데 있어서 가맹점 상가업소의 폐업여부를 확인하는 것이 중요하다고 느꼈습니다. 30일 이상 장기로 실적이 없는 가맹점을 효율적으로 관리하기 위해서는 휴업인지, 폐업인지를 정확히 알아야하기 때문입니다. 물론 일일이 사업자분들께 전화나 문자를 보내 확인하는 방법도 있겠지만 아래와 같은 경우에는 확인하는 시간과 비용이 필요이상으로 많이 발생합니다. 공공데이터 포털에서 해당 정보를 얻을 수 있는 API가 있나 확인해봤지만 사업자 등록번호로 조회할 수 있는 기능은 제공하지 않았습니다. 열심히 서칭을 해본 결과, 국세청 홈택스에서 사업자등록번호를 통해 폐업여부를 확인할 수 있다는 것을 알게되었습니다. f..