일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- SQL
- git 기본명령어
- BFS
- 알고리즘
- 오라클 데이터 처리방식
- 리눅스 환경변수
- Spark Data Read
- git init
- Python
- 네트워크
- 배깅
- Spark 튜닝
- Linux
- Oracle ASSM
- 앙상블
- CF
- eda
- 통계분석
- git stash
- Oracle 논리적 저장 구조
- Collaborative filtering
- 랜덤포레스트
- Decision Tree
- 데이터분석
- 의사결정나무
- 추천시스템
- airflow 정리
- enq: FB - contention
- 데이터 분석
- Spark jdbc parallel read
- Today
- Total
목록분류 전체보기 (85)
[Alex] 데이터 장인의 블로그
한번은 버전, 패키지 관리 때문에 anaconda를 다시깔았던적이 있었다. 그때, 정상적으로 잘 사용되던 cmd 창이 갑자기 실행되지 않는 것이었다.. VSCODE에서도.. 마찬가지로 Anaconda Prompt 에서도.. (아무래도 PATH 설정을 자동으로 체크해놔서 생긴 꼬임 같은 것 같았다.) 비슷한 상황..(하지만 해결 x) 비슷한 상황2.. (해결x) 이것을 해결하기 위해 수많은 포스팅글을 살펴보고 했지만 해결되지 않았다.. cmd.exe 작동 안됨 vs window powershell 작동 잘됨 희한하게도 나같은 경우는 그랬다. 이때 cmd.exe.를 powershell에서 실행하거나 cmd 창을 실행하면 `&은(는) 예상되지 않았습니다.` 라는 알림이 뜨고 바로 종료되는 현상을 보였다. 해당..
Crontab 리눅스의 작업 스케줄러로, 특정 시각에 명령어를 반복 수행할 수 있도록 하는 프로그램입니다. 보통 sh 파일을 만들어서 실행하거나 python 파일을 지정하여 실행할 수 있습니다. 사용방법 터미널 창에 crontab -e를 입력. vi 설정하는 것처럼 명령어 (작업 스케줄러) 를 입력하고 :wq 저장. 명령어 정리 시간대, 요일, 명령어 지정. * * * * * 수행할 명령어 ┬ ┬ ┬ ┬ ┬ │ │ │ │ │ │ │ │ │ │ │ │ │ │ └───────── 요일 (0 - 6) (0:일요일, 1:월요일, 2:화요일, …, 6:토요일) │ │ │ └───────── 월 (1 - 12) │ │ └───────── 일 (1 - 31) │ └───────── 시 (0 - 23) └───────..
리눅스/유닉스 OS를 사용하다보면 vi 편집기를 가장 많이 사용합니다. 오늘은 자주 사용하는 vi 명령어를 정리해보겠습니다. Test version 실행 vi [파일이름] -> 파일이름은 .sh(쉘 스크립트)일수도 있고 .bat(배치 파일)일수도 있습니다. 보통은 vi .bashrc 편집하여 부팅시 alias를 지정하거나, 환경변수를 셋팅하기도 합니다. 명령모드 (edit 모드 전에) 1. (★)한줄 잘라내기 - dd 2. 파일의 끝으로 이동 - G 3. 붙여넣기 - p 4. 한글자 삭제 - x 5. 단어 삭제 - dw 6. (★)실행취소 - u 7. 줄의 맨 앞 - o 8. 줄의 맨 뒤 - $ 입력모드 1. (★)현재 커서의 위치부터 입력 - i 2. (★)현재 커서의 위치 다음 칸부터 입력 - a 3..
Spark는 Mapreduce의 대체자 MapReduce의 경우 Disk에서 매번 데이터를 처음부터 읽어야한다. (-> RDD는 데이터를 처음부터 읽을 필요가 없게 만들어준다.) Spark는 데이터를 메모리에 올려서 연산 방식 데이터를 처음부터 읽어야할 필요가 없다. Spark는 반복적인 데이터 처리 작업에서 MapReduce보다 속도가 빠르다 Spark 의 활용사례 (장단점) 장점(사용 가능 바운더리) 데이터 전처리 집계 스트리밍 데이터 처리, 프로세싱 머신러닝 분석 단점(한계점) 단독 로컬 사용보다는 클러스터 환경에서 효과를 보임. (하둡, 카프카 등) Database를 대체할 수는 없음. 메모리 뿐만 아니라 CPU/GPU 스펙도 중요. RDD Resilient Distributed Dataset의 ..
환경 OS: Ubuntu 18.04 Python: 3.6.9 사전 설치 필요 Java 설치 Spark JVM 기반인 Scala 로 만들어져 있음. JAVA 설치가 되어있어야함. Spark 설치 http://spark.apache.org/downloads Downloads | Apache Spark Download Apache Spark™ Choose a Spark release: Choose a package type: Download Spark: Verify this release using the and project release KEYS. Note that, Spark 2.x is pre-built with Scala 2.11 except version 2.4.2, which is pre-buil..
SSH서버 설치 # SSH 서버만 설치 sudo apt-get install openssh-server # SSH 클라이언트, 서버 동시 설치 sudo apt-get install ssh SSH의 기본 포트는 22번. 만약 서버의 보안을 위해 방화벽 등을 사용해야 한다면, 무조건 SSH port 번호는 따로 지정해야 한다. (중국에서 해킹시도를 집요하게 하기 때문, 요즘은 아프리카에서도 해킹 시도가 들어온다.) SSH 서버 설정 파일 /etc/ssh/sshd_config vi /etc/ssh/sshd_config Port 번호는 기본 22번으로 설정되어있다. port를 변경해주어 접속하려고 하는 해커의 공격을 예방하자. 그밖에 공개키 인증방식 혹은 아이디, 비밀번호 인증방식 등등 변경 방법 공개키 인증 ..
CentOS, Ubuntu를 사용하다보면 접근권한 및 쓰기, 읽기, 수정 권한 때문에 문제가 발생할 가능성이 있습니다. 이러한 문제를 빠르게 해결하기 위해 권한 조정에 대해서 공부하는 것은 필수적입니다. 단, 여러사람이 사용하는 리눅스 환경이라면 관리자 계정을 오픈하지 않고 해당 파일 접근권한 or 쓰기 권한을 달라고 이야기하는 것이 안전하고 빠를 수 있습니다. (이럴땐 관련 개발자에게 요청) 1. 파일정보 확인 (ls -al) 파일정보를 확인하여 어떤 파일에 어떤 권한이 부여되어 있는지 확인부터 해야합니다. ls -al 파일 Type : "d" -> 디렉토리 , "l" -> 링크파일 , "-" -> 일반파일 퍼미션정보 : 해당 파일에 부여된 퍼미션 정보 (읽기, 쓰기 등) 링크수 : 해당 파일이 링크된..