Hadoop & Spark
Spark 프로그래밍 환경 구성 - 1. 로컬모드 설치
Alex, Yoon
2021. 4. 22. 14:31
환경
OS: Ubuntu 18.04
Python: 3.6.9
사전 설치 필요
Java 설치
Spark JVM 기반인 Scala 로 만들어져 있음.
JAVA 설치가 되어있어야함.
Spark 설치
http://spark.apache.org/downloads
Downloads | Apache Spark
Download Apache Spark™ Choose a Spark release: Choose a package type: Download Spark: Verify this release using the and project release KEYS. Note that, Spark 2.x is pre-built with Scala 2.11 except version 2.4.2, which is pre-built with Scala 2.12. Spar
spark.apache.org
Ubuntu CLI창에서 wget을 통해 다운로드 받겠습니다.
wget https://mirror.navercorp.com/apache/spark/spark-3.1.1/spark-3.1.1-bin-hadoop2.7.tgz
다운로드 후, 원하는 디렉토리에 옮겨서 압축을 풀어줍니다.
압축 풀기
- tar -xf spark-2.3.3-bin-hadoop2.7.tgz
스파크 심볼릭 링크 생성
- ln -s spark-2.3.3-bin-hadoop2.7 spark
PYSPARK SHELL 설정
환경변수 추가 ( .profile 파일 설정 )
- export PYSPARK_PYTHON=python3
python spark 앨리어스 등록 ( .bash_profile 파일 설정 )
- alias pyspark=~/spark/bin/pyspark
자 이제 pyspark 명령어를 활용해서 spark를 실행시켜줄 수 있습니다.
반응형