Instalasi PySpark pada Hadoop

Langkah-langkah Instalasi PySpark pada Hadoop:

1. Download Spark dari websitenya http://spark.apache.org/downloads.html dan pilih yang sesuai

sudo wget https://www-us.apache.org/dist/spark/spark-2.4.3/spark-2.4.3-bin-hadoop2.7.tgz

2. Ekstrak di /usr/local/hadoop/

tar -xzf spark-2.4.3-bin-hadoop2.7.tgz

3. Rename menjadi spark

sudo mv spark-2.4.3-bin-hadoop2.7 spark

3. Edit ~/.bashrc

sudo nano ~/.bashrc

Tambahkan:

export PATH=$PATH:/usr/local/hadoop/spark/bin
export PYSPARK_DRIVER_PYTHON=jupyter
export PYSPARK_DRIVER_PYTHON_OPTS=’notebook’

4. Update

source ~/.bashrc

5. Masuk ke folder spark

Jalankan pyspark

./bin/pyspark

6. Jika berhasil, akan muncul tampilan seperti ini