Tutorial Pemakaian Contoh Program Wordcount pada Hadoop

Contoh Penggunaan Program Wordcount 

Program Wordcount untuk satu file tunggal

Pada Hadoop sebenarnya sudah terdapat contoh program jar untuk menghitung jumlah kata (Wordcount).

Contoh program ini berada pada direktori /usr/local/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.2.0.jar

Berikut adalah langkah-langkah untuk menggunakan program Wordcount ini:

1. Jalankan Hadoop

start-dfs.sh
start-yarn.sh

2. Buat folder input

hadoop fs -mkdir /input

mkdir

3. Buat file inputWordCount.txt di komputer lokal, lalu isi file tersebut dengan kata-kata tertentu

sudo nano inputWordCount.txt 

file input

file

4. Pindah file inputWordCount.txt dari komputer lokal ke folder input pada HDFS

hadoop fs -put inputWordCount.txt /input

input

5. Jalankan contoh program Wordcount pada hadoop-mapreduce-examples-3.2.0.jar untuk menghitung jumlah kata pada file inputWordCount.txt dan hasilnya disimpan pada folder output

hadoop jar /usr/local/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.2.0.jar wordcount /input/inputWordCount.txt /output

run

6. Cek di folder output

hadoop fs -ls /output

output

Pada folder output terdapat dua file seperti gambar di atas. Hasil perhitungan bisa dilihat pada file yang nama depannya part, pada kasus ini part-r-00000.

7. Melihat hasil perhitungan Wordcount di file part-r-00000

hadoop fs -cat /output/part-r-00000

hasil

Program Wordcount untuk beberapa file dalam satu folder

Untuk menjalankan program Wordcount untuk menghitung jumlah kata dari beberapa file dalam satu folder sekaligus sebenarnya hampir sama dengan cara menjalankannya pada sebuah file tunggal. Berikut langkah-langkahnya:

1. Misal kita memiliki dua file di folder input

inputdua

2. Jalankan contoh program Wordcount pada hadoop-mapreduce-examples-3.2.0.jar untuk menghitung jumlah kata pada semua file pada folder input (inputWordCount.txt dan inputWordCount_dua.txt) lalu hasilnya disimpan pada folder output2

hadoop jar /usr/local/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.2.0.jar wordcount /input/ /output2

output2

3. Melihat hasil perhitungan Wordcount di file part-r-00000

hadoop fs -cat /output2/part-r-00000

hasil2