Contoh Penggunaan Program Wordcount
Program Wordcount untuk satu file tunggal
Pada Hadoop sebenarnya sudah terdapat contoh program jar untuk menghitung jumlah kata (Wordcount).
Contoh program ini berada pada direktori /usr/local/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.2.0.jar
Berikut adalah langkah-langkah untuk menggunakan program Wordcount ini:
1. Jalankan Hadoop
start-dfs.sh
start-yarn.sh
2. Buat folder input
hadoop fs -mkdir /input
3. Buat file inputWordCount.txt di komputer lokal, lalu isi file tersebut dengan kata-kata tertentu
sudo nano inputWordCount.txt
4. Pindah file inputWordCount.txt dari komputer lokal ke folder input pada HDFS
hadoop fs -put inputWordCount.txt /input
5. Jalankan contoh program Wordcount pada hadoop-mapreduce-examples-3.2.0.jar untuk menghitung jumlah kata pada file inputWordCount.txt dan hasilnya disimpan pada folder output
hadoop jar /usr/local/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.2.0.jar wordcount /input/inputWordCount.txt /output
6. Cek di folder output
hadoop fs -ls /output
Pada folder output terdapat dua file seperti gambar di atas. Hasil perhitungan bisa dilihat pada file yang nama depannya part, pada kasus ini part-r-00000.
7. Melihat hasil perhitungan Wordcount di file part-r-00000
hadoop fs -cat /output/part-r-00000
Program Wordcount untuk beberapa file dalam satu folder
Untuk menjalankan program Wordcount untuk menghitung jumlah kata dari beberapa file dalam satu folder sekaligus sebenarnya hampir sama dengan cara menjalankannya pada sebuah file tunggal. Berikut langkah-langkahnya:
1. Misal kita memiliki dua file di folder input
2. Jalankan contoh program Wordcount pada hadoop-mapreduce-examples-3.2.0.jar untuk menghitung jumlah kata pada semua file pada folder input (inputWordCount.txt dan inputWordCount_dua.txt) lalu hasilnya disimpan pada folder output2
hadoop jar /usr/local/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.2.0.jar wordcount /input/ /output2
3. Melihat hasil perhitungan Wordcount di file part-r-00000
hadoop fs -cat /output2/part-r-00000