Bagaimana Kita Mengevaluasi dalam Perolehan Informasi

Dinda Sigmawaty
3 min readMay 24, 2020

--

Photo by Ellicia on Unsplash

Tujuan dari evaluasi adalah untuk mengetahui kualitas dari algoritma/metode/fungsi/model yang kita bangun. Evaluasi sebaiknya dilakukan lebih awal sehingga kita dapat mengoptimalkan model sedini mungkin. Jadi sebelum membangun model, sebaiknya kita sudah mempunyai data yang akan digunakan untuk evaluasi.

Data apa yang dibutuhkan dalam Evaluasi?

Dalam mengevaluasi dibutuhkan ground truth, yaitu dalam Perolehan Informasi diartikan sebagai pasangan query dan dokumen-dokumen. Di mana dokumen-dokumen tersebut sudah memiliki label relevan atau tidak relevan terhadap query. Standar machine learning membagi keseluruhan data ground truth ke dalam data latih atau training dan data uji atau testing:

  1. Data Latih: model dibangun berdasarkan data ini
  2. Data Uji: sistem menguji model terhadap data yang belum pernah diberikan pada proses pelatihan, yaitu data uji

Bagaimana pembagian data latih dan uji?

Standar jumlah pembagian data adalah 70% untuk data latih, dan 30% untuk data uji. Misalnya kita memiliki 15 query, di mana setiap query masing-masing memiliki 100 dokumen yang sudah diberi label relevan dan tidak relevan. Dalam Perolehan Informasi, cara membagi data dapat dibedakan menjadi 2 macam, yaitu:

  1. Berdasarkan query
  2. Berdasarkan dokumen

Kita dapat memutuskan cara mana yang paling cocok untuk model yang dibangun. Cara pertama terbukti efektif untuk menghindari vocabulary bias, sedangkan cara kedua biasanya digunakan untuk aplikasi streaming seperti monitoring news atau detecting events.

Cara mengukur hasil evaluasi

Teknik evaluasi yang sering digunakan adalah precision, recall dan F1 score. Terdapat beberapa istilah yang biasa digunakan seperti True Positive (TP), True Negative (TN), False Positive (FP) dan False Negative (FN). TP merepresentasikan banyaknya dokumen relevan yang diperoleh, FP merepresentasikan banyaknya dokumen tidak relevan yang diperoleh. Dokumen tidak relevan yang tidak diperoleh direpresentasikan sebagai TN, sedangkan dokumen relevan yang tidak diperoleh direpresentasikan sebagai FN.

  1. Precision
    precision = TP / (TP + FP)
  2. Recall
    recall = TP / (TP + FN)
  3. F1-score
    f1-score = 2 * (precision * recall) / (precision + recall)

Melakukan Evaluasi menggunakan Cross Validation

Setelah mengetahui cara pembagian data dan teknik-teknik pengukuran, selanjutnya kita lakukan proses evaluasi. Cross validation merupakan sebuah cara evaluasi yang dapat kita gunakan untuk mengestimasi performa model yang kita bangun agar hasilnya lebih general dan menghindari overfitting.

Langkah dalam Cross Validation
Beberapa langkah sudah dibahas pada poin-poin sebelumnya, namun agar lebih jelas akan disebutkan lagi pada poin ini.

  1. Bagi data ke dalam data latih dan uji
  2. Bangun model pada data latih
  3. Evaluasi model pada data uji misalnya menggunakan precision dan recall
  4. Ulangi dan lakukan rata-rata pada hasil evaluasi

Beberapa cara dalam melakukan cross validation:

Random Subsampling
Menggunakan data uji secara random pada setiap iterasi, nilai dari setiap iterasi kemudian dirata-ratakan.

  • Kelebihan: Dapat menyeimbangkan ukuran data latih dan data uji.
  • Kekurangan: Kadang-kadang data latih dan uji yang digunakan pada beberapa iterasi adalah data yang sama.

K-Fold
Membagi data sebanyak k bagian, misalnya kita menggunakan nilai k=3 maka disebut 3-fold. Pada iterasi pertama menggunakan data bagian pertama sebagai data uji, dan menggunakan data bagian kedua dan ketiga sebagai data latih, dan seterusnya, ilustrasinya dapat dilihat pada gambar dibawah ini (3 fold = 1/3 + 1/3 + 1/3):

  • Kelebihan: variasi hasil pada setiap iterasi rendah.
  • Kekurangan: bias lebih tinggi.

Leave One Out
Menggunakan satu buah data sebagai data uji, dan sisanya digunakan sebagai data latih.

  • Kelebihan: bias rendah.
  • Kekurangan: variasi hasil pada setiap iterasi sangat tinggi.

--

--

Dinda Sigmawaty
Dinda Sigmawaty

Written by Dinda Sigmawaty

Believe that learning is a lifelong mission.

No responses yet