Apa itu Entropi dalam Teori Informasi
Pada tahun 1948, Claude Shannon memperkenalkan konsep untuk mengukur sebuah informasi secara matematika. Penelitian beliau ini yang ditulis pada papernya “A Mathematical Theory of Communication” memberikan pengaruh yang sangat besar pada komputasi modern. Beliau juga dijuluki sebagai Bapak Teori Informasi.
Konten Informasi
Berapa banyak informasi yang dapat kita peroleh dari sebuah kejadian 𝑥? Informasi dapat diartikan sebagai derajat ketidakpastian/kejutan, Claude Shanon merumuskan nilai dari suatu Informasi terhadap suatu kejadian sebagai:
Di mana I(𝑥) adalah Informasi dari suatu kejadian 𝑥, dan P(𝑥) adalah peluang terjadinya sebuah kejadian 𝑥.
- Jika P(𝑥) = 1, maka I(𝑥) = − log 1 = 0
Artinya jika kemungkinan terjadinya suatu kejadian adalah 1 atau bisa dikatakan “pasti terjadi”, maka informasinya adalah 0 bit atau “tidak ada” atau sama sekali “tidak mengejutkan”.
Contoh: Seseorang mengatakan kepada Anda bahwa ia baru saja melihat Hujan Air - Jika P(𝑥) = 0, maka I(𝑥) = − log 0= ∞
Artinya jika kemungkinan terjadinya suatu kejadian adalah 0 atau “tidak pernah terjadi”, maka informasi yang diterima bernilai “tak hingga”, atau bisa dikatakan “sangat mengejutkan”.
Contoh: Seseorang mengatakan kepada Anda bahwa ia baru saja melihat Hujan Emas - Untuk dua kejadian yang independen/tidak saling terkait, informasi yang didapatkan adalah penjumlahan keduanya.
Entropi
Pada waktu itu, Shannon ingin mencari sebuah cara untuk mengirim pesan secara efisien, yaitu melakukan encoding informasi menggunakan jumlah bit sekecil mungkin tanpa kehilangan nilai informasinya.
Rumusan masalah yang dihadapi Shannon adalah: diberikan sebuah distribusi probabilitas dari suatu kejadian, bagaimana cara untuk menghitung rata-rata nilai bit yang paling minimal yang dapat merepresentasikan kejadian tersebut. Dari sini muncullah Entropi.
Entropi yang dilambangkan dengan H(𝑥) adalah ekspektasi dari I(𝑥) yaitu rata-rata nilai informasi dari kumpulan kejadian {𝑥¹, … , xⁿ}.
Entropi Shannon ini juga dapat mengukur seberapa banyak ketidakpastian atau keterkejutan dari sebuah kejadian yang akan datang. Seperti yang telah disebutkan bahwa entropi adalah rata-rata informasi yang kita dapatkan dari seluruh kejadian, jadi bisa dikatakan:
- Semakin tinggi nilai entropy menandakan semakin banyak ketidakpastian atau keterkejutan.
- Begitu juga sebaliknya, semakin rendah nilai entropy artinya semakin sedikit keterkejutan.
Bagaimana − log P(𝑥) dapat merepresentasikan nilai bit terkecil?
Sebagai ilustrasi, mari kita membayangkan 2 buah mesin, yaitu Mesin 1 dan Mesin 2. Kedua mesin ini bertujuan untuk memberikan keluaran berupa salah satu huruf dari 4 pilihan yaitu “A”, “B”, “C”, dan “D”. Setiap huruf merepresentasikan suatu kejadian.
Cara Mesin 1 memutuskan huruf:
Mesin 1 akan memberikan huruf secara random dengan nilai peluang setiap huruf adalah sama yaitu 25%.
P(“A”) = 25%
P(“B”) = 25%
P(“C”) = 25%
P(“D”) = 25%
Cara Mesin 2 memutuskan huruf:
Mesin 2 akan memberikan huruf secara random dengan nilai peluang dari setiap huruf berbeda-beda, yaitu:
P(“A”) = 50%
P(“B”) = 25%
P(“C”) = 12.5%
P(“D”) = 12.5%
Tujuan kita adalah mengetahui mesin mana yang dapat menghasilkan lebih banyak informasi, yaitu yang memiliki pertanyaan atau jumlah pilihan yang lebih banyak dalam menghasilkan sebuah output/keputusan. Semakin banyak jumlah pertanyaan, maka derajat ketidakpastian/kejutan-nya juga semakin tinggi.
Analogi: jika kamu disuruh menebak sesuatu, dan kamu dapat menebak dengan hanya mengajukan 2 pertanyaan, maka informasi yang kamu terima pastilah tidak mengejutkanmu. Bedakan ketika kamu perlu mengajukan lebih banyak pertanyaan untuk mencapai jawaban tersebut.
Dengan menggunakan rumus entropi, kita bisa menghitung rata-rata informasi yang dihasilkan oleh setiap mesin.
Mesin 1:
P(A) x 2 + P(B) x 2 + P(C) x 2 + P(D) x 2
= 0.25 x 2 + 0.25 x 2 + 0.25 x 2 + 0.25 x 2
= 2 bit
Mesin 2:
P(A) x 1 + P(B) x 2 + P(C) x 3 + P(D) x 3
= 0.5 x 1 + 0.25 x 2 + 0.125 x 3 + 0.125 x 3
= 1,75 bit
Dapat disimpulkan bahwa mesin 1 menghasilkan informasi yang lebih banyak daripada mesin 2, karena:
- Mesin 1 memiliki rata-rata 2 pertanyaan untuk mendapatkan output
- Mesin 2 memiliki rata-rata 1.75 pertanyaan untuk mendapatkan output
Jika sebuah sumber informasi tidak mempunyai banyak pilihan atau memiliki derajat keacakan yang rendah maka nilai entropy tersebut rendah.
Dari contoh ini, Claude Shanon merumuskan entropy sebagai:
Aplikasi
Entropi banyak digunakan untuk berbagai bidang, terutama Ilmu Komputer, contohnya:
- Dalam membangun sebuah Decision Tree, kita mencari atribut yang dapat mengembalikan Information Gain yang paling maksimal. Memaksimalkan Information Gain adalah sama dengan meminimalkan entropi.
- Cross entropy digunakan untuk menghitung seberapa banyak informasi yang hilang pada dua buah distribusi, sederhananya fungsi ini menghitung selisih nilai entropi pada kedua distribusi. Pada pembelajaran mesin biasanya dimanfaatkan sebagai fungsi loss dan optimisasi, di mana distribusi yang dibandingkan adalah distribusi dari ground truth dengan predicted value yang dihasilkan oleh model. Pada kasus ini cross entropi harus diminimalkan.
- Maximum entropy dapat digunakan dalam Reinforcement Learning untuk membuat aksi agen semakin tidak terprediksi. Dengan memaksimumkan entropi, maka distribusi probabilitas yang didapat akan semakin mendekati seragam, sehingga aksi yang diambil agen akan semakin acak (maksimum entropi terjadi pada distribusi yang seragam).
This is an extended article from my answer on Quora (Apa yang dimaksud dengan teori informasi?)