Pengertian Algoritma C4.5
Pembahasan kali ini kami akan berbagi informasi mengeni data mining, dimana pada algoritma ini biasanya dipakai untuk menentukan pohon kebutusan dalam jumlah yang besar. Biasanya algoritma ini dipakai ke SISTEM PENDUKUNG KEPUTUSAN karna banyaknya data dalam penelitian tentunya harus menggunakan bantuan algortima C4.5 supaya penagambilan keputusan akan lebih cepat.
Decision tree
Decision tree adalah model prediksi yang menggunakan struktur pohon atau struktur hirarki. Konsep dari decision tree adalah mengubah data menjadi pohon keputusan dan aturan-aturan keputusan. Keuntungan menggunakan algoritma decision tree adalah kemampuana untuk mem-break down proses pengambilan keputusan yang kompleks dapat dibagi menjadi proses yang lebih sederhana sehingga pengambil keputusan dapat dengan mudah menginterprestasikan solusi dari masalah.
Algoritma C4.5
Algoritma C4.5 adalah algoritma klasifikasi pohon keputusan yang banyak digunakan karena memiliki keunggulan utama dibanding algoritma yang lainnya. Kelebihan dari algoritma C4.5 dapat menghasilkan pohon keputusan yang mudah diinterprestasikan, memiliki tingkat akurasi yang dapat diterima dan efisien dalam menangani dua atribut yang bertipe diskret dan numerik. Dalam membangun pohon, algoritma C4.5 membaca semua sampel data pelatihan dari memori dan memuatnya ke dalam memori. Hal inilah yang menjadi salah satu kelemahan algoritma C4.5 dalam kategori “skalabilitas” adalah algoritma ini hanya dapat digunakan jika data latih dapat disimpan dalam memori secara keseluruhan dan pada waktu yang bersamaan.
Secara umum algoritma C4.5 cara untuk membangun sebuah pohon keputusan adalah yaitu:
1. Perhitungan Entropy dan Gain
2. Pemilihan Gain tertinggi sebagai akar ( Node )
3. Ulangi proses perhitungan Entropy dan Gain untuk mencari cabang sampai semua kasus di cabang memiliki kelas yang sama, yaitu ketika semua variabel telah menjadi bagian dari pohon keputusan atau setiap variabel telah memiliki daun atau keputusan.
4. Membuat Rule berdasarkan pohon keputusan.
Untuk memilih atribut sebagai akar atau yang akan dijadikan sebagai node pertama, didasarkan pada nilai gain tertinggi dari atribut-atribut yang sudah ada.
Konsep Gain
Sebuah obyek yang diklasifikasikan dalam pohon harus dicari terlebih dahulu menemukan nilai Entropynya. Entropy adalah ukuran dari teori informasi yang dapat menentukan karakteristik dari impuryt dan homogenity dari kumpulan data. Dari nilai Entropy yang telah didapat kemudian dihitung nilai information gain (IG) masing-masing atribut. Entropy (S) adalah perkiraan jumlah bit yang diperlukan untuk mengekstrak suatu kelas (+ atau -) dari serangkaian data acak dalam ruang sampel S. Entropy dapat disebut sebagai kebutuhan bit untuk mendeklarasikan suatu kelas. (Rani, 2015). Semakin kecil nilai Entropy, semakin kecil nilai yang digunakan saat mengekstraki suatu kelas. Entropy digunakan untuk mengukur ketidakaslian sistem informasi atau disebut dengan processing system.
Untuk membuat sebuah pohon keputusan yaitu sebagai berikut :
1. Pilih atribut sebagai akar.
2. Buat cabang untuk tiap-tiap nilai.
3. Bagi kasus dalam cabang.
4. Untuk setiap cabang, sampai semua kasus di cabang memiliki kelas yang sama.
Untuk memilih atribut sebagai akar pertama, didasarkan pada nilai gain tertinggi dari atribut-atribut yang ada. Untuk menghitung gain digunakan rumus seperti tertera dalam persamaan 1 berikut :
πΊπππ(π,
π΄)
= πΈππ‘ππππ¦(π)
= ∑ π΄1
π
∗
πΈππ‘ππππ¦(π΄1)
π
π=1
(1)10
Keterangan :
S : himpunan kasus
A : atribut
n : jumlah partisi atribut A
|Si| : jumlah kasus pada partisi ke-i
|S| : jumlah kasus dalam S
Sementara itu, penghitungan nilai entropi dapat dilihat pada persamaan 2 berikut:
πΈππ‘ππππ¦(π) = ∑−ππ ∗ πππ2 π π=1 ππ
πΈππ‘ππππ¦(π) = ∑−ππ ∗ πππ2 π π=1 ππ
Keterangan :
S : himpunan kasus
A : atribut
n : jumlah partisi S
pi : proporsi dari Si terhadap S
Mungkin ini dulu pembahasan kita mengenai algortima c4.5 jika ada yang ingin ditanyakan bisa berikan dibawah kolom komentar, Terima Kasih :)
Post a Comment for "Pengertian Algoritma C4.5"