Perbedaan Antara Bagging dan Random Forest

Selama bertahun-tahun, beberapa sistem klasifikasi, juga disebut sistem ensemble telah menjadi topik penelitian yang populer dan menikmati perhatian yang tumbuh di dalam komunitas komputasi intelijen dan pembelajaran mesin. Ini menarik minat para ilmuwan dari beberapa bidang termasuk Pembelajaran Mesin, Statistik, Pengenalan Pola, dan Penemuan Pengetahuan dalam Database. Seiring waktu, metode ansambel telah membuktikan diri sangat efektif dan serbaguna dalam spektrum luas domain masalah dan aplikasi dunia nyata. Awalnya dikembangkan untuk mengurangi varian dalam sistem pengambilan keputusan otomatis, metode ensemble sejak itu telah digunakan untuk mengatasi berbagai masalah pembelajaran mesin. Kami menyajikan ikhtisar dari dua algoritma ensemble yang paling menonjol - Bagging dan Random Forest - dan kemudian membahas perbedaan antara keduanya.

Dalam banyak kasus, bagging, yang menggunakan bootstrap sampling, klasifikasi tress telah terbukti memiliki akurasi lebih tinggi daripada pohon klasifikasi tunggal. Bagging adalah salah satu algoritma berbasis ensemble tertua dan paling sederhana, yang dapat diterapkan pada algoritma berbasis pohon untuk meningkatkan akurasi prediksi. Ada versi lain yang ditingkatkan dari pengantongan yang disebut algoritma Random Forest, yang pada dasarnya adalah kelompok pohon keputusan yang dilatih dengan mekanisme pengemasan. Mari kita lihat bagaimana algoritma hutan acak bekerja dan bagaimana bedanya dengan mengantongi dalam model ansambel.

Mengantongi

Agregasi bootstrap, juga dikenal sebagai bagging, adalah salah satu algoritma berbasis ensemble yang paling awal dan paling sederhana untuk membuat pohon keputusan lebih kuat dan untuk mencapai kinerja yang lebih baik. Konsep di balik mengantongi adalah untuk menggabungkan prediksi dari beberapa pembelajar dasar untuk menciptakan hasil yang lebih akurat. Leo Breiman memperkenalkan algoritma bagging pada tahun 1994. Dia menunjukkan bahwa agregasi bootstrap dapat membawa hasil yang diinginkan dalam algoritma pembelajaran yang tidak stabil di mana perubahan kecil pada data pelatihan dapat menyebabkan variasi besar dalam prediksi. Bootstrap adalah sampel dataset dengan penggantian dan setiap sampel dihasilkan dengan pengambilan sampel secara seragam, set pelatihan berukuran m sampai set baru dengan instance m diperoleh..

Hutan Acak

Hutan acak adalah algoritma pembelajaran mesin yang diawasi berdasarkan pembelajaran ensemble dan evolusi algoritma pengemasan asli Breiman. Ini merupakan kemajuan besar dibandingkan pohon keputusan kantong untuk membangun pohon keputusan ganda dan mengumpulkannya untuk mendapatkan hasil yang akurat. Breiman menambahkan variasi acak tambahan ke dalam prosedur mengantongi, menciptakan keragaman yang lebih besar di antara model yang dihasilkan. Hutan acak berbeda dari pohon kantong dengan memaksa pohon untuk menggunakan hanya sebagian dari prediktor yang tersedia untuk membelah pada fase pertumbuhan. Semua pohon keputusan yang membentuk hutan acak berbeda karena setiap pohon dibangun di atas subkumpulan data acak yang berbeda. Karena meminimalkan overfitting, cenderung lebih akurat daripada pohon keputusan tunggal.

Perbedaan antara Bagging dan Random Forest

Dasar-dasar

- Baik bagging maupun random forest adalah algoritma berbasis ensemble yang bertujuan untuk mengurangi kompleksitas model yang sesuai dengan data pelatihan. Agregasi bootstrap, juga disebut bagging, adalah salah satu metode ensembel tertua dan kuat untuk mencegah overfitting. Ini adalah meta-teknik yang menggunakan beberapa pengklasifikasi untuk meningkatkan akurasi prediksi. Mengantongi berarti mengambil sampel acak dari sampel pelatihan untuk penggantian agar mendapatkan ansambel model yang berbeda. Hutan acak adalah algoritma pembelajaran mesin yang diawasi berdasarkan pembelajaran ensemble dan evolusi algoritma pengemasan asli Breiman.

Konsep

- Konsep bootstrap sampling (mengantongi) adalah untuk melatih sekelompok pohon keputusan yang tidak di-unsuned pada subset acak yang berbeda dari data pelatihan, pengambilan sampel dengan penggantian, untuk mengurangi varian pohon keputusan. Idenya adalah untuk menggabungkan prediksi dari beberapa pelajar dasar untuk menciptakan hasil yang lebih akurat. Dengan Hutan Acak, variasi acak tambahan ditambahkan ke dalam prosedur pengemasan untuk menciptakan keragaman yang lebih besar di antara model-model yang dihasilkan. Gagasan di balik hutan acak adalah membangun banyak pohon keputusan dan mengumpulkannya untuk mendapatkan hasil yang akurat.

Tujuan

- Baik pohon kantong dan hutan acak adalah instrumen pembelajaran ensemble yang paling umum digunakan untuk mengatasi berbagai masalah pembelajaran mesin. Bootstrap sampling adalah meta-algoritma yang dirancang untuk meningkatkan akurasi dan stabilitas model pembelajaran mesin menggunakan pembelajaran ensemble dan mengurangi kompleksitas model overfitting. Algoritme hutan acak sangat kuat terhadap overfitting dan baik dengan data yang tidak seimbang dan hilang. Ini juga merupakan pilihan algoritma yang disukai untuk membangun model prediksi. Tujuannya adalah untuk mengurangi varians dengan rata-rata beberapa pohon pengambilan keputusan dalam, dilatih pada sampel data yang berbeda.

Bagging vs. Random Forest: Chart Perbandingan

Ringkasan

Baik pohon kantong dan hutan acak adalah instrumen pembelajaran ensemble yang paling umum digunakan untuk mengatasi berbagai masalah pembelajaran mesin. Bagging adalah salah satu algoritma berbasis ensemble tertua dan paling sederhana, yang dapat diterapkan pada algoritma berbasis pohon untuk meningkatkan akurasi prediksi. Random Forests, di sisi lain, adalah algoritma pembelajaran mesin yang diawasi dan versi yang disempurnakan dari model pengambilan sampel bootstrap yang digunakan untuk masalah regresi dan klasifikasi. Gagasan di balik hutan acak adalah membangun banyak pohon keputusan dan mengumpulkannya untuk mendapatkan hasil yang akurat. Hutan acak cenderung lebih akurat daripada pohon keputusan tunggal karena meminimalisir overfitting.

Teknologi