Perbedaan Antara KDD dan Data mining

KDD vs Penambangan data

KDD (Knowledge Discovery in Databases) adalah bidang ilmu komputer, yang mencakup alat dan teori untuk membantu manusia dalam mengekstraksi informasi yang berguna dan sebelumnya tidak dikenal (yaitu pengetahuan) dari koleksi besar data digital. KDD terdiri dari beberapa langkah, dan Penambangan Data adalah salah satunya. Penambangan Data adalah aplikasi dari algoritma tertentu untuk mengekstraksi pola dari data. Meskipun demikian, KDD dan Data Mining digunakan secara bergantian.

Apa itu KDD??

Seperti disebutkan di atas, KDD adalah bidang ilmu komputer, yang berkaitan dengan ekstraksi informasi yang sebelumnya tidak diketahui dan menarik dari data mentah. KDD adalah keseluruhan proses mencoba memahami data dengan mengembangkan metode atau teknik yang sesuai. Proses ini berurusan dengan pemetaan data tingkat rendah ke dalam bentuk lain yang lebih kompak, abstrak dan bermanfaat. Hal ini dicapai dengan membuat laporan singkat, memodelkan proses menghasilkan data dan mengembangkan model prediksi yang dapat memprediksi kasus di masa depan. Karena pertumbuhan data yang eksponensial, khususnya di bidang-bidang seperti bisnis, KDD telah menjadi proses yang sangat penting untuk mengubah kekayaan data yang besar ini menjadi intelijen bisnis, karena ekstraksi pola secara manual menjadi tidak mungkin dilakukan dalam beberapa dekade terakhir. Misalnya, saat ini telah digunakan untuk berbagai aplikasi seperti analisis jaringan sosial, deteksi penipuan, sains, investasi, manufaktur, telekomunikasi, pembersihan data, olahraga, pencarian informasi dan sebagian besar untuk pemasaran. KDD biasanya digunakan untuk menjawab pertanyaan seperti apa produk utama yang mungkin membantu untuk memperoleh laba tinggi tahun depan di Wal-Mart ?. Proses ini memiliki beberapa langkah. Dimulai dengan mengembangkan pemahaman tentang domain aplikasi dan tujuan dan kemudian membuat dataset target. Ini diikuti dengan pembersihan, preprocessing, reduksi dan proyeksi data. Langkah selanjutnya adalah menggunakan Data Mining (dijelaskan di bawah) untuk mengidentifikasi pola. Akhirnya, pengetahuan yang ditemukan dikonsolidasikan dengan memvisualisasikan dan / atau menafsirkan.

Apa itu Penambangan Data?

Seperti disebutkan di atas, Penambangan Data hanya merupakan langkah dalam proses KDD keseluruhan. Ada dua tujuan utama Penambangan Data sebagaimana ditentukan oleh tujuan aplikasi, dan mereka adalah verifikasi atau penemuan. Verifikasi adalah memverifikasi hipotesis pengguna tentang data, sementara penemuan secara otomatis menemukan pola yang menarik. Ada empat tugas penambangan data utama: pengelompokan, klasifikasi, regresi, dan asosiasi (summarization). Clustering mengidentifikasi kelompok serupa dari data yang tidak terstruktur. Klasifikasi adalah aturan pembelajaran yang dapat diterapkan pada data baru. Regresi adalah menemukan fungsi dengan kesalahan minimal untuk memodelkan data. Dan asosiasi mencari hubungan antar variabel. Kemudian, algoritma penambangan data spesifik perlu dipilih. Tergantung pada tujuannya, algoritma yang berbeda seperti regresi linier, regresi logistik, pohon keputusan dan Naïve Bayes dapat dipilih. Kemudian pola minat dalam satu atau lebih bentuk representasional dicari. Akhirnya, model dievaluasi baik menggunakan akurasi prediksi atau dapat dimengerti.

Apa perbedaan antara KDD dan Penambangan data?

Meskipun, dua istilah KDD dan Penambangan Data banyak digunakan secara bergantian, mereka merujuk pada dua konsep terkait namun sedikit berbeda. KDD adalah keseluruhan proses penggalian pengetahuan dari data sementara Data Mining adalah langkah di dalam proses KDD, yang berhubungan dengan mengidentifikasi pola dalam data. Dengan kata lain, Penambangan Data hanya aplikasi dari algoritma tertentu berdasarkan pada tujuan keseluruhan dari proses KDD.