Apa itu data mining?
Data Mining adalah Serangkaian proses untuk menggali nilai
tambah berupa informasi yang selama ini tidak diketahui secara manual dari
suatu basisdata dengan melakukan penggalian pola-pola dari data dengan tujuan
untuk memanipulasi data menjadi informasi yang lebih berharga yang diperoleh
dengan cara mengekstraksi dan mengenali pola yang penting atau menarik dari
data yang terdapat dalam basis data.
Baca Juga : Mengenal Apa Itu Basis Data
Baca Juga : Mengenal Apa Itu Basis Data
Istilah lain yang sering digunakan diantaranya knowledge
discovery (mining) in databases (KDD), knowledge extraction, data analysis,
data archeology, data dredging, information harvesting, dan business
intelligence.
Berikut pengertian data mining menurut para ahli;
1. Davies (2004)
Secara sederhana data mining adalah penambangan atau penemuan informasi baru dengan mencari pola atau aturan tertentu dari sejumlah data yang sangat besar.
2. Pramudiono (2007)
Data Mining merupakan serangkaian proses untuk menggali
nilai tambah dari suatu kumpulan data berupa pengetahuan yang selama ini tidak
diketahui secara manual.
3. Santoso (2007)
Data mining, sering juga disebut sebagai knowledge discovery in databases (KDD). KDD adalah kegiatan yang meliputi pengumpulan, pemakaian data, historis untuk menemukan keteraturan, pola atau hubungan dalam set data berukuran data.
4. Witten (2005)
Data mining didefinisikan sebagai proses menemukan pola-pola dalam data. Proses ini otomatis atau seringnya semiotomatis. Pola yang ditemukan harus penuh arti dan pola tersebut memberikan keuntungan, biasanya keuntungan secara ekonomi. Data yang dibutuhkan dalam jumlah besar.
5. Han (2006)
Data mining adalah kegiatan menemukan pola yang menarik dari data dalam jumlah besar, data dapat disimpan dalam data base, data warehouse, atau penyimpanan informasi lainnya.
Karakteristik Data Mining
- Data mining berhubungan dengan penemuan sesuatu yang tersembunyi dan pola data tertentu yang tidak diketahui sebelumnya.
- Data mining biasa menggunakan data yang sangat besar. Biasanya data yang besar digunakan untuk membuat hasil lebih dipercaya.
- Data mining berguna untuk membuat keputusan yang kritis, terutama dalam strategi.
Fungsi Data Mining
Ada empat fungsi dasar data mining, yaitu:
- Fungsi Prediksi : Proses untuk menemukan pola dari data dengan menggunakan beberapa variabel untuk memprediksikan variabel lain yang tidak diketahui jenis atau nilainya.
- Fungsi Deskripsi : Proses untuk menemukan suatu karakteristik penting dari data dalam suatu basis data.
- Fungsi Klasifikasi : Klasifikasi merupakan suatu proses untuk menemukan model atau fungsi untuk menggambarkan class atau konsep dari suatu data. Proses yang digunakan untuk mendeskripsikan data yang penting serta dapat meramalkan kecenderungan data pada masa depan.
- Fungsi Asosiasi : Proses ini digunakan untuk menemukan suatu hubungan yang terdapat pada nilai atribut dari sekumpulan data.
Tahapan Data Mining
Data yang diperoleh, baik dari database suatu perusahaan
maupun hasil eksperimen, memiliki isian-isian yang tidak sempurna seperti data
yang hilang, data yang tidak valid atau juga hanya sekedar salah ketik. Selain
itu, ada juga atribut-atribut data yang tidak relevan dengan hipotesa data
mining yang kita miliki. Data-data yang tidak relevan itu juga lebih baik
dibuang karena keberadaannya bisa mengurangi mutu atau akurasi dari hasil data
mining nantinya.
2. Integrasi Data
Integrasi data merupakan penggabungan data dari berbagai data base ke dalam satu database baru. Tidak jarang data yang diperlukan untuk data mining tidak hanya bersal dari satu database tetapi juga berasal dari beberapa database atau file teks. Integrasi data dilakukan pada atribut-atribut yang mengindetifikasikan entitas-entitas yang unik seperti atribut nama, jenis produk, nomer pelanggan dan lainnya.
3. Seleksi data (Data Selection)
Data yang ada pada database sering kali tidak semuanya dipakai, oleh karena itu hanya data yang sesuai untuk dianalisis yang akan diambil dari database. Sebagai contoh, sebuah kasus yang meneliti faktor kecenderungan orang membeli dalam kasus market sepatu analysis. Tidak perlu mengambil nama pelanggan, cukup dengan id pelanggan saja.
4. Transformasi Data (Data Transformation)
Data diubah atau digabung ke dalam format yang sesuai untuk diproses dalam data mining. Beberapa metode data mining membutuhkan format data yang khusus sebelum bisa diaplikasikan. Sebagai contoh beberapa metode standar seperti analisis asosisasi dan clustering hanya bisa menerima input data kategorikal. Karena data berupa angka numerik yang berlanjut perlu dibagi-bagi menjadi beberapa interval. Proses ini disebut transformasi data.
5. Proses Mining
Merupakan suatu proses utama saat metode ditetapkan untuk menemukan pengetahuan berharga dan tersembunyi dari data.
6. Evaluasi Pola
Untuk mengidentifikasi pola-pola menarik ke dalam knowlagde based yang ditemukan. Dalam tahap ini hasil dari teknik data mining berupa pola-pola yang khas maupun model prediksi dievaluasi untuk menilai apakah hipotesa yang ada memabng tercapai. Bila hasilnya tidak sesuai dengan hipotesa, ada beberapa alternatif yang dapat diambil. Seperti menjadikan umpan balik untuk memperbaiki proses data mining, mencoba metode data mining lain yang lebih sesuai, atau menerima hasil ini sebagai suatu hasil yang diluar dugaan yang mungkin bermanfaat.
5. Proses Mining
Merupakan suatu proses utama saat metode ditetapkan untuk menemukan pengetahuan berharga dan tersembunyi dari data.
6. Evaluasi Pola
Untuk mengidentifikasi pola-pola menarik ke dalam knowlagde based yang ditemukan. Dalam tahap ini hasil dari teknik data mining berupa pola-pola yang khas maupun model prediksi dievaluasi untuk menilai apakah hipotesa yang ada memabng tercapai. Bila hasilnya tidak sesuai dengan hipotesa, ada beberapa alternatif yang dapat diambil. Seperti menjadikan umpan balik untuk memperbaiki proses data mining, mencoba metode data mining lain yang lebih sesuai, atau menerima hasil ini sebagai suatu hasil yang diluar dugaan yang mungkin bermanfaat.
7. Presentasib Pengetahuan (Knowledge Presentation)
Merupakan visualisasi dan penyajian pengetahuan mengenai metode yang digunakan untuk memperoleh pengetahuan yang diperoleh pengguna. Tahap terakhir dari proses data mining adalah bagaimana memformulasikan keputusan dari hasil analisis yang didapat. Dalam presentasi ini, visualisasi juga bisa membantu mengkomunikasikan hasil data mining.
Merupakan visualisasi dan penyajian pengetahuan mengenai metode yang digunakan untuk memperoleh pengetahuan yang diperoleh pengguna. Tahap terakhir dari proses data mining adalah bagaimana memformulasikan keputusan dari hasil analisis yang didapat. Dalam presentasi ini, visualisasi juga bisa membantu mengkomunikasikan hasil data mining.