Hallo, kali ini saya akan berbagi sedikit materi mengenai Data Mining, bagi yang kuliah di Ilmu Komputer, atau Teknik Informatika pasti pernah denger kan istilah Data Mining.. Nah bagi yang pengen tahu gambaran umum mengenai Data Mining, berikut saya kasih informasinya.
PENGERTIAN DATA MINING
Data mining adalah sebuah proses untuk menemukan pola atau pengetahuan yang bermanfaat secara otomatis dalam data yang berjumlah banyak dengan menggunakan teknik atau metode tertentu.
Menurut Han, dan Kamber (2006) data mining merupakan pemilihan atau “menambang” pengetahuan dari jumlah data yang banyak. Data mining sering dianggap sebagai bagian dari Knowledge Discovery in Database (KDD) yaitu sebuah proses mencari pengetahuan yang bermanfaat dari data, proses Knowledge Discovery terdiri dari tahapan sebagai berikut :
- Data cleaning
Proses cleaning mencakup antara lain membuang duplikasi data, memeriksa data yang inkonsisten, dan memperbaiki kesalahan pada data seperti kesalahan cetak (tipografi).
- Data integration
Pada tahap data integration dilakukan pengecekan kombinasi data terhadap data yang berasal dari banyak sumber.
- Data selection
Pemilihan (seleksi) data dari sekumpulan data operasional perlu dilakukan sebelum tahap penggalian informasi. Data hasil seleksi yang akan digunakan untuk proses data mining disimpan dalam suatu berkas terpisah dari basis data operasional.
- Data transformation
Merupakan proses transformasi pada data yang telah dipilih, sehingga data tersebut sesuai untuk proses data mining. Proses ini merupakan proses kreatif dan sangat tergantung pada jenis atau pola informasi yang akan dicari dalam basis data. Kadang-kadang transformasi data dan konsolidasi dilakukan sebelum proses seleksi data, khususnya dalam kasus data warehousing. Reduksi data juga dapat dilakukan untuk mendapatkan representasi yang lebih kecil dari data asli tanpa mengorbankan integritasnya.
- Data mining
Pemilihan tujuan dari proses KDD misalnya klasifikasi, regresi, clustering, dll. Proses data mining adalah proses mencari pola atau informasi menarik dalam data terpilih menggunakan teknik dan metode tertentu. Pemilihan metode atau algoritma yang tepat sangat bergantung pada tujuan dan proses KDD secara keseluruhan.
- Pattern evalution
Proses yang mengidentifikasi pola yang benar-benar menarik yang mewakili pengetahuan berdasarkan beberapa ukuran tindakan meliputi hipotesa sebelumnya.
- Knowledge presentation
Pola informasi yang dihasilkan dari proses data mining perlu ditampilkan dalam bentuk yang mudah dimengerti oleh pihak yang berkepentingan.
TUGAS-TUGAS DATA MINING
Menurut Han dan Kamber (2001), tugas data mining berdasarkan fungsinya dikategorikan menjadi dua yaitu deskriptif dan prediktif. Data mining secara deskriptif bertugas mengkarakteristik properti data pada basis data, sedangkan tugas data mining prediktif yaitu membuat prediksi berdasarkan kesimpulan dari data yang ada. Fungsionalitas data mining dideskripsikan sebagai berikut :
- Asosiasi
Asosiasi adalah proses menemukan aturan asosiasi yang didapatkan dari frekuensi suatu atribut pada sekumpulan data
- Deskripsi Konsep / Kelas
Deskripsi konsep / kelas memberikan ringkasan yang jelas dan tepat dari sekumpulan data. Deskripsi dapat diperoleh dari karakteristik data dan diskriminasi data atau kedua-duanya.
- Klasifikasi
Klasifikasi merupakan proses pencarian sekumpulan model atau fungsi yang menggambarkan dan membedakan kelas atau konsep data dengan maksud menggunakan model tersebut sebagai prediksi terhadap kelas atau obyek dimana label kelas tersebut tidak diketahui.
- Analisa Klaster
Berbeda dengan klasifikasi, klasterisasi merupakan unsupervised learning. Dalam klasterisasi, label kelas tidak didefinisikan terlebih dahulu.
- Analisa Outlier
Outlier adalah objek data yang tidak memenuhi model dan persyaratan secara umum. Obyek data outlier berbeda dan tidak konsisten dengan data set yang ada. Kebanyakan metode data mining menganggap outlier sebagai sampah.
DATA PREPROCESSING
Menurut Han dan Kamber (2006), data preprocessing merupakan proses persiapan data yang dilakukan dengan tujuan menyesuaikan kondisi data agar sesuai dengan kebutuhan pada proses analisis (data mining). Data preprocessing memakan waktu paling lama diantara proses-proses pencarian pengetahuan (knowledge discovery). Data preprocessing diperlukan karana data yang dimiliki sering kali tidak lengkap, tidak konsisten, banyak terjadi perulangan data yang tidak perlu, dan memuat anomali atau error. Metode pada data preprocessing yaitu :
- Pembersihan Data (Data Cleaning)
Data cleaning bertujuan melengkapi atau menghapus data yang tidak lengkap, menghilangkan data noise, mengidentifikasi atau menghapus anomali, dan mengatasi masalah konsisten data.
- Integrasi Data (Data Integration)
Integrasi data adalah suatu teknik mengkombinasikan data dari beberapa sumber dalam satu tempat penyimpanan, misalnya gudang data (data warehouse). Sumber tersebut bisa berupa multiple database, data cube atau file-file.
- Transformasi Data (Data Transformation)
Data mentah perlu dilakukan proses transformasi untuk meningkatkan performanya. Dalam transformasi data, data diubah menjadi bentuk yang bisa ditambang.
- Reduksi Data (Data Reduction)
Data yang kompleks akan membutuhkan waktu yang lama untuk menambang. Teknik reduksi data sangat membantu mereduksi data yang kompleks tanpa mengurangi integritas dari data yang asli dan tidak mengurangi kualitas informasi yang dihasilkan.
Sumber:
Han, J. dan Kamber, M., 2001, Data Mining: Concepts and Techniques.USA: Morgan Kaufamann, Academic Pers.
Han, J. dan Kamber, M., 2006, Data Mining: Concepts and Techniques-Chapter 2. USA: Elsevier.
http://globallavebookx.blogspot.co.id/2015/01/pengertian-definisi-dan-fungsi-data.html