Data Mining


Teknologi komputasi dan media penyimpanan telah memungkinkan manusia untuk mengumpulkan dan menyimpan data dari berbagai sumber dengan jangkauan yang amat luas. Fenomena ini terjadi dalam banyak bidang kehidupan, seperti bisnis, perbankan, pemasaran, produksi, sains, dan sebagainya. Dalam sains misalnya, berbagai teknologi memungkinkan pengambilan data yang dilakukan secara kontinu hingga dalam jumlah bertera-tera (1012) byte. Salah satu contohnya adalah Sistem Observasi Bumi milik NASA yang mampu mengirimkan berbagai jenis data berkaitan dengan objek-objek yang diamatinya hingga berpuluh-puluh gigabyte setiap jamnya.
Meskipun teknologi basisdata modern telah menghasilkan media penyimpanan yang ekonomis bagi aliran data yang amar besar ini, teknologi untuk membantu kita menganalisis, memahami, atau bahkan memvisualisasikannya belumlah tersedia. Hal inilah yang melatarbelakangi dikembangannya konsep pengambilan pengetahuan dari basisdata (PPB) atau datamining yang dapat diterjemahkan secara sederhana sebagai 'penambangan data'. Definisi sederhana dari PPB adalah pencarian pengetahuan dalam basisdata dalam proses identifikasi pola-pola yang valid, berpotensi manfaat, dan dapat dipahami secara mudah.

Tahap-tahap Pengambilan Pengetahuan dari Basisdata (PPB)
1. Membangun pemahaman akan domain aplikasi, pengetahuan lampau yang relevan, dan tujuan dari pengguna akhir
Dengan teknologi sekarang, tahap ini memerlukan penyandaran pada analis / pengguna. Faktor-
faktor yang dipertimbangkan :
- Apa saja bottle neck dalam domain? Apa saja proses yang berharga untuk diotomatisasi dan apa
yang sebaiknya diproses secara manual?
- Apa tujuan yang diinginkan? Kriteria unjuk kerja apa saja yang penting?
2. Membentuk himpunan data target, memilih sebuah himpunan data, atau berfokus pada sub himpunan
variabel atau contoh-contoh data, yang padanya pencarian dilakukan
Hal ini melibatkan homogenitas data, dinamika dan perubahan, strategi pengambilan sampel, tingkat
kebebasan, dan sebagainya.
3. Pembersihan dan pendahuluan pemprosesan data Melibatkan operasi-operasi dasar seperti
penghilangan derau atau "outliner", pengumpulan informasi yang diperlukan untuk model, menentukan
strategi penanganan field data yang hilang, perhitungan informasi urutan waktu, normalisasi yang
sesuai, dan seterusnya.
4. Reduksi dan transformasi data Melibatkan keputusan ciri-ciri penting representasi data (bergantung
pada tujuan). Penggunaan reduksi dimensionalitas atau metode-metode transformasi untuk
mengurangi banyaknya variabel efektif di bawah pertimbangan atau menemukan representasi invarian
bagi data, dan memproyeksikan data pada ruang-ruang yang di dalamnya sebuah solusi lebih mudah
ditemukan.
5. Memilih task datamining Melibatkan keputusan tujuan dari proses PPB, yaitu : klasifikasi, regresi,
clustering, peringkasan, pemodelan kebergantungan, atau deteksi perubahan dan deviasi
6. Memilih algoritma datamining Memilih metode yang digunakan untuk menemukan pola atau
mencocokkan model kedalam data. Pemilihan model dan parameter yang sesuai seringkali bersifat
kritikal. Sebagai tambahan, metode datamining harus kompatibel dengan tujuan (pengguna akhir
seringkali lebih tertarik pada memahami model daripada memprediksi kapabilitasnya.
7. Datamining Melibatkan pencarian minat dalam sebuah form atau sekumpulan representasi : pohon
atau aturan klasifikasi, regresi, clustering, dan sebagainya. Pengguna dapat secara signifikan
menyumbang metode datamining dengan mengikuti tahap-tahap berikutnya secara tepat
8. Evaluasi keluaran tahap 7 Pada tahap ini diputuskan apa yang menjadi pengetahuan, hal tersebut
merupakan sebuah tugas yang sulit. Pencapaian hasil yang dapat diterima dapat melibatkan
penggunaan beberapa pilihan berikut (mungkin juga kombinasinya) :
- Mendefinisikan sebuah skema terotomasi menggunakan ukuran "ketertarikan" dan lain-lain untuk menyaring pengetahuan dari keluaran-keluaran yang lain. Pengukuran dapat bersifat statistikal, goodness of fit, atau kesederhanaan dibandingkan dengan yang lain
- Menyandarkan pada teknik visualisasi untuk membantu analis memutuskan utilitas pengetahuan yang terekstraksi atau mencapai kesimpulan tentang data / fenomena underlying
- Menyandarkan secara keseluruhan kepada pengguna untuk bergeser melalui pola-pola yang diturunkan dengan harapan of coming across items of interest
Tahap ini mungkin menghasilkah perubahan-perubahan pada tahap-tahap selanjutnya, atau pengulangan seluruh proses.
9. Konsolidasi pengetahuan yang telah ditemukan, incorporating dengan sistem unjuk kerja, atau sekedar mendokumentasikan dan melaporkannya kepada pengguna.
Hal ini juga melibatkan pengecekan dan pemecahan konflik-konflik yang potensial dengan pengetahuan atau keyakinan sebelumnya

Cara terbaik untukmemahami tentang konsep Data Mining adalah dalam lingkup spectrum of initiative:
• User Initiative: pada akhir spektrum kita mempunyai Query dan Laporan yang diinisiatifkan oleh user – sebagai contoh user harus memikirkan pertanyaan untuk ditanyakan, dan sistem akan merespon. Secara singkat pendekatan user initiative adalah user tidak pernah berfikir tentang semua hal yang berkaitan yang akan ditanyakan, dan banyak item-item penting yang akan terlewatkan.
• System Initiative: pada sisi lainya dari spektrum, dengan otomatisasi data mining, program akan berfikir tentang pertanyaan yang menarik. Disini program akan mencari pola yang penting dan menarik untuk ditanyakan tanpa campur tangan user. Sistem IDIS menemukan pola dengan proses Information Discovery. User tidak perlu memberikan serangkaian pertanyaan, IDIS akan mengenerate pertanyaan penting tersebut.

Sebagai tambahan, dua aktivitas Data Mining yang perlu dilakukan adalah:
• Predictive Modeling: Disini pola ditemukan dari database yang digunakan untuk meramal masa depan. Pemodelan Prediksi memungkinkan user untuk mengirimkan record dengan beberapa field kosong, dan sistem akan menebak nilai yang kosong tersebut dengan pola-pola sebelumnya yang ditemukan dari basis data.
• Forensic Analysis: Disini pola-pola yang telah diekstraksi digunakan untuk menemukan keanehan atau elemen data yang tidak biasa. Untuk mencari data yang tidak biasa pertama kali yang dicari adalah norm dari data tersebut, kemudian mendeteksi item-item deviasi dari dari data yang biasa (usual) dengan batasan yang diberikan.


2 Responses
  1. Unknown Says:

    kita juga punya nih jurnal mengenai Data Mining , silahkan dikunjungi dan dibaca , berikut linknya

    http://repository.gunadarma.ac.id/bitstream/123456789/486/1/Data%20Mining%20Discretization%20Methods%20and%20Performances.pdf
    semoga bermanfaat yaa :)



    Followers