Pengantar Data Mining¶
Tujuan Pembelajaran¶
Tujuan Pembelajaran
1. Mahasiswa dapat memahami konsep data mining
2. Mahasiswa dapat mengetahui proses data mining
3. Mahasiswa dapat mengetahui teknik teknik yang digunakan dalam data mining.
Apa itu data mining¶
The non-trivial extraction of implicit, previously unknown, and potentially useful information from data* 1{silahkan dibaca }
Keunggulan data mining¶
Studi statistik tradisional menggunakan informasi masa lalu untuk menentukan keadaan sistem di masa depan (sering disebut prediksi), sedangkan studi penambangan data menggunakan informasi masa lalu untuk membangun pola yang berdasarkan tidak hanya pada input data tetapi juga pada konsekuensi logis dari data tersebut. Proses ini juga disebut prediksi, tetapi mengandung elemen penting yang tidak ditemukan dalam analisis statistik: kemampuan untuk memberikan ekspresi tentang yang mungkin terjadi di masa depan, dibandingkan dengan apa yang ada di masa lalu (berdasarkan asumsi dari metode statistik).
Dibandingkan dengan studi statistik tradisional, yang sering melihat ke belakang, bidang data mining menemukan pola dan klasifikasi yang melihat dan bahkan memprediksi masa depan. Secara singkata
-
Data mining dapat memberikan pemahaman data yang lebih lengkap dengan menemukan pola yang sebelumnya tidak terlihat dan
-
Membuat model yang untuk memprediksi, sehingga memungkinkan orang untuk membuat keputusan yang lebih baik, sebagai acuan tindakan untuk yang akan datang dalam membuat keputusan
Tugas utama data mining¶
Aktifitas utama dalam data mining adalah sebagai berikut 2
Kemampuan Data mining untuk mencari informasi bisnis yang berharga dari basis data yang sangat besar, dapat dianalogikan dengan penambangan logam mulia dari lahan sumbernya, teknologi ini dipakai untuk
Proses Data mining¶
Dalam data mining proses tahapan yang dilakukan sebagai Proses standar lintas industri untuk penambangan data yang dihasilkan oleh konsorsium , yang dikenal sebagai CRISP-DM, adalah model proses standar terbuka yang menggambarkan pendekatan umum yang digunakan oleh para ahli penambangan data. Model proses untuk penambangan data ini memberikan gambaran umum siklus hidup proyek penambangan data. Ini berisi fase proyek, tugas masing-masing dan hubungan antara aktifitas aktifitas yang dilakukan setiap tahapan seperti gambar berikut:
Memahami Bisnis (Business Understanding )¶
Menentukan Tujuan Bisnis¶
Tahapan ini menfokuskan pada pemahaman tujuan projek dan kebutuhan-kebutuhan yang diinginkan bisnis, kemudian merubahnya pengetahuan ini untuk mendefinisikan data mining dan rencana yang ingin dilakukan untuk mencapai tujuan bisnis. Tahaapan ini dilakukan untuk memahami secara menyeluruh, dari perspektif bisnis, apa yang benar-benar ingin dicapai oleh pelanggan. Selain itu pada tahapan ini analisa perlu dilakukan untuk mengungkap faktor-faktor penting, yang dapat mempengaruhi hasil proyek data mining.
Membuat Rencana Proyek¶
Menjelaskan rencana projek dilakuan untuk mencapai tujuan penambangan data sehingga dapat mencapai tujuan bisnis yang diinginkan. Rencana tersebut harus menentukan langkah-langkah yang harus dilakukan selama proyek , termasuk pemilihan tool dan teknik yang akan digunakan
Menilai situasi dan kondisi¶
Dalam hal pencarian fakta yang lebih rinci tentang semua sumber daya, kendala, asumsi, dan faktor-faktor lain yang harus dipertimbangkan dalam menentukan tujuan analisis data dan rencana proyek. Menilai sefara rinci kondisi lingkungan bisnis dan tujuan bisnis akan menentukan keberhasilan projek data mining
Output dari ini adalah
- Inventaris sumber daya
Daftar sumber daya yang tersedia untuk proyek, termasuk personil (pakar bisnis, pakar data, dukungan teknis, pakar penambangan data), data ( akses ke data langsung, gudang, atau operasional), sumber daya komputasi (platform perangkat keras), dan perangkat lunak (alat penambangan data, perangkat lunak lain yang relevan)
- Persyaratan, asumsi dan kendala
Mendaftar semua persyaratan proyek, termasuk jadwal penyelesaian, kelengkapan dan kualitas hasil, dan keamanan, serta masalah hukum. Salah satu bagian dari tahapan ini akan memastikan apakah secara legal diizinkan menggunakannya data. Buat daftar asumsi-asumsi terkait dengan projek. Misalakan apakah apakah diasumsikan untuk memungkinkan memverifikasi selama penambangan data. Buat daftar kendala pada proyek. Ini mungkin merupakan kendala pada ketersediaan sumber daya, tetapi juga dapat mencakup kendala teknologi seperti ukuran data yang digunakan untuk pemodelan
- Mendaftar resiko yang akan dihadapi selama projek berlangsung (jika kemungkinan projek gagal)
Memahami data ( data understanding )¶
Tahapan memahami data dimulai dengan mengumpulkan data awal dan dilanjutkan dengan dengan kegiatan-kegiatan untuk mendapatkan data yang lazim serta identifikasi data yang berkualitas, pemahaman data sangat diperlukan untuk mendeteksi bagian yang menarik dari data sehingga dapat membangun hipotesa terhadap informasi yang tersembunyi
a. Mengumpulkan data awal¶
- Tugas
Mendaftar data yang ada. Pengumpulan data diperlukan untuk memahami data. Misalkan, jika anda menggunakan tool khusus untuk memahami data, untuk menjadikan benar-benar memahami data maka data tersebut perlu diproses kedalam tool ini. Langkah ini terkait dengan langkah persiapan data. Jika anda membutuhkan berbagai sumber data, integrasi atau penyatuan data diperlukan
- Keluaran
Daftar data yang di hasilkan dan dimana data tersebut berada, serta metode yang digunakan untuk mendapatkan data tersebut dan masalah-masalah dari data tersebut. Pada masa yang akan datang hasil dari tahapan ini sangat membantu jika kita melakukan data mining pada projek yang sama
b. Mendiskripsikan data¶
- Tugas
Mendeskripsikan data. Mengamati secara kasar dan yang tampak dari data yang diperoleh dan mendokumentasikan deskripsi data tersebut
- Keluaran
Report dari diskripsi data. Mendeskripsikan data yang didapat, diantaranya; format dari data, jumlah data, misalkan jumlah record dan field dari masing-masing tabel, identitas dari field-field (atribut-atribut) dan karakteristik yang tampak dari data yang sudah dikumpulkan. Apakah data memenuhi kebutuhan yang terkait
c. Ekplorasi data /Menyelidiki data¶
- Tugas
Melakukan pertanyaan data mining yang dapat dilakukan dengan menggunakan queri, visualisasi dan reporting. tugas prediksi, analisa statistic sederhana, hubungan antara atribut, tugas ini terkait dengan tujuan data mining, dan persiapan data lebih lanjut
- Keluaran
Laporan data explorasi. Pada kegitatan ini adalah menemukan hipotesa awal dan pengaruhnya pada akhir projek. Keluaran dari kegiatan ini diantaranya adalah grafik, dan plot yang menentukan karakteristik data atau yang terkait dengan sebagian data untuk penyelidikan lebih lanjut
d. Verifikasi qualitas data¶
- Tugas
Menyelidiki qualitas data dilakukan dengan untuk mengetahui apakah data lengkap ( apakah mencakup semua kebutuhan data yang diperlukan?). Apakah data tersebut mengandung error dan jika ada error-error bagaimana data yang seharusnya ?Apakah ada missing value dalam data? Jika ada maka bagaimanamenyelesaikannya?
- Keluaran
Laporan data yang berkualitas. Daftar dari verifikasi data yang berkualitas, jika ada masalah dengan kualitas ada, maka daftar penyelesaian yang memungkinkan untuk memperbaiki kualitas data. Penyelesaian dari qualitas data secara umum sangat bergantung pada data.
Persiapan data¶
Tahap mempersiapkan data mencakup semua aktifitas untuk membangun dataset akhir (data yang digunakan untuk tool pemodelan) dari data mentah awal. Tugas persiapan data lebih memungkinkan untuk dilakukan beberapa kali dan tidak ada ketentuan. Tugas-tugasnya diantaranya adalah memilih table, record dan atribut juga tranformasi dan membersihkan data.
Output dari persiapan data adalah data set. Data data ini akan digunakan untuk pemodelan atau tugas analisa utama dari projek. Selain itu deskripsi dari data yang akan digunakan untuk pemodelan atau pekerjaan analisa utama dari projek. Tugas-tugas dari persiapan data diantaranya adalah:
a. Memilih data ( Select data)¶
- Tugas
Menentukan data yang digunakan untuk analisa. Kriteria yang digunakan harus ada keterkaitan dengan tujuan data mining, kualitas data batasan-batasan teknis seperti batasan volume data tipe data. Perhatikan bahwa pemilihan data mencakup pemilihan atribut ( kolom-kolom ) dan juga pemilihan records (baris-baris) dalam tabel
- Keluaran
Daftar data yang akan digunakan dan dikeluarkan serta alasan-alasan mengapa data digunakan atau dikeluarkan.
b. Membersihkan data ( Clean data)¶
- Tugas
Pada tahapan ini adalah bagaimana meningkatkan kualitas data sesuai dengan teknik yang dipilih. Beberapa diantaranya adalah memilih sebagian data yang bersih dan menyisipkan data yang hilang dengan teknik menyisipkan data hilang menggunakan model yang baik.
- Keluaran
Penjelasan atas keputusan dan tindakan apa yang diambil untuk menangani kualitas data serta serta dampak kemungkinan hasil analisis
c. Integrasi data ( integrate data)¶
- Tugas
Pada tahapan ini dilakukan proses penggabungan dari beberapa informasi misalkan dalam bentuk beberapa tabel untuk membentuk inforasi baru yang merupakan gabungan dari beberapa tabel
- Keluaran
Data gabungan yang terbentuk dari beberapa tabel
Pemodelan¶
Pada tahapan ini membangun suatu model dari data yang diperoleh dari langkah sebelumnya untuk menjawab pertanyaan kebutuhan bisnis dengan berbagai macam metode. Beberapa metode yang dapat digunakan adalah metode statistik, pembelajaran mesin, riset operasi dan sebagainya. Dalam melakukan pemodelan data beberapa hal yang dilakukan adalah memilih variabel model, menjalankan model, dan mendiagnosa.
Penjelasan
Referensi¶
-
Frawley, W., Piatetsky-Shapiro, G., Matheus, C., 1991. Knowledge discovery in databases—an overview. KnowledgeDiscovery in Databases 1991 1–30. Reprinted in AI Magazine, Fall 1992 ↩
-
Hand, D., Mannila, H., Smyth, P., 2001. Principles of Data Mining. The MIT Press: A Bradford Book, Cambridge, MA/London ↩↩
-
ho ↩