Skip to content

Pengantar Data Mining

Tujuan Pembelajaran

Tujuan Pembelajaran

   1. Mahasiswa dapat memahami konsep data mining
   2. Mahasiswa dapat mengetahui proses data mining
   3. Mahasiswa dapat mengetahui teknik teknik yang digunakan dalam data mining.

Apa itu data mining

The non-trivial extraction of implicit, previously unknown, and potentially useful information from data* 1{silahkan dibaca }

     Dengan perkembangan jumlah data yang pesat disebabkan oleh adanya perkembangan teknologi informasi, sehingga hal ini yang memungkinkan data terkumpul dalam jumlah besar. Transaksi data yang dilakukan secara digital telah berkembang secara pesat diberbagai sektor bisnis. Perkembangan internet yang cukup cepat juga memiliki kontribusi dalam hal terciptanya data yang sangat besar. Fenomena ini secara signifikan berdampak pada terjadinya data transaksi yang sangat tinggi dari sisi volume dan jenis data telah dihasilkan. Bersamaan dengan kejadian ini memungkinkan terjadinya kondisi yang disebut dengan istilah kaya data tetapi miskin pengetahuan, disebabkan dengan adanya banyak data yang terkumpul tetapi sedikit dengan manfaat yang diperoleh dari besarnya data tersebut untuk kebutuhan bisnis dan lain sebgainya. Dengan data yang melimpah ini butuh suatu metode analisis data secara otomatis dari data yang berjumlah besar atau kompleks dengan tujuan untuk menemukan pola atau kecenderungan yang penting yang biasanya tidak disadari keberadaannya.     Data mining merupakan merupakan subjek yang melibatkan berbagai disiplin bidang yang bertujuan bagaimana mendapatkan pengetahuan/informasi dari tumpukan data. Jika dianalogikan adalah seperti penambangan secara konvensianol misalkan menambang emas yang didapatkan dari tumpukan batu, tanah dan pasir (link video) . Jadi penekanan dari istilah penambangan adalah proses menemukan sesuatu yang berharga dari bahan-bahan mentah yang ada. Dalam kontek penambangan data adalah bagaimana mendapatkan informasi yang berharga untuk pijakan pengambilan keputusan atau tujuan tertentu. Dalama proses data mining melibatkan teknik statistik, matematika, kecerdasan buatan, machine learning untuk mengekstraksi dan mengidentifikasi informasi yang bermanfaat dan pengetahuan yang terkait dari berbagai database besar2 . Terdapat beberapa istilah lain yang memiliki makna sama dengan data mining, yaitu Knowledge discovery in databases (KDD), ekstraksi pengetahuan (knowledge extraction), Analisa data/pola (data/pattern analysis), kecerdasan bisnis (business intelligence) dan data archaeology dan data dredging (Larose, 2005)

Keunggulan data mining

Studi statistik tradisional menggunakan informasi masa lalu untuk menentukan keadaan sistem di masa depan (sering disebut prediksi), sedangkan studi penambangan data menggunakan informasi masa lalu untuk membangun pola yang berdasarkan tidak hanya pada input data tetapi juga pada konsekuensi logis dari data tersebut. Proses ini juga disebut prediksi, tetapi mengandung elemen penting yang tidak ditemukan dalam analisis statistik: kemampuan untuk memberikan ekspresi tentang yang mungkin terjadi di masa depan, dibandingkan dengan apa yang ada di masa lalu (berdasarkan asumsi dari metode statistik).

Dibandingkan dengan studi statistik tradisional, yang sering melihat ke belakang, bidang data mining menemukan pola dan klasifikasi yang melihat dan bahkan memprediksi masa depan. Secara singkata

  1. Data mining dapat memberikan pemahaman data yang lebih lengkap dengan menemukan pola yang sebelumnya tidak terlihat dan

  2. Membuat model yang untuk memprediksi, sehingga memungkinkan orang untuk membuat keputusan yang lebih baik, sebagai acuan tindakan untuk yang akan datang dalam membuat keputusan

Tugas utama data mining

Aktifitas utama dalam data mining adalah sebagai berikut 2

Kemampuan Data mining untuk mencari informasi bisnis yang berharga dari basis data yang sangat besar, dapat dianalogikan dengan penambangan logam mulia dari lahan sumbernya, teknologi ini dipakai untuk

Proses Data mining

     Dalam data mining proses tahapan yang dilakukan sebagai Proses standar lintas industri untuk penambangan data yang dihasilkan oleh konsorsium , yang dikenal sebagai CRISP-DM, adalah model proses standar terbuka yang menggambarkan pendekatan umum yang digunakan oleh para ahli penambangan data. Model proses untuk penambangan data ini memberikan gambaran umum siklus hidup proyek penambangan data. Ini berisi fase proyek, tugas masing-masing dan hubungan antara aktifitas aktifitas yang dilakukan setiap tahapan seperti gambar berikut:

Gambar 2.1 CRISP-DM 3

Memahami Bisnis (Business Understanding )

Menentukan Tujuan Bisnis

Tahapan ini menfokuskan pada pemahaman tujuan projek dan kebutuhan-kebutuhan yang diinginkan bisnis, kemudian merubahnya pengetahuan ini untuk mendefinisikan data mining dan rencana yang ingin dilakukan untuk mencapai tujuan bisnis. Tahaapan ini dilakukan untuk memahami secara menyeluruh, dari perspektif bisnis, apa yang benar-benar ingin dicapai oleh pelanggan. Selain itu pada tahapan ini analisa perlu dilakukan untuk mengungkap faktor-faktor penting, yang dapat mempengaruhi hasil proyek data mining.

Membuat Rencana Proyek

Menjelaskan rencana projek dilakuan untuk mencapai tujuan penambangan data sehingga dapat mencapai tujuan bisnis yang diinginkan. Rencana tersebut harus menentukan langkah-langkah yang harus dilakukan selama proyek , termasuk pemilihan tool dan teknik yang akan digunakan

Menilai situasi dan kondisi

Dalam hal pencarian fakta yang lebih rinci tentang semua sumber daya, kendala, asumsi, dan faktor-faktor lain yang harus dipertimbangkan dalam menentukan tujuan analisis data dan rencana proyek. Menilai sefara rinci kondisi lingkungan bisnis dan tujuan bisnis akan menentukan keberhasilan projek data mining

Output dari ini adalah

  1. Inventaris sumber daya

Daftar sumber daya yang tersedia untuk proyek, termasuk personil (pakar bisnis, pakar data, dukungan teknis, pakar penambangan data), data ( akses ke data langsung, gudang, atau operasional), sumber daya komputasi (platform perangkat keras), dan perangkat lunak (alat penambangan data, perangkat lunak lain yang relevan)

  1. Persyaratan, asumsi dan kendala

Mendaftar semua persyaratan proyek, termasuk jadwal penyelesaian, kelengkapan dan kualitas hasil, dan keamanan, serta masalah hukum. Salah satu bagian dari tahapan ini akan memastikan apakah secara legal diizinkan menggunakannya data. Buat daftar asumsi-asumsi terkait dengan projek. Misalakan apakah apakah diasumsikan untuk memungkinkan memverifikasi selama penambangan data. Buat daftar kendala pada proyek. Ini mungkin merupakan kendala pada ketersediaan sumber daya, tetapi juga dapat mencakup kendala teknologi seperti ukuran data yang digunakan untuk pemodelan

  1. Mendaftar resiko yang akan dihadapi selama projek berlangsung (jika kemungkinan projek gagal)

Memahami data ( data understanding )

Tahapan memahami data dimulai dengan mengumpulkan data awal dan dilanjutkan dengan dengan kegiatan-kegiatan untuk mendapatkan data yang lazim serta identifikasi data yang berkualitas, pemahaman data sangat diperlukan untuk mendeteksi bagian yang menarik dari data sehingga dapat membangun hipotesa terhadap informasi yang tersembunyi

a. Mengumpulkan data awal

  • Tugas

Mendaftar data yang ada. Pengumpulan data diperlukan untuk memahami data. Misalkan, jika anda menggunakan tool khusus untuk memahami data, untuk menjadikan benar-benar memahami data maka data tersebut perlu diproses kedalam tool ini. Langkah ini terkait dengan langkah persiapan data. Jika anda membutuhkan berbagai sumber data, integrasi atau penyatuan data diperlukan

  • Keluaran

Daftar data yang di hasilkan dan dimana data tersebut berada, serta metode yang digunakan untuk mendapatkan data tersebut dan masalah-masalah dari data tersebut. Pada masa yang akan datang hasil dari tahapan ini sangat membantu jika kita melakukan data mining pada projek yang sama

b. Mendiskripsikan data

  • Tugas

Mendeskripsikan data. Mengamati secara kasar dan yang tampak dari data yang diperoleh dan mendokumentasikan deskripsi data tersebut

  • Keluaran

Report dari diskripsi data. Mendeskripsikan data yang didapat, diantaranya; format dari data, jumlah data, misalkan jumlah record dan field dari masing-masing tabel, identitas dari field-field (atribut-atribut) dan karakteristik yang tampak dari data yang sudah dikumpulkan. Apakah data memenuhi kebutuhan yang terkait

c. Ekplorasi data /Menyelidiki data

  • Tugas

Melakukan pertanyaan data mining yang dapat dilakukan dengan menggunakan queri, visualisasi dan reporting. tugas prediksi, analisa statistic sederhana, hubungan antara atribut, tugas ini terkait dengan tujuan data mining, dan persiapan data lebih lanjut

  • Keluaran

Laporan data explorasi. Pada kegitatan ini adalah menemukan hipotesa awal dan pengaruhnya pada akhir projek. Keluaran dari kegiatan ini diantaranya adalah grafik, dan plot yang menentukan karakteristik data atau yang terkait dengan sebagian data untuk penyelidikan lebih lanjut

d. Verifikasi qualitas data

  • Tugas

Menyelidiki qualitas data dilakukan dengan untuk mengetahui apakah data lengkap ( apakah mencakup semua kebutuhan data yang diperlukan?). Apakah data tersebut mengandung error dan jika ada error-error bagaimana data yang seharusnya ?Apakah ada missing value dalam data? Jika ada maka bagaimanamenyelesaikannya?

  • Keluaran

Laporan data yang berkualitas. Daftar dari verifikasi data yang berkualitas, jika ada masalah dengan kualitas ada, maka daftar penyelesaian yang memungkinkan untuk memperbaiki kualitas data. Penyelesaian dari qualitas data secara umum sangat bergantung pada data.

Persiapan data

Tahap mempersiapkan data mencakup semua aktifitas untuk membangun dataset akhir (data yang digunakan untuk tool pemodelan) dari data mentah awal. Tugas persiapan data lebih memungkinkan untuk dilakukan beberapa kali dan tidak ada ketentuan. Tugas-tugasnya diantaranya adalah memilih table, record dan atribut juga tranformasi dan membersihkan data.

Output dari persiapan data adalah data set. Data data ini akan digunakan untuk pemodelan atau tugas analisa utama dari projek. Selain itu deskripsi dari data yang akan digunakan untuk pemodelan atau pekerjaan analisa utama dari projek. Tugas-tugas dari persiapan data diantaranya adalah:

a. Memilih data ( Select data)

  • Tugas

Menentukan data yang digunakan untuk analisa. Kriteria yang digunakan harus ada keterkaitan dengan tujuan data mining, kualitas data batasan-batasan teknis seperti batasan volume data tipe data. Perhatikan bahwa pemilihan data mencakup pemilihan atribut ( kolom-kolom ) dan juga pemilihan records (baris-baris) dalam tabel

  • Keluaran

Daftar data yang akan digunakan dan dikeluarkan serta alasan-alasan mengapa data digunakan atau dikeluarkan.

b. Membersihkan data ( Clean data)

  • Tugas

Pada tahapan ini adalah bagaimana meningkatkan kualitas data sesuai dengan teknik yang dipilih. Beberapa diantaranya adalah memilih sebagian data yang bersih dan menyisipkan data yang hilang dengan teknik menyisipkan data hilang menggunakan model yang baik.

  • Keluaran

Penjelasan atas keputusan dan tindakan apa yang diambil untuk menangani kualitas data serta serta dampak kemungkinan hasil analisis

c. Integrasi data ( integrate data)

  • Tugas

Pada tahapan ini dilakukan proses penggabungan dari beberapa informasi misalkan dalam bentuk beberapa tabel untuk membentuk inforasi baru yang merupakan gabungan dari beberapa tabel

  • Keluaran

Data gabungan yang terbentuk dari beberapa tabel

Pemodelan

Pada tahapan ini membangun suatu model dari data yang diperoleh dari langkah sebelumnya untuk menjawab pertanyaan kebutuhan bisnis dengan berbagai macam metode. Beberapa metode yang dapat digunakan adalah metode statistik, pembelajaran mesin, riset operasi dan sebagainya. Dalam melakukan pemodelan data beberapa hal yang dilakukan adalah memilih variabel model, menjalankan model, dan mendiagnosa.

Penjelasan

Data Mining adalah proses yang menggunakan teknik statistik, matematika, kecerdasan buatan, machine learning untuk mengekstraksi dan mengidentifikasi informasi yang bermanfaat dan pengetahuan yang terkait dari berbagai database besar (Turban dkk. 2005). Terdapat beberapa istilah lain yang memiliki makna sama dengan data mining, yaitu Knowledge discovery in databases (KDD), ekstraksi pengetahuan (knowledge extraction), Analisa data/pola (data/pattern analysis), kecerdasan bisnis (business intelligence) dan data archaeology dan data dredging (Larose, 2005)

Referensi


  1. Frawley, W., Piatetsky-Shapiro, G., Matheus, C., 1991. Knowledge discovery in databases—an overview. KnowledgeDiscovery in Databases 1991 1–30. Reprinted in AI Magazine, Fall 1992 

  2. Hand, D., Mannila, H., Smyth, P., 2001. Principles of Data Mining. The MIT Press: A Bradford Book, Cambridge, MA/London 

  3. http://crisp-dm.eu/home/about-crisp-dm/ 

  4. ho