Skip to content

Pengantar Data Science

Tujuan Pembelajaran

  1. Memahmai dan menggunakan konsep dasar dan teknologi data science
  2. Memahami proses data science dengan menggunakan 
        - teknik statistik
        - matematika, 
        - kecerdasan buatan (artificial intelligence) 
        - pembelajaran mesin (machine learning )
      untuk mengekstraksi dan mengidentifikasi informasi yang bermanfaat dan 
      pengetahuan dari berbagai database besar

Apakah data science (what datascience)

Data science adalah ilmu data untuk menganalisis data secara sistematis yang didasarkan pada kerangka ilmiah1. Oleh karena itu data science itu bersifat:

  • adaptif, iteratif, dan pendekatan bertahap untuk analisa data
  • dilakukan dalam kerangka sistematis
  • mencari model yang optimal
  • menilai dan memperhitungkan biaya sebenarnya dari kesalahan prediksi

Data science melibatkan beberapa disiplin ilmu diantaranya

  • Pendekatan berbasis data untuk analisas data statistik. Dengan pendekatan statistik ini kita dapat mampu untuk mengeksplorasi data, pengujian signifikasi data dan visualisasi pola data
  • Kemampuan komputasi dan keahlian pemrograman ilmu komputer
  • Domain tertentu dari kecerdasasan bisnis (bussiness Intelligence)

Dengan kata lain, data science memungkinkan kita mengekstrak pengetahuan dari database yang kurang dimanfaatkan. Oleh karena itu, gudang data yang telah mengumpulkan banyak data dapat dimanfaatkan untuk menambah keuntungan bisnis. Data science memungkinkan orang untuk memanfaatkan data dan daya komputasi yang sangat luar biasa itu untum memecahkan problem yang sangat komplek dalam bisnis.

Data science dapat menemukan pola dari data yang tidak dapat ditemukan dengan teknik lain. Penemuan ini dapat memberikan keuntungan dalam mengambil keputusan bagi perusahaan dalam bisnisnya.

Kenapa kita membutuhkan data science ?

Ada beberapa hal sehingga kita sangat membutuhkan data science sebagai pendekatan baru diantaranya adalah

  • Adanya teknologi baru yang memungkinkan kita dapat mengambil data, merekam data, menyimpan secara cepat dalam jumlah yang besar dari data sosial media, logging data, dan data sensor. Setelah mengumpulkan semua data ini, pertanyaannya adalah apa selanjutnya yang dapat kita lakukan terhadap data ini.
  • Kemampuan komputasi yang memungkinkan untuk menganalisa lebih mendalam dalam skala besar data. Termasuk adanya komputasi awan, pembelajaran mesin sehingga dapat mendukung kebutuhan untuk analisa tersebut.

Bagaimana Proses Data Science

Proses data science berisi tahapan-tahapan yang dilakukan untuk proyek data science, masing-masing tahapan memiliki tugas tersendiri dan keterkaitan dengan yang lain 4. Pada implementasinya bergantung pada tujuan dan latar belakang dan keinginanan dari pengguna dan yang lebih penting tergantung pada data. Rangkaian tahapan dari projek data sain terdiri enam tahapan. Gambar 1 menujukkan tahapan dari proses science. Rangkaian dari tahapan ini tidak mutlak seperti pada alur proses yang ditetapkan. Ini bergantung pada tahapan mana atau tugas yang mana yang harus dilakukan. Maju mundurnya tahapan mungkin diperlukan untuk pada kasus-kasus tertentu. Tanda panah menyatakan kebergantungan antara masing-masing tahapan dengan tahapan yang lain, seperti yang Anda lihat di pada gambar pada gambar 1. Kami akan membahas secara singkat disini untuk lebih lengkapnya akan dibahas pada bab berikutnya.

Gambar 1. Proses Data science (CRISP-DM)

Memahami Bisnis (Business Understanding )

Menentukan Tujuan Bisnis/Proyek

Data sain sebagian besar diterapkan dalam organisasi. Ketika dalam suatu organisasi bisnis meminta Anda untuk melakukan proyek ilmu data,Anda terlebih dahulu akan menyiapkan project charter berupa dokumen yang digunakan untuk memulai proyek. Rencana ini berisi informasi apa yang akan diteliti, bagaimana perusahaan dapat memperoleh manfaat dari itu, data dan sumber daya apa Anda perlukan, jadwal, hasil yang akan dicapai, deskripsi,ruang lingkup,tim yang terlibat dsb. Project Charter adalah dokumen yang digunakan untuk memulai proyek analisa data . Dokumen project charter berisi informasi penting yang mencakup penjelasan ringkas dari sebuah proyek yang akan dijalankan. Dokumen ini menampilkanjudul proyek yang dikerjakan, latar belakang dijalankannya proyek, deskripsi, target,ruang lingkup,tim yang terlibat, durasi pengerjaan proyek, dan sebagainya

Tahapan ini juga menfokuskan pada pemahaman tujuan projek dan kebutuhan-kebutuhan yang diinginkan bisnis, kemudian merubahnya pengetahuan ini untuk mendefinisikan data science dan rencana yang ingin dilakukan untuk mencapai tujuan bisnis. Tahaapan ini dilakukan untuk memahami secara menyeluruh, dari perspektif bisnis, apa yang benar-benar ingin dicapai oleh pelanggan. Selain itu pada tahapan ini analisa perlu dilakukan untuk mengungkap faktor-faktor penting, yang dapat mempengaruhi hasil proyek data science.

Membuat Rencana Proyek

Menjelaskan rencana projek dilakuan untuk mencapai tujuan penambangan data sehingga dapat mencapai tujuan bisnis yang diinginkan. Rencana tersebut harus menentukan langkah-langkah yang harus dilakukan selama proyek , termasuk pemilihan tool dan teknik yang akan digunakan

Menilai situasi dan kondisi

Dalam hal pencarian fakta yang lebih rinci tentang semua sumber daya, kendala, asumsi, dan faktor-faktor lain yang harus dipertimbangkan dalam menentukan tujuan analisis data dan rencana proyek. Menilai sefara rinci kondisi lingkungan bisnis dan tujuan bisnis akan menentukan keberhasilan projek ekplorasi data

Output dari ini adalah

  1. Inventaris sumber daya

Daftar sumber daya yang tersedia untuk proyek, termasuk personil (pakar bisnis, pakar data, dukungan teknis, pakar penambangan data), data ( akses ke data langsung, gudang, atau operasional), sumber daya komputasi (platform perangkat keras), dan perangkat lunak (alat penambangan data, perangkat lunak lain yang relevan)

  1. Persyaratan, asumsi dan kendala

Mendaftar semua persyaratan proyek, termasuk jadwal penyelesaian, kelengkapan dan kualitas hasil, dan keamanan, serta masalah hukum. Salah satu bagian dari tahapan ini akan memastikan apakah secara legal diizinkan menggunakannya data. Buat daftar asumsi-asumsi terkait dengan projek. Misalakan apakah apakah diasumsikan untuk memungkinkan memverifikasi selama penambangan data. Buat daftar kendala pada proyek. Ini mungkin merupakan kendala pada ketersediaan sumber daya, tetapi juga dapat mencakup kendala teknologi seperti ukuran data yang digunakan untuk pemodelan

  1. Mendaftar resiko yang akan dihadapi selama projek berlangsung (jika kemungkinan projek gagal)

Memahami data ( data understanding )

Tahapan memahami data dimulai dengan mengumpulkan data awal dan dilanjutkan dengan dengan kegiatan-kegiatan untuk mendapatkan data yang lazim serta identifikasi data yang berkualitas, pemahaman data sangat diperlukan untuk mendeteksi bagian yang menarik dari data sehingga dapat membangun hipotesa terhadap informasi yang tersembunyi

a. Mengumpulkan data awal
  • Tugas

Mendaftar data yang ada. Pengumpulan data diperlukan untuk memahami data. Misalkan, jika anda menggunakan tool khusus untuk memahami data, untuk menjadikan benar-benar memahami data maka data tersebut perlu diproses kedalam tool ini. Langkah ini terkait dengan langkah persiapan data. Jika anda membutuhkan berbagai sumber data, integrasi atau penyatuan data diperlukan

  • Keluaran

Daftar data yang di hasilkan dan dimana data tersebut berada, serta metode yang digunakan untuk mendapatkan data tersebut dan masalah-masalah dari data tersebut. Pada masa yang akan datang hasil dari tahapan ini sangat membantu jika kita melakukan data science pada projek yang sama

b. Mendiskripsikan data
  • Tugas

Mendeskripsikan data. Mengamati secara kasar dan yang tampak dari data yang diperoleh dan mendokumentasikan deskripsi data tersebut

  • Keluaran

Report dari diskripsi data. Mendeskripsikan data yang didapat, diantaranya; format dari data, jumlah data, misalkan jumlah record dan field dari masing-masing tabel, identitas dari field-field (atribut-atribut) dan karakteristik yang tampak dari data yang sudah dikumpulkan. Apakah data memenuhi kebutuhan yang terkait

c. Ekplorasi data /Menyelidiki data
  • Tugas

Melakukan pertanyaan ekplorasi data yang dapat dilakukan dengan menggunakan queri, visualisasi dan reporting. tugas prediksi, analisa statistic sederhana, hubungan antara atribut, tugas ini terkait dengan tujuan data science, dan persiapan data lebih lanjut

  • Keluaran

Laporan data explorasi. Pada kegitatan ini adalah menemukan hipotesa awal dan pengaruhnya pada akhir projek. Keluaran dari kegiatan ini diantaranya adalah grafik, dan plot yang menentukan karakteristik data atau yang terkait dengan sebagian data untuk penyelidikan lebih lanjut

d. Verifikasi qualitas data
  • Tugas

Menyelidiki qualitas data dilakukan dengan untuk mengetahui apakah data lengkap ( apakah mencakup semua kebutuhan data yang diperlukan?). Apakah data tersebut mengandung error dan jika ada error-error bagaimana data yang seharusnya ?Apakah ada missing value dalam data? Jika ada maka bagaimanamenyelesaikannya?

  • Keluaran

Laporan data yang berkualitas. Daftar dari verifikasi data yang berkualitas, jika ada masalah dengan kualitas ada, maka daftar penyelesaian yang memungkinkan untuk memperbaiki kualitas data. Penyelesaian dari qualitas data secara umum sangat bergantung pada data.

Persiapan data

Tahap mempersiapkan data mencakup semua aktifitas untuk membangun dataset akhir (data yang digunakan untuk tool pemodelan) dari data mentah awal. Tugas persiapan data lebih memungkinkan untuk dilakukan beberapa kali dan tidak ada ketentuan. Tugas-tugasnya diantaranya adalah memilih table, record dan atribut juga tranformasi dan membersihkan data.

Output dari persiapan data adalah data set. Data data ini akan digunakan untuk pemodelan atau tugas analisa utama dari projek. Selain itu deskripsi dari data yang akan digunakan untuk pemodelan atau pekerjaan analisa utama dari projek. Tugas-tugas dari persiapan data diantaranya adalah:

a. Memilih data ( Select data)
  • Tugas

Menentukan data yang digunakan untuk analisa. Kriteria yang digunakan harus ada keterkaitan dengan tujuan data science, kualitas data batasan-batasan teknis seperti batasan volume data tipe data. Perhatikan bahwa pemilihan data mencakup pemilihan atribut ( kolom-kolom ) dan juga pemilihan records (baris-baris) dalam tabel

  • Keluaran

Daftar data yang akan digunakan dan dikeluarkan serta alasan-alasan mengapa data digunakan atau dikeluarkan.

b. Membersihkan data ( Clean data)
  • Tugas

Pada tahapan ini adalah bagaimana meningkatkan kualitas data sesuai dengan teknik yang dipilih. Beberapa diantaranya adalah memilih sebagian data yang bersih dan menyisipkan data yang hilang dengan teknik menyisipkan data hilang menggunakan model yang baik.

  • Keluaran

Penjelasan atas keputusan dan tindakan apa yang diambil untuk menangani kualitas data serta serta dampak kemungkinan hasil analisis

c. Integrasi data ( integrate data)
  • Tugas

Pada tahapan ini dilakukan proses penggabungan dari beberapa informasi misalkan dalam bentuk beberapa tabel untuk membentuk inforasi baru yang merupakan gabungan dari beberapa tabel

  • Keluaran

Data gabungan yang terbentuk dari beberapa tabel

Pemodelan

Pada tahapan ini membangun suatu model dari data yang diperoleh dari langkah sebelumnya untuk menjawab pertanyaan kebutuhan bisnis dengan berbagai macam metode. Beberapa metode yang dapat digunakan adalah metode statistik, pembelajaran mesin, riset operasi dan sebagainya. Dalam melakukan pemodelan data beberapa hal yang dilakukan adalah memilih variabel model, menjalankan model, dan mendiagnosa.

Evaluasi

Bilamana kita menggunakan teknik pemodelan untuk analisa data dalam dunia bisnis, maka model yang telah kita buat harus dapat memprediksi dengan baik. Membuat suatu model yang sesuai dengan data latih dalam suatu analisa data maka model dapat mengeneralisasi data yang belum kita ketahui. Sehingga pada tahapan ini kita harus dapat memilih model yang baik sesuai dengan data yang kita analisis. Dengan tahapan ini kita dapat memilih dari beberapa algoritma pembelajaran yagn sesuai dengan masalah yang kita analis.

Penyebaran dan Implementasi

Deployment adalah kegiatan yang bertujuan untuk menyebarkan hasil dari kegiatan ekplorasi data, bisa dalam bentuk implementasi sistem untuk otomatisasi proses operasional bisnis atau sistem rekomendasi berupa laporan yang digunakan sebagai dasar untuk strategi tujuan bisnis.

Referensi


  1. Skiena, Steven S. The data science design manual. Springer, 2017.. 

  2. Hand, D., Mannila, H., Smyth, P., 2001. Principles of Data Mining. The MIT Press: A Bradford Book, Cambridge, MA/London 

  3. http://crisp-dm.eu/home/about-crisp-dm/ 

  4. Frawley, W., Piatetsky-Shapiro, G., Matheus, C., 1991. Knowledge discovery in databases—an overview. KnowledgeDiscovery in Databases 1991 1–30. Reprinted in AI Magazine, Fall 1992