Skip to content

Memahami Data

Memahami Data dan Pengambilan data

Macam macam Data

Dalam data data scinece dan maha data, Anda akan menemukan banyak jenis data yang berbeda, dan masing-masing cenderung membutuhkan alat dan teknik yang berbeda. Macam macam data dikelompokkan sebagai berikut 1:

  • Data terstruktur (structured)
  • Data tidak terstruktur(unstructured)
  • Data bahasa alami(Natural Language)
  • Data yang dibangkit oleh Mesin (Machined-Generated)
  • Data Audio, Video,Citra
  • Data Streamming
  • Data berbasis Graph(Graph-based)

Data Terstruktur

Data terstruktur adalah data yang bergantung pada model data dan yang dinyatakan dalam bentuk tabel dengan kolom dan baris. Data terstruktur mudah disimpan dalam database dalam bentuk tabel atau file excel (Ms Office), SQl (Structure Query Language)sehingga mudah dilakukan query terhadap data tersebut. Tetapi realitanya banyak data yang ada dalam dalam bentuk data tidak terstruktur karena data dihasilkan oleh manusia dan mesin

terstruktur

Gambar 2.1 Contoh data terstruktur..

Macam- macam atribut

Atribut adalah data yang mewakili karakteristik atau fitur dari objek data. Atribut bisa disebut juga dengan dimensi, fitur, dan variabel yang istilah itu sering digunakan literatur. Dimensi istilah yang biasanya digunakan dalam data warehouse. Dalam literatur pembelajaran mesin cenderung menggunakan istilah fitur, sementara dalam bidang statistik lebih memilih menggunakan istilah variabel. Dalam penambangan data atau data miniing dan database biasa menggunakan istilah atribut atau fitur , dan dalam buku ini juga menggunakan istilah atribut atau fitur. Contoh atribut-atribut yang menggambarkan objek pelanggan dapat mencakup, misalnya ID pelanggan, nama, dan alamat. Nilai yang diamati untuk atribut tertentu dikenal sebagai nilai observasi. Sekumpulan atribut yang digunakan untuk menggambarkan objek disebut disebut dengan vektor atribut (atau vektor fitur. Distribusi data yang hanya melibatkan satu atribut (atau variabel) disebut univariat. Distribusi bivariat melibatkan dua atribut, dan seterusnya. Jenis atribut ditentukan oleh nilai-nilai pada atribut tersebut misal nominal, biner,atau ordinal, atau numerik. Pada subbagian berikut, kami perkenalkan nilai nilai tersebut

Macam macam tipe data atribut

  • Atribut Nominal

Nilai atribut nominal adalah simbol atau nama barang. Setiap nilai mewakili beberapa jenis kategori, kode, atau status, dan atribut nominal juga disebut kategori. Nilai-nilainya tidak memiliki tingkatan nilai. Dalam ilmu komputer, nilainya juga dikenal sebagai enumerasi

Contoh :

Misalkan warna rambut dan status perkawinan adalah dua atribut dari data orang. Nilai yang mungkin untuk warna rambut adalah hitam, coklat, pirang, merah, hitam pucat, abu-abu, dan putih. Status perkawinan memiliki nilai atribut lajang, menikah, bercerai, dan janda. Baik warna rambut maupun status perkawinan adalah atribut nominal. Contoh lain dari atribut nominal adalah atribut pekerjaan dengan nilai-nilainya adalah guru, dokter gigi, programmer, petani, dan sebagainya

  • Atribut Biner

Atribut biner adalah atribut nominal dengan hanya memiliki dua kategori atau status: 0 atau 1, di mana 0 biasanya berarti atribut itu tidak ada, dan 1 berarti itu ada. Atribut biner disebut sebagai Boolean jika dinyatakan dengan benar (true) dan salah (false)

Contoh :

Terdapat atribut yang menggambarkan merokok pada pasien, 1 menunjukkan bahwa pasien merokok, sementara 0 menunjukkan bahwa pasien tidak merokok. Demikian pula, seandainya ada pasien menjalani tes medis yang memiliki dua kemungkinan hasil. Atribut tes medis bersifat biner, dengan nilai 1 berarti hasil tes untuk pasien positif, sedangkan 0 berarti hasilnya negatif. Atribut biner simetris jika keduanya memiliki nilai bobot yang sama; Artinya, tidak ada kekhususan mengenai hasil mana yang harus dikodekan sebagai 0 atau 1. Misalkan atribut gender yang dengan nila atributnya laki dan perempuan. Atribut biner adalah asimetris jika hasil dari nilai nilainya tidak sama pentingnya seperti hasil positif dan negatif dari tes medis untuk HIV. Dengan mengkodekan hasil yang paling penting, biasanya 1 (mis., HIV positif) dan yang lainnya dengan 0 (mis., HIV negatif)

  • Atribut ordinal

Atribut ordinal adalah atribut dengan nilai yang memiliki arti urutan atau peringkat di antara nilai-nilai yang ada, tapi besarnya nilai yang berurutan tersebut tidak diketahui. Ukuran kecenderungan terpusat dari atribut ordinal dapat diwakili oleh modus dan median (nilai tengah), tetapi tidak untuk nilai rata-rata. Perlu diperhatikan bahwa atribut nominal, biner, dan ordinal bersifat kualitatif. Artinya, atribut-atribut tersebut hanya menjelaskan sebuah fitur dari suatu objek tanpa memberikan ukuran atau kuantitas yang sebenarnya. Nilai-nilai atribut kualitatif biasanya merupakan kata-kata yang mewakili kategori

Contoh:

Atribut ordinal misalkan ukuran minuman yang tersedia di sebuah restoran cepat saji. Atribut nominal ini memiliki tiga nilai yang mungkin: kecil, sedang, dan besar. Nilai memiliki arti urutan yang (yang sesuai dengan ukuran minuman). Contoh atribut ordinal lainnya adalah pangkat dan jabatan profesi. Atribut ordinal berguna untuk melakukan penilaian subjektif terhadap kualitas sesuatu objek yang tidak dapat diukur secara obyektif. Atribut ordinal sering digunakan dalam survei untuk peringkat. Dalam satu survei, para peserta diminta untuk menilai tingkat kepuasan mereka sebagai pelanggan. Kepuasan pelanggan memiliki kategori ordinal berikut ini: 0: sangat tidak puas,1: agak tidak puas, 2: netral, 3: puas, dan 4: sangat puas. Atribut ordinal juga dapat diperoleh dari diskritisasi nilai atribut numerik dengan membagi rentang nilai menjadi urutan kategori

  • Atribut Numerik

Atribut numerik bersifat kuantitatif; Artinya, ini adalah kuantitas yang terukur, yang dinyatakan dengan bilangan bulat atau nilai riel. Atribut numerik terdiri dari atribut skala Interval (interval-scaled) atau skala rasio (ratio-scaled)

  • Atribut skala interval diukur pada dengan skala unit ukuran yang sama. Nilai - nilai Interval berskala memiliki urutan dan bisa positif, 0, atau negatif. Jadi, selain untuk memberikan peringkat nilai, atribut semacam itu memungkinkan kita untuk membandingkan dan mengukur perbedaan antar nilai

Contoh:

Atribut suhu adalah skala interval. Misalkan kita memiliki nilai suhu di luar ruangan untuk beberapa hari yang berbeda dari suatu objek. Dengan mengurutkan nilai, kita mendapatkan peringkat objek yang berkenaan dengan suhu. Selain itu, kita bisa mengukur perbedaan antara nilai. Misalnya, a suhu 20^0 C adalah lima derajat lebih tinggi dari suhu 15^0 C. Contoh lainnya adlah kalender tahun. Misalnya, tahun 2002 dan 2010 terpisah delapan tahun. Karena atribut skala interval adalah numerik, kita dapat menghitung nilai rata-rata, ukuran median dan modus dari kecenderungan terpusat

  • Atribut Skala Ratio Atribut skala rasio adalah atribut numerik dengan melekat titik nol pada nilai atribut tersebut. Artinya, jika pengukuran adalah berskala rasio, kita dapat dapat mengatakan berapa kali dari nilai yang lain atau rasio dari nilai yang lain. Selain itu, nilai yang dipesan, dan kita juga bisa menghitung selisih antara nilai, serta mean, median, dan modus

Contoh

Atribut tentang pengukuran berat badan, tinggi badan, jumlah kata dalam dokumen

Data Tidak Terstruktur

Data tidak terstruktur adalah data yang tidak mudah dimasukkan ke dalam model data karena isi/kontennya spesifik atau bervariasi. Salah satu contoh data tidak terstruktur adalah data email. Meskipun email berisi elemen terstruktur seperti pengirim, judul, dan isi teks, terlalu banyak variasi dari isi yang terkandung dalamnya diantaranya dialek bahasa yang dipakai dan sebagainya. Email juga salah satu contoh data bahasa alami

terstruktur

Gambar 2.2 Contoh Data email

Bahasa Alami

Dalam neuropsikologi , linguistik , dan filsafat bahasa , bahasa alami atau bahasa biasa adalah bahasa yang telah berevolusi secara alami pada manusia melalui penggunaan dan pengulangan tanpa perencanaan. Bahasa alami berbeda dengan bahasa yang dibangun untuk pemrograman komputer atau membangun logika nalar. Bahasa alami dikenal sebagai bahasa manusia misal bahasa indonesia, bahasa inggris dan lain lain. Didalam pemrosesan bahasa alami diperluangan pengetahuan ilmu linguistics, semantics, statistics dan machine learning. Dengan pemrosesan bahasa alami membantu komputer untuk memahami bahasa yang telah diucapkan oleh manusia

Data yang dibangkitkan oleh Mesin

Data yang dibangkitkan oleh mesin secara otomatis tanpa intervensi manusia. Data ini terus menerus dibangkitkan selama proses tertentu sedang berjalan. Misalkan data weblog dari mesin server yang dihasilkan dari hasil transaksi user dengan sistem web. Contoh lain adalah data yang dihasilkan dari implementasi internet of things misal perekaman suhu udara dan kelembaban udara dari daerah tertentu yang terhubung dengan pusat penyimpanan data tersebut.

Weblog

Gambar 2.3 Contoh Data weblog
(https://www.iri.com/blog/migration/data-migration/clf-elf-web-log-formats/)

Data jaringan atau data berbasis Graph

Data graph adalah data yang dinyatakan dengan graph yang dalam matematika mengacu pada konsep teori graph. Data ini menunjukkan keterhubungan antara objek-objek atau relasi antar objek-objek dengan menggunakan struktur node, edge, dan karakteristik/sifat keterhubungan antar objek tersebut. Salah satu data graph adalah data keterhubungan orang dalam media sosial. Dengan memanfaatkan data graph media sosial kita dapat mengukur ukuran ukuran tertentu berdasarkan struktur yang dibentuknya. Misalkan menentukan pengaruh orang dalam struktur jaringan tersebut, apakah termasuk orang penting/berpengaruh atau bukan. Gambar berikut menunjukkan contoh data graph

graph-data

Gambar 2.4 .Pertemanan dalam media sosial yang dinyataka dengan data graph

Database graph dapat digunakan untuk menyimpan data berbasis graph dan mengunakan query tertentu yaitu SPARQL

Data Audio, Video dan Citra

Dengan perkembangan teknologi multimedia yang sangat pesat saat ini ,data audio, video dan citra cukup besar dihasilkan dari transaksi bisnis. Dengan besarnya data yang dihasilkan membutuhkan proses pengolahan spesifik dari data tersebut untuk dimanfaatkan terutama dalam analisa data sain. Diantara pemanfaatan data mulitimedia tersebut adalah pengenalan objek, pengenala suara, segmentasi citra satelit dan banyak analisa lain yang dihasilkan dari data multimeda tersebut.

Data streamming

Data streaming adalah data yang dihasilkan secara terus-menerus oleh ribuan sumber data, yang biasanya mengirimkan catatan data secara bersamaan, dan dalam ukuran kecil (urutan kilobyte). Data streaming mencakup berbagai macam data seperti logfile yang dihasilkan oleh pelanggan aplikasi seluler atau website Anda, transaksi e-commerce, informasi dari jejaring sosial, data geospasial, dan perangkat sensor yang terhubung atau instrumentasi di pusat data.

Data ini perlu diproses secara berurutan dan bertahap secara record-by-record digunakan untuk berbagai macam analisis misalkan korelasi, agregasi, penyaringan, dan pengambilan sampel. Informasi yang diperoleh dari analisis tersebut memberikan petunjuk terhadap pelanggan mereka seperti penggunaan layanan mereka, aktivitas server, klik website, dan lain lain. Misalnya, dalam bisnis kita dapat melacak perubahan sentimen publik pada merek dan produk mereka dengan menganalisis aliran data media sosial, sehingga dapat merespons secara tepat, waktu dan tindakan yang harus dilakukan

Distribusi Data

Karakteristik utama dari data adalah distribusi probabilitasnya. Distribusi data yang paling dikenal adalah distribusi normal atau Gaussian. Distribusi ini ditemukan pada sistem fisik dimana data dibangkitkan secara acak. Fungsi dinyatakan dalam bentuk fungsi padat probabilitas (probability density function)

Dimana \sigma adalah standar deviasi dan \mu adalah mean. Persamaan ini menyatakan peluang variable acak dari suatu data x. Kita menyatakan standar deviasi sebagai lebar kurva lonceng dan rata rata sebagai pusat. Kadangkala istilah variance digunakan dan ini adalah kuadrat dari standar deviasi. Standar deviasi pada dasarnya mengukur bagaimana sebaran data.

Untuk memahami lebih jelasnya bagaimana fungsi tersebut digambarkan, berikut implementasinya data dengan distribusi normal yang memiliki rata-rata 1 dan variansinya 0.5

normdis

Gambar 2.4. Distribusi Data

mu = 1 # rata-rata
sigma =np.sqrt(0.5) # standar deviasi (akar dari varians)
s = np.random.normal(mu, sigma, 1000) # membangkitkan 1000 bilangan acak dgn distribusi norma
import matplotlib.pyplot as plt

plt.plot(bins, 1/(sigma * np.sqrt(2 * np.pi)) * np.exp( - (bins - mu)**2 / (2 * sigma**2) ),linewidth=2, color='blue')
plt.show()

Ekplorasi data tipe Numerik

Pada bagian ini kita membahas metode statistik dasar untuk analisis ekplorasi data atribut numerik. Kita membahas ukuran kecenderungan pusat (central tendency), ukuran dispersi atau sebaran, dan ukuran ketergantungan linier atau hubungan antara atribut. Kita menekankan hubungan antara probabilistik dan geometris dan aljabar dari sudut pandang data matriks

Analisa univariat

Analisis univariat dilakukan pada atribut tunggal (X); dengan demikian matriks data D bisa dianggap sebagai matriks n × 1, atau sebagai vektor kolom, yang dinyatakan dengan

X=\begin {pmatrix} \begin{array} { c } { X } \\ \hline x _ { 1 } \\ { x _ { 2 } } \\ { \vdots } \\ { x _ { n } } \end{array} \end {pmatrix} \hspace{10em} (2)

dimana X adalah atribut numerik yang dimaksudkan, dengan x_i \in \mathbb R . X diasumsikan adalah variabel acak, dengan setiap titik x_i(1\leq i \leq n) , merupakan variabel acak. Asumsikan bahwa data yang diamati adalah sampel acak yang diambil dari X, artinya, setiap variabel x_i adalah saling bebas dan berdistribusi sama (iid). Dalam sudut pandang vektor, kita dapat memperlakukan sampel sebagai vektor n-dimensi, dan menulis X \in \mathbb R^n

Secara umum, fungsi padat probabilitas atau fungsi massa f(x) dan fungsi distribusi kumulatif F(x) untuk atribut X keduanya tidak diketahui. Akan tetapi, kita dapat mengestimasi distribusi ini langsung dari data sample, juga memungkinkan kita untuk menghitung beberapa parameter penting populasi.

Secara umum, fungsi padat probabilitas atau fungsi massa f(x) dan fungsi distribusi kumulatif F(x) untuk F ^ { - 1 } ( q ) = \operatorname { min } { x | \hat { F } ( x ) \geq q } \quad \text { for } q \in [ 0,1 ] atribut X keduanya tidak diketahui. Akan tetapi, kita dapat mengestimasi distribusi ini langsung dari data sample, juga juga memungkinkan kita untuk menghitung beberapa parameter penting populasi.

Fungsi distribusi Kumulatif Empiris

Fungsi distribusi kumulatif empiris (CDF ) dari X dinyatakan dengan

dimana

I(x_i\le x)=\Biggl\{\begin{array}={} 1 & {\text {if }x_i\le x }\\ 0 & {\text {if }x_i > x}\end{array}

adalah variabel indikator biner yang menyatakan variabel indikator biner yang menunjukkan apakah kondisi yang diberikan terpenuhi atau tidak.

Fungsi distribusi kumulatif Invers

Definisi fungsi distribusi kumulatif invers atau fungsi quantile untuk variabel acak X sebagai berikut : Fungsi distribusi kumulatif Invers empiris dapat diperoleh dari persamaan (3)

Fungsi massa Probabilitas Empiris

Fungsi massa probabilitas empiris dari X dinyatakan dengan dimana

I(x_i\le x)=\Biggl\{\begin{array}={} 1 & {\text {if }x_i= x }\\ 0 & {\text {if }x_i \neq x}\end{array}

Fungsi massa probabilitas empiris juga menempatkan massa probabitas \frac {1}{n} pada setipa titik x_i

Mengukur kecenduran terpusat

Ukuran ini memberikan indikasi tentang konsentrasi massa probabilitas , nilai tengah dan lainnya.

Mean

Mean juga disebut dengan nilai harapan dari variabel acak X yang berarti rata rata aritmetika dari nilai X. Mean adalah salah satu dari kecenderungan terpusat dari X.

Mean atau nilai harapan dari variabel acak X didefinisikan dengan diman f(x) adalah fungsi massa probabilitas dari X.

Nilai harapan dari variabel acak kontinu X dinyakan dengan dimana f(x) adalah fungsi padat probabilitas dari X.

Sample Mean. Sample mean adalah statistik, yaitu fungsi \hat\mu:\{x_1,x_2,,x_{n}\}\rightarrow \mathbb R, didefinisikan sebagai nilai rata-rata dari x_i : Sample mean dipakai sebagai pengestimasi nilai mean yang tidak diketahui dari X. Nilai tersebut diperoleh dengan memasukkan dalam fungsi massa probabilitas empiris dalam persamaan (6) Sample mean adalah tidak bias . Estimator \hat { \theta } disebut dengan unbiased estimator (stimator tidak bias) untuk parameter \theta jika E[\hat \theta] = \theta untuk setiap kemungkinan nilai dari \theta . Sample mean \hat \mu adalah unbiased estimator untuk mean populasi \mu sehingga dengan variabel acak x_i adalah independent and identically distributed (iid) dengan X, yang berarti memiliki rata-rata \mu yang sama seperti X , yaitu,$ E [x_i] =\mu$ untuk semua x_i. Kita juga menggunakan fakta bahwa fungsi ekpektasi E adalah linier operator yaitu untuk suatu dua bilangan acak X dan Y dan bilangan real a dan b , kita memiliki E [ a X + b Y ] = a E [ X ] + b E [ Y ]

Robustnes Kita mengatakan bahwa statistik adalah robust jika tidak dipengaruhi oleh suatu nilai ekstrim ( misal outlier/pencilan) dalam data. Akan tetapi rata-rata sample tidak robust pada nilai pencilan (outlier) , sehingga dengan adanya data pencilan menjadikan rata-rata bisa jadi bukan rata-rata yang sebenarnya. Ukuran yang lebih robust adalah trimmed mean yang didapatkan setalah mengabaikan sebagian kecil dari nilai nilai ekstrim pada salah satu ujungnya.

Median

Median dari suatu variabel acak didefinisikan dengan nilai m sehingga Dengan kata lain, median m adalah nilai paling tengah (middle-most). Dalam istliah (invers) fungsi distribusi kumulatif, median m dinyatakan dengan Sample median dapat diperoleh dari Fungsi distribusi kumulatif invers atau fungsi distribusi kumulatif invers empiris dengan dihitung Pendekatan paling sederhana untuk menghitung sample median adalah dengan mengurutkan semua nilai x_i (i \in [1,n]) dengan urutan naik. Jika n adalah ganjil , media adalah nilai pada posisi \frac {n+1}{2} . Jika n adalah genap, nilai padan posisi \frac {n}{2} dan \frac {n}{2}+1 adalah keduanya median.

Tidak seperti mean, median adalah robust, sehingga ia tidak dipengaruhi oleh banyaknya nilai extrim.

Mode

Nilai mode dari variabel acak adalah nilai dimana fungsi massa probabilitas atau fungsi padat probabilitas mencapai nilai maximumnya, bergantung pada apakah X adalah diskrit atau kontinu.

Sample mode adalah nila untuk fungsi probabilitas empiris mencapai nilai maksimum, dinyatakan dengan Mode ini mungkin bukan ukuran kecenderungan sentral yang sangat berguna untuk sampel, karena kemungkinan elemen yang tidak representatif menjadi elemen yang paling sering muncul. Selanjutnya, jika semua nilai dalam sampel berbeda, maka masing-masing akan menjadi mode

Contoh. (Sample Mean, Median, dan Mode). Perhatikan atribut sepal length (Xi) dalam data iris. Data iris, bisa dilihat di sumber data website ini.Sample mean dinyatakan dengan Gambar 2.5 menunjukkan semua dari 150 nilai sepal length dan sample mean. Gambar 2.6a menunjukkan fungsi distribusi kumulatif empiri dan gambar 2.6b menunjukkan fungsi distribusi kumulatif empiris untuk sepal length

Karena n=150 adalah genap, sample median adalah nilai pada posisi \frac {n}{2}=75 dan \frac {n}{2}+1=76 setelah diurutkan. Untuk sepal length kedua nilainya adalah 5.8, kemudian sample media adalah 5.8 . Dari fungsi distribusi kumulatif invers dalam gambar 2.6b, kita dapat melihat bahwa

Sample mode untuk sepal length adalah 5. yang dapat dilihat dari frequency dari 5 dalam gambar 2.5. Massa probabilitas empiris pada x=5 adalah

frekiris

Gambar 2.5 Kemunculan nilai nilai variabel sepal length. Tumpukan menunjukkan nilai yang sama.

cdfiris

Gambar 2.6a Frekwensi distribusi kumulatif empiris variabel sepal length

icdfiris

Gambar 2.6b Invers Frekwensi distribusi kumulatif variabel sepal length

Mengukur Sebaran Data

Kita sekarang membahas ukuran ukuran untuk menilai dispersi atau penyebaran data numerik. Ukuran-ukuran itu adalah rentang (range), kuantil, kuartil, persentil, dan rentang interkuartil. Semua itu adalah ringkasan lima angka, yang dapat ditunjukkan dengan boxplot, berguna dalam mengidentifikasi pencilan (outlier). Varians dan standar deviasi juga menunjukkan sebaran distribusi data.

Rentang (Range), Quartil, and Rentang Interquartile

Misalkan x_1, x_2, .. x_N adalah sekumpulan pengamatan untuk atribut numerik, X. Rentang adalah selisih antara nilai terbesar (maks ()) dan terkecil (min ()). Misalkan data untuk atribut X diurutkan dalam urutan naik.Bagilah data berdasarkan titik titik tertentu sehingga membagi distribusi data ukuran yang sama, seperti pada Gambar dibawah. Titik data ini disebut kuantil. 2-quantile adalah titik data yang membagi bagian bawah dan atas dari distribusi data. Ini sama dengan median. 4-kuantil adalah tiga titik data yang membagi distribusi data menjadi empat bagian yang sama; setiap bagian mewakili seperempat dari distribusi data. Ini lebih sering disebut sebagai kuartil. 100-kuantil lebih sering disebut sebagai persentil; mereka membagi distribusi data menjadi 100 data berukuran sama. Median, kuartil, dan persentil adalah bentuk kuantil yang paling banyak digunakan.

percentile

Gambar 2.7. Percentile data

Kuartil memberikan gambaran pusat distribusi, penyebaran, dan bentuk distribusi. Kuartil satu, dilambangkan oleh Q1, adalah persentil ke-25. Nilai ini menunjukan 25% terendah dari data. Kuartil ketiga, dilambangkan oleh Q3, adalah persentil ke-75 - itu memisahkan data 75% dari terendah data (atau 25% dari tertinggi data. Kuartil kedua adalah persentil ke-50 atau median dari distribusi data.

Jarak antara kuartil pertama dan ketiga adalah ukuran yang menyatakan rentang yang dicakup oleh bagian tengah data. Jarak ini disebut rentang interkuartil (IQR) dan dinyatakan dengan

I Q R = Q _ { 3 } - Q _ { 1 }

Dengan ukuran kuartil Q1 dan Q3, dan median kita dapat mengidentifikasikan ada tidaknya pencilan (outlier) pada suatu data. Data pencilan atau outlier nilai data biasanya ada di setidaknya 1,5 × IQR di atas kuartil ketiga atau di bawah kuartil pertama

Karena Q1, median, dan Q3 tidak berisi informasi tentang titik akhir data, ringkasan yang lebih lengkap dari bentuk distribusi dapat diperoleh dengan memberikan nilai data terendah dan tertinggi . Ini dikenal sebagai ringkasan lima nilai. Ringkasan lima nilai adistribusi terdiri dari median (Q2), kuartil Q1 dan Q3, dan data terkecil dan terbesar( Minimum, Q1, Median, Q3, Maksimum)

Boxplots adalah cara populer untuk memvisualisasikan distribusi. Boxplot menggabungkan ringkasan lima nilai tersebut sebagai berikut: - Ujung kotak adalah kuartil dan panjang kotak adalah rentang interkuartil. - Median ditandai dengan garis di dalam kotak. - Dua garis (disebut whiskers) di luar kotak memanjang ke pengamatan terkecil (Minimum) dan terbesar (Maksimum)

Outlier biasanya ada di dibawah Q_1 – 1.5 \times IQR dan diatas Q_3 + 1.5 \times IQR

boxplot

Gambar 2.8. Boxplot

Variansi dan Standar Deviasi

Variansi dan standar deviasi adalah ukuran penyebaran data. Nilai-nilai tersebut menunjukkan bagaimana penyebaran distribusi data. Standar Deviasi yang rendah berarti bahwa pengamatan data cenderung sangat dekat dengan rata-rata, sedangkan standar deviasi yang tinggi menunjukkan data tersebar di sejumlah nilai-nilai besar.

Varian dari pengamatan N, x_1, x_2, ..., x_N, untuk atribut numerik X adalah

\sigma ^ { 2 } = \frac { 1 } { N } \sum _ { i = 1 } ^ { N } ( x _ { i } - \overline { x } ) ^ { 2 } = ( \frac { 1 } { N } \sum _ { i = 1 } ^ { N } x _ { i } ^ { 2 } ) - \overline { x } ^ { 2 }\hspace{10em} (11.a)

di mana $ \overline { x } $ adalah nilai rata-rata dari pengamatan, Standar deviasi $\sigma $ dari pengamatan adalah akar kuadrat dari variansi, \sigma^2

Sifat dasar dari standar deviasi, \sigma, sebagai ukuran penyebaran data adalah sebagai berikut:

  • Ukuran \sigma mengukur sebaran disekitar rata-rata dan harus dipertimbangkan bila rata-rata dipilih sebagai ukuran pusat data
  • \sigma = 0 hanya jika tidak ada penyebaran data, hanya terjadi bila semua pengamatan memiliki nilai sama, Jika tidak maka \sigma > 0
Skewness

Derajat distorsi dari kurva lonceng simetris atau distribusi normal. Untuk mengukur kurang tidak simetrisnya distribusi data Untuk menghitung derajat distorisi dapat menggunakan Koefisien Kemencengan Pearson yang diperoleh dengan menggunakan nilai selisih rata-rata dengan modus dibagi simpangan baku. Koefisien Kemencengan Pearson dirumuskan sebagai berikut

dengan

maka

s k \approx \frac{3(\overline{X}-M e)}{s}

skew

Gambar 2.9 Macam macam Kemiringan data (Skewness)

Implementasi

Untuk implementasi silahkan unduh data

import pandas as pd
from scipy import stats
df=pd.read_csv("data.csv",usecols=[0])

print("jumlah data  ",df['NilaiPreTest'].count())
print("rata-rata   ",df['NilaiPreTest'].mean())
print("nila minimal ",df['NilaiPreTest'].min())
print("Q1       ",df['NilaiPreTest'].quantile(0.25))
print("Q2          ",df['NilaiPreTest'].quantile(0.5))
print("Q3          ",df['NilaiPreTest'].quantile(0.75))
print("Nilai Max   ",df['NilaiPreTest'].max())
print("kemencengan","{0:.2f}".format(round(df['NilaiPreTest'].skew(),2)))
mode=stats.mode(df)
print("Nilai modus {} dengan jumlah {}".format(mode.mode[0], mode.count[0]))
print("kemencengan          " ,"{0:.6f}".format(round(df['NilaiPreTest'].skew(),6)))
print("Standar Deviasi   ","{0:.2f}".format(round(df['NilaiPreTest'].std(),2)))
print("Variansi         ","{0:.2f}".format(round(df['NilaiPreTest'].var(),2)))

Analisa Bivariate

Dalam analisa bivariate, kita memandang dua atribut pada waktu yang sama. Kita fokus untuk memahami keterkaitan atau kebergantungan antara dua variabel atau atribut tersebut. Kita membatasi pada dua variabel X_1 dan X_2 , dengan D dinyatakan sebagai matrik dengan ukuran n\times2

X=\begin {pmatrix} \begin{array}{ c c } { X _ { 1 } } & { X _ { 2 } } \\ \hline x _ { 11 } & { x _ { 12 } } \\ { x _ { 21 } } & { x _ { 22 } } \\ { \vdots } & { \vdots } \\ { x _ { n 1 } } & { x _ { n 2 } } \end{array} \end {pmatrix}

Secara geometri, kita dapat memandang D dalam dua cara. Itu dapat dianggap sebagai n titik atau vektor dalam 2-ruang dimensi terhadap atribut X_1 dan X_2 yaitu x_i =(x_{i1},x_{i2})^T \in \mathbb R^2 .Selain itu dapat dilihat sebagai 2 titik atau vektor dalam n-ruang dimensi yang berisi titik, yaitu setiap kolom adalah vektor dalam \mathbb R^{n} sebagai berikut :

\left. \begin{array} { l } { X _ { 2 } = ( x _ { 12 } , x _ { 22 } , \ldots , x _ { n 2 } ) ^ { T } } \end{array} \right.

Dalam sudut pandang probabilistik, vektor kolom X=(X_1,X_2)^T dianggap variabel acak bivariate dan titik titik x _ { i } ( 1 \leq i \leq n ) dinyatakan sebagai sampel acak yang diperoleh dari X, yaitu x_i dianggap independent and identically distributed (iid) seperti X.

Fungsi Massa Probabilitas Gabungan Empiris

Fungsi Massa Probabilitas Gabungan Empiris untuk X dinyatakan dengan

\hat { f } ( x _ { 1 } , x _ { 2 } ) = P ( X _ { 1 } = x _ { 1 } , X _ { 2 } = x _ { 2 } ) = \frac { 1 } { n } \sum _ { i = 1 } ^ { n } I ( x _ { i 1 } = x _ { 1 } , x _ { i 2 } = x _ { 2 } )

dimana I adalah variabel indikator yang bernilai 1 jika argumen argumennya benar

I ( x _ { i } = x ) = \left\{ \begin{array} { l l } { 1 } & { \text { jika } x _ { i 1 } = x _ { 1 } \text { dan } x _ { i 2 } = x _ { 2 } } \\ { 0 } & { \text { untuk yang lainnya } } \end{array} \right.

Seperti dalam kasus univariate, fungsi probabilitas menempatkan massa probabilitas \frac {1}{n} pada setiap objek dalam data sampel.

Mengukur Dispersi
Mean

Rata rata bivariate didefinisikan sebagai nilai harapan dari variabel acak vektor X, didefinisikan sebagai berikut :

Dengan kata lain, rata-rata bivariate adalah nilai harapan dari masing masing atribut.

Rata-rata sampel dapat diperoleh dari \hat f_{x_1} dan \hat f_{x_2}, fungsi massa probabilitas empiris dari X_1 dan X_2 , menggunakan persamaan (8). Dapat juga dihitung dari gabungan fungsi massa probabilitas empiris dalam persamaan (12)

Variansi

Kita dapat menghitung variansi masing masing atribut, yaitu \sigma_1^2 untuk X_1 dan \sigma_2^2 untuk X_2 mengggunkan persamaan (11.a). Variansi secara keseluruhan dinyatakan dengan Variansi sampel \hat \sigma_1^2 + \hat \sigma_2^2 dapat diestimasi dn jumlah variansi sample adalah \sigma_1^2 +\sigma_2^2

Mengukur keterkaitan
Covarian

Kovarian antara dua atribut X_1 dan X_2 mengukur keterkaitan antara kebergantungan linier diantaranya dan didefinisikan dengan Dengan linieraritas dari harapan, kita miliki

Jika X_1 dan X_2 adalah variabel acak saling bebas, maka kita dapat simpulkan bahwa covariannya adalah nol. Ini karena jika X_1 dan X_2 adalah saling bebas, maka kita memiliki
yang pada akhirnya menyiratkan bahwa

Namaun sebaliknya tidak benar. Yaitu jika \sigma_{12}=0, kita tidak dapat mengklaim bahwa $X_1 $ dan X_2 adalah saling bebas. Semuanya kita katakan bahwa tidak adalah kebergantung linier antara keduanya. Kovarian sampel antra X1 dan X_2 dinyatakan dengan

Korelasi

Korelasi antara variabel X_1 dan X_2 adalah standarisasi kovarian, yang didapatkan dengan menormalisasi kovarian dengan standar deviasi masing masing variabel dinyatakan dengan

Korelasi sample untuk atribut X_1 dan X_2 dinyatakan dengan

\hat { \rho } _ { 12 } = \frac { \hat { \sigma } _ { 12 } } { \hat { \sigma } _ { 1 } \hat { \sigma } _ { 2 } } = \frac { \sum _ { i = 1 } ^ { n } ( x _ { i 1 } - \hat { \mu } _ { 1 } ) ( x _ { i 2 } - \hat { \mu } _ { 2 } ) } { \sqrt { \sum _ { i = 1 } ^ { n } ( x _ { i 1 } - \hat { \mu } _ { 1 } ) ^ { 2 } \sum _ { i = 1 } ^ { m } ( x _ { i 2 } - \hat { \mu } _ { 2 } ) ^ { 2 } } }
Matrik Kovarian

Variansi dari untuk dua atribut X_1 dan X_2 dapat diringkas dalam matrik covarianse bujursangkar denga ukuran $2 \times 2 $ dinyatakan dengan Karena \sigma_{12}=\sigma_{21}, \Sigma adalah matrik simetris. Matrik vovarian merekam variansi tertentu atribut pada diagonal utamanya, dan informasi covarian pada elemen element bukan diagonal. Total variance dari dua atribut dinyatakan sebagai jumlah elemen elemen diagonal dari \Sigma , yang juga disebut trace dari \Sigma dinyatakan dengan Kita segera memiliki tr(\Sigma)\geq0

Secara umum covarian adalah non-negatif, karena

dimana kitu gunakan persamaan sebelumnya, yaitu \rho_{12},\sigma_1,\sigma_2. dengan |\Sigma| adalah determinan dari matrik kovarian. Perhatikan bahwa |\rho_{12}|\leq 1 menyebabkan \rho_{12}^2 \leq 1 sehingga det (\Sigma) \geq 1 oleh karena itu determinannya adalah non-negative.

Matrik kovarian sampel dinyatakan dengan Matrik kovarian sampe $ \hat \Sigma$ memilki karakteristik sama seperti \Sigma , yaitu simetris dan |\hat \Sigma| \geq 0 dan itu dapat digunakan untum memudahkan mendapatkan total sampel dan variansi secara umum

Contoh (Rata rata Sampel dan Covarian)

Perhatikan atribut sepal length dan sepal width untuk data iris

Ada n=150 data dalam d=2 ruang dimensi. Rata rata sampel adalah Matrik covarian dinyatakan dengan Variansi untuk sepal length adalah \hat \sigma_1^2=0.681 dan sepal width adalah \hat \sigma_2^2=0.187. Covarian antara dua atribut adalah \hat \sigma_{12}=-0.039 dan korelasi antara dua atribut tersebut adalah Lalu, ada korelasi yang sangat lemah antara dua atribut tersebut

Total variansi sampel dinyatakan dengan dan variansi secara umum dinyatakan dengan

Analisa Multivariate

Dalam analisa multivariate, kita melihat atribut numerik dengan d dimensi X_1,X_2,...X_d. Data dinyatakan degan matrik n\times d seperti berikut

Jika dilihat dari baris data memiliki n objek atatu vektor dalam d ruang dimensi atribut Jika dilihat dari sudut pandang kolom, data diangga sebagai d objek atau vektor dalam n dimensi ruang dengan titik-titik data

Jika dilihat dari sudut pandang probabilitas, d atribut dimodelkan dengan variabel acak vektor X=(X_1,X_2,...X_d)^T dan titik titik x_i dianggap sebagai sampel acak yang diperoleh dari X, atribut atribut tersebut independent and identfically distributed dari X (i.i.d X)

Mean

Generalisasi persamaan (2.18) rata-rata vektor multivariate diperoleh dari masing-masing atribut yang dinyatakan dengan Generalisasi persamaan (2.19) rata-rata sampel dinyatakan dengan

Matrik Kovarian

Generalisasi persamaan (2.26) untuk d dimensi, kovarian multicovariate di dinyatakan dengan matrik kovarian simetris $ d\times d $yang menyatakan kovarian untuk setiap pasangan atribut Elemen diagonal $\sigma_i^2 $ menyatakan variansi atribut X_i, dimana elemen-elemen bukan diagonal \sigma_{ij} = \sigma_{ji} menyatakan kovarian antara atribut pasangan X_i dan X_j. Matrik kovarian adalah positif semidefinite

Contoh Rata-rata sample dan matrik covarian.

Perhatikan semua atribut numerik untuk data iris, namanya sepal length, petal length, dan petal width. Rata rata multivarean dinyatakan dengan

\hat { \mu } = ( 5.843 \quad 3.054 \quad 3.759 \quad 1.199 ) ^ { T } $$ dan matrik covarian nya adalah $$ \hat { \Sigma } = \left( \begin{array} { r r r r } { 0.681 } & { - 0.039 } & { 1.265 } & { 0.513 } \\ { - 0.039 } & { 0.187 } & { - 0.320 } & { - 0.117 } \\ { 1.265 } & { - 0.320 } & { 3.092 } & { 1.288 } \\ { 0.513 } & { - 0.117 } & { 1.288 } & { 0.579 } \end{array} \right) $$ Jumlah variansi adalah $$ \operatorname { var } ( D ) = \operatorname { tr } ( \hat { \Sigma } ) = 0.681 + 0.187 + 3.092 + 0.579 = 4.539

Contoh Perkalian dalam dan perkalian luar. Untuk mengdeskripsikan komputasi perkalian dalam dan perkalian luar dari matrik covarian, perhatikan data 2-dimensi

Rata-rata vektor adalah sebagai berikut dan matrik data terpusat dinyatakan Pendekatan perkalian dalam [pers. 2.30] untuk menghitung matrik kovarian adalah Pendekatan lain yaitu dengan perkalian luar [pers. 2.31] dibyatakan dengan

= \frac { 1 } { 3 } \left [ \left( \begin{array} { c } { - 4 } \\ { - 2.1 } \end{array} \right) \cdot \left( \begin{array} { c c } { - 4 } & { - 2.1 } \end{array} \right) + \left( \begin{array} { r r } { 0 } \\ { - 0.5 } \end{array} \right) \cdot \left( \begin{array} { c c } { 0 } & { - 0.5 } \end{array} \right) + \left( \begin{array} { c } { 4 } \\ { 2.6 } \end{array} \right) \cdot \left( \begin{array} { c c } { 4 } & { 2.6 } \end{array} \right)\right ]
\left. \begin{array} { l } { = \frac { 1 } { 3 } [ \left( \begin{array} { c c } { 16.0 } & { 8.4 } \\ { 8.4 } & { 4.41 } \end{array} \right) + \left( \begin{array} { c c } { 0.0 } & { 0.0 } \\ { 0.0 } & { 0.25 } \end{array} \right) + \left( \begin{array} { c c } { 16.0 } & { 10.4 } \\ { 10.4 } & { 6.76 } \end{array} \right) ] } \\ { = \frac { 1 } { 3 } \left( \begin{array} { c c } { 32.0 } & { 18.8 } \\ { 18.8 } & { 11.42 } \end{array} \right) = \left( \begin{array} { c c } { 10.67 } & { 6.27 } \\ { 6.27 } & { 3.81 } \end{array} \right) } \end{array} \right.

dimana data terpusat z_i adalah baris dari Z

Atribut Kategorikal

Kita asumsikan bahwa data terdiri dari satu atribut X. Domain dari X terdiri dari m nilai simbolis dom(X)={a_1,a_2,...a_m}. Data D adalah n\times 1 matrik data simbolis yang dinyatakan dengan dimana setiap nilai x_i \in dom(X)

Variabel Bernouli

Marilah kita lihat kasus ketika atribut kategorikal X memililik domain $ {a_1,a_2}$ dengan m=2. Kita dapat memodelkan X sebagai variabel acak Bernouli, yang didasarkan pada dua nilai berbeda yaitu 1 dan 0, sesuai dengan pemetaan Fungsi massa probabilitas (PMF) dari X dinyatakan dengan dimana p_1 dan p_0 adalah parameter distribusi, yang harus memenuhi kondisi Karena hanya ada satu parameter bebas, biasanya menotasikan p_1=p maka p_0=1-p. Fungsi Massa Probabilitas dari variabel acak Bernouli X dapat kemudian ditulis dengan Kita dapat melihat bahwa P ( X = 1 ) = p ^ { 1 } ( 1 - p ) ^ { 0 } = p \text { and } P ( X = 0 ) = p ^ { 0 } ( 1 - p ) ^ { 1 } = 1 - p seperti yand diharapkan

Mean dan Variansi

Nilai harapan dari X dinyatakan dengan dan variansi dari X dinyatakan dengan

Rata-rata sampel dan Variansi

Untuk mengestimasi parameter dari variabel Bernouli X, kita asumsikan bahwa setiap simbol dipetakan ke nilai biner. Sehingga, sekumpulan nilai {x_1,x_2,...x_n} diasumsikan menjadi sampel acak yang diperoleh dari X (yaitu setiap $ x_i$ adalah IID dengan X.

Rata-rata sampel dinyatakan dengan dimana n_1 adalah banyaknya titik dengan x_1=1 dalam sampel acak (sama dengan banyak kejadian dari simbol a_1)

Misal n_0=n-n_1 menyatakan banyak titik dengan x_i=0 dalam sampel acak. Variansi sample dinyatakan dengan

Variansi sampel dapat juga diperoleh langsung dari persamaan(3.1) dengan mensubsitusikan \hat p untuk p .

Contoh

Perhatikan atribut sepal length (X) untuk dataset iris dalam tabel 1.1. Marilah kita definisikan bunga iris dengan Long jika bunga itu sepal length dalam range [7, \infty ], dan short jika sepal length dalam range [-\infty,7]. Kemudian X_1 dapat dinyatakan dengan atribut kategorikan dengan domain {Long,Short}. Dari sampel yang diamati ukuran n=150, kita menemukan 13 iris long. Rata-rata sampel dari X_1 adalah dan variansinya adalah

Ditribusi binomial : banyaknya kejadian

Diberikan variabel Bernoulli X, misal \{x_1,x_2,...x_n\} menyatakan sampel acak dari ukuran n yang diperoleh dari X. Misal N adalah variabel acak yang menyatakan numlah kejadi dari simbol a_1(nilai X=1) dalam sampe. N adalah distribusi binomial yang dinyatakan dengan Dalam kenyataannya, N adalah jumlah dari n variabel acak Bernoulli x_i yang saling bebas dan (IID) dengan X yaitu N=\sum_{i=1}^n x_i . Dengan liniearitas dari ekpektasi, mean atau jumlah harapan dari kejadian simbol a_i dinyatakan dengan Karena x_i adalah semuanya saling bebas, variansi dari N dinyatakan dengan Contoh 3.2. Dengan meneruskan contoh 3.1, kita dapat menggunakan parameter yang telah diestimasi \hat p=0.087 untuk menghitung banyaknya kejadian yang diharapkan N long dari sepal length. distribusi binomial Iris

Dalam kasus ini, karena p dihitung dari sample melalui \hat p, tidak mengherankan bahwa jumlah kejadian diharapkan dari Long Iris sama dengan kejadian yang sebenarnya. Akan tetapi yang lebih menarik adalah kita dapat menghitung variansi jumlah kejadian

Meningkatnya ukuran sample, distribusi binomial seperti yang diberikan dapalam persamaan 3.3 cenderung ke distribusi normal dengan \mu=13 dan \sigma=\sqrt{11.9}=3.45. Sehingga dengan kepercaan lebih besar dari 95%, kita dapat mengklam bahwa jumlah kejadian dari a_i akan terletak dalam rentang \mu \pm 2 \sigma = [ 9.55,16.45 ] yang mengikuti dari fakta bahwa untuk distribusi normal 95,45% dari massa probabilitas terletak dalam dua standar deviasi dari rata-rata.

Variable multivariate Bernoulli

Sekarang kita memandang kasus umum ketika X adalah atribut kategorical dengan domain \{a_1,a_2,...a_m\}. Kita dapat memodelkan X sebagai variabel acak Bernoulli m -dimensi X = ( A _ { 1 } , A _ { 2 } , \ldots , A _ { m } ) ^ { T } dimana setiap A_i adalah variabel Bernoulli dengan parameter p_i yang menotasikan probabilitas dari pengamatan simbol a_i. Akan tetapi karena X dapat mengasumsikan hanya satu dari nilai simbolik pada suatu waktum jika X=a_i maka A_i=1 dan A_j=0 untuk semua j \neq i. Variabel acak X \in {0,1}^m, dan jika X=a_i, maka X=e_i, dimana e_i adalah standar vektor basis ke i, e_i\in\mathbb R^m yang dinyatakan dengan Pada e_i hanya elemen ke i adalah 1 (e_{ii}=1) , sedangkan semua elemen yang lain adalah nol, (e_{ij}=0, \forall j \neq i).

Disini, definis yang lebih tepat dari variabel Bernoulli multivariate , yaitu generalisasi dari variabel Bernoullii dari dua hasil ke m hasil. Kita kemudian memodelkan atribut kategorical X sebagai variabel Bernoulli multivariate X didefinisikan dengan

Rentang dari X terdiri dari m nilai vektor berbeda \{e_1,e_2,...e_m\} dengan fungsi massa probabilitas dari X dinyatakan dengan dimana p_i adalah probabilitas dari nilai pengamatan a_i. Parameter ini harus memenuhi kondisi Fungsi massa prababilitas dapat ditulis secara utuh sebagai berikut Kareana e_ii=1 dan e_ij=0 funtuk $ j\neq i$, kita dapat melihat bahwa, seperti yang diharapkan, kita miliki

\left. \begin{array} { | l | l | l | } \hline \text { Bins } & { { \text { Domain } } } & { { \text { Counts } } } \\ \hline [ 4.3,5.2 ] & { \text { Very Short } ( a _ { 1 } ) } & { n _ { 1 } = 45 } \\ { ( 5.2,6.1 ] } & { \text { Short } ( a _ { 2 } ) } & { n _ { 2 } = 50 } \\ { ( 6.1,7.0 ] } & { \text { Long } ( a _ { 3 } ) } & { n _ { 3 } = 43 } \\ { ( 7.0,7.9 ] } & { \text { Very Long } ( a _ { 4 } ) } & { n _ { 4 } = 12 } \\ \hline \end{array} \right.

Contoh : Marilah kita lihat atribut sepal length (X_1) untuk data Iris seperti yang ditunjukkan dalam tabel 1.2. Kita membagi sepal length kedalam empat interval yang sama, dan memberikan nama untuk setiap interval seperti yang diunjukkan dalam tabel 3.1. Kita lihat X_1 sebagai atribut kategorical dengan domain

Kita memodelkan atribut kategorical X_1 sebagai variabel X Bernoulli multivariate, didefinisikan dengan Misalkan, simbol x_1=Short=a_2 dinyatakan dengan (0,1,0,0)^T=e_2

Mean

Mean atau nilai harapan dari X dapat diperoleh dengan

Mengukur Jarak Data

Mengukur Jarak Tipe Numerik

Salah satu tantangan dalam era ini dengan datatabase yang memiliki banyak tipe data. Mngukur jarak adalah komponen utama dalam algoritma clustering berbasis jarak. Alogritma seperit Algoritma Partisioning misal K-Mean, K-medoidm dan fuzzy c-mean dan rough clustering bergantung pada jarak untuk melakukan pengelompokkan

Sebelum menjelaskan tentang beberapa macam ukuran jarak, kita mendefinisikan terlebih dahulu yaiut v_1, v_2 menyatakandua vektor yang menyatakan v_1 = {x_1, x_2, . . ., x_n}, v_2 ={y_1, y_2, . . ., y_n}, dimana x_i, y_i disebut attribut. Ada beberapa ukuran similaritas datau ukuran jarak, diantaranya2

Minkowski Distance

Kelompk Minkowski diantaranya adalah Euclidean distance dan Manhattan distance, yang menjadi kasus khusus dari Minkowski distance. Minkowski distance dinyatakan dengan

d _ { \operatorname { min } } = ( \ sum _ { i = 1 } ^ { n } | x _ { i } - y _ { i } | ^ { m } ) ^ { \frac { 1 } { m } } , m \geq 1

diman m adalah bilangan riel positif dan x_i dan $ y_i$ adalah dua vektor dalam runang dimensi n Implementasi ukuran jarak Minkowski pada model clustering data atribut dilakukan normalisasi untuk menghindari dominasi dari atribut yang memiliki skala data besar.

Manhattan distance

Manhattan distance adalah kasus khsusu dari jarak Minkowski distance pada m = 1. Seperti Minkowski Distance, Manhattan distance sensitif terhadap outlier. BIla ukuran ini digunakan dalam algoritma clustering , bentuk cluster adalah hyper-rectangular. Ukuran ini didefinisikan dengan

d _ { \operatorname { man } } = \sum _ { i = 1 } ^ { n } \left| x _ { i } - y _ { i } \right|
Euclidean distance

Jarak yang paling terkenal yang digunakan untuk data numerik adalah jarak Euclidean. Ini adalah kasus khusus dari jarak Minkowski ketika m = 2. Jarak Euclidean berkinerja baik ketika digunakan untuk kumpulan data cluster kompak atau terisolasi . Meskipun jarak Euclidean sangat umum dalam pengelompokan, ia memiliki kelemahan: jika dua vektor data tidak memiliki nilai atribut yang sama, kemungkin memiliki jarak yang lebih kecil daripada pasangan vektor data lainnya yang mengandung nilai atribut yang sama. Masalah lain dengan jarak Euclidean sebagai fitur skala terbesar akan mendominasi yang lain. Normalisasi fitur kontinu adalah solusi untuk mengatasi kelemahan ini.

Average Distance

Berkenaan dengan kekurangan dari Jarak Euclidian Distance diatas, rata rata jarak adala versi modikfikasid ari jarak Euclidian untuk memperbaiki hasil. Untuk dua titik x,y dalam ruang dimensi n, rata-rata jarak didefinisikan dengan

d _ { a v e } = \left ( \frac { 1 } { n } \sum _ { i = 1 } ^ { n } ( x _ { i } - y _ { i } ) ^ { 2 } \right) ^ { \frac { 1 } { 2 } }
Weighted euclidean distance

Jika berdasarkan tingkatan penting dari masing masing atribut ditentukan, maka Weighted Euclidean distance adalah modifikisasi lain dari jarak Euclidean distance yang dapat digunakan. Ukuran ini dirumuskan dengan

dimana w_i adalah bobot yang diberikan pada atribut ke i.

Chord distance

Chord distance adalah salah satu ukuran jarak modifikasi Euclidean distance untuk mengatasi kekurangan dari Euclidean distance. Ini dapat dipecahkan juga dengan menggunakan skala pengukuran yang baik. Jarak ini dapat juga dihitung dari data yang tidak dinormalisasi . Chord distance didefinisikan dengan

d _ { \text {chord} } = \left ( 2 - 2 \frac { \sum _ { i = 1 } ^ { n } x _ { i } y _ { i } } { \| x \| _ { 2 } \| y \| _ { 2 } } \right) ^ { \frac { 1 } { 2 } }

dimana \| x \|_ {2} adalah L^{2} \text {-norm} \| x \|_{2} = \sqrt { \sum_{ i = 1 }^{ n }x_{i}^{2}}

Mahalanobis distance

Mahalanobis distance berdasarkan data berbeda dengan Euclidean dan Manhattan distances yang bebas antra data dengan data yang lain. Jarak Mahalanobis yang teratur dapat digunakan untuk mengekstraksi hyperellipsoidal clusters. Jarak Mahalanobis dapat mengurangi distorsi yang disebabkan oleh korelasi linier antara fitur dengan menerapkan transformasi pemutihan ke data atau dengan menggunakan kuadrat Jarak mahalanobis. Mahalanobis distance dinyatakan dengan

d _ { m a h } = \sqrt { ( x - y ) S ^ { - 1 } ( x - y ) ^ { T } }

diman S adalah matrik covariance data.

Cosine measure

Ukuran Cosine similarity lebih banyak digunakan dalam similaritas dokumen dan dinyatakan dengan

Cosine(x,y)=\frac { \sum _ { i = 1 } ^ { n } x _ { i } y _ { i } } { \| x \| _ { 2 } \| y \| _ { 2 } }

dimana \|y\|_{2} adalah Euclidean norm dari vektor y=(y_{1} , y_{2} , \dots , y_{n} ) didefinisikan dengan \|y\|_{2}=\sqrt{ y _ { 1 } ^ { 2 } + y _ { 2 } ^ { 2 } + \ldots + y _ { n } ^ { 2 } }

Pearson correlation

Pearson correlation banyak digunakan dalam data expresi gen. Ukuran similaritas ini menghitung similaritas antara duan bentuk pola expresi gen. Pearson correlation didefinisikan dengan

Pearson ( x , y ) = \frac { \sum _ { i = 1 } ^ { n } ( x _ { i } - \mu _ { x } ) ( y _ { i } - \mu _ { y } ) } { \sqrt { \sum _ { i = 1 } ^ { n } ( x _ { i } - y _ { i } ) ^ { 2 } } \sqrt { \sum _ { i = 1 } ^ { n } ( x _ { i } - y _ { i } ) ^ { 2 } } }

The Pearson correlation kelemahannya adalah sensitif terhadap outlier

Mengukur Jarak Atribut Binary

Mari kita lihat similaritas dan desimilirity untuk objek yang dijelaskan oleh atribut biner simetris atau asimetris. Aatribut biner hanya memiliki dua status: 0 dan 1 Contoh atribut perokok menggambarkan seorang pasien, misalnya, 1 menunjukkan bahwa pasien merokok, sedangkan 0 menunjukkan pasien tidak merokok. Memperlakukan atribut biner sebagai atribut numerik tidak diperkenankan. Oleh karena itu, metode khusus untuk data biner diperlukan untuk membedakan komputasi.

Jadi, bagaimana kita bisa menghitung ketidaksamaan antara dua atribut biner? ”Satu pendekatan melibatkan penghitungan matriks ketidaksamaan dari data biner yang diberikan. Jika semua atribut biner dianggap memiliki bobot yang sama, kita memiliki tabel kontingensi 2 \times 2 di mana q adalah jumlah atribut yang sama dengan 1 untuk kedua objek i dan j, r adalah jumlah atribut yang sama dengan 1 untuk objek i tetapi 0 untuk objek j, s adalah jumlah atribut yang sama dengan 0 untuk objek i tetapi 1 untuk objek j, dan t adalah jumlah atribut yang sama dengan 0 untuk kedua objek i dan j. Jumlah total atribut adalah p, di mana p=q+r+s+t

Ingatlah bahwa untuk atribut biner simetris, masing-masing nilai bobot yang sama.Dissimilarity yang didasarkan pada atribut aymmetric binary disebut symmetric binary dissimilarity. Jika objek i dan j dinyatakan sebagai atribut biner simetris, maka dissimilarity antari dan j adalah

d ( i , j ) = \frac { r + s } { q + r + s + t }

Untuk atribut biner asimetris, kedua kondisi tersebut tidak sama pentingnya, seperti hasil positif (1) dan negatif (0) dari tes penyakit. Diberikan dua atribut biner asimetris, pencocokan keduanya 1 (kecocokan positif) kemudian dianggap lebih signifikan daripada kecocokan negatif. Ketidaksamaan berdasarkan atribut-atribut ini disebut asimetris biner dissimilarity, di mana jumlah kecocokan negatif, t, dianggap tidak penting dan dengan demikian diabaikan. Berikut perhitungannya

d ( i , j ) = \frac { r + s } { q + r + s }

Kita dapat mengukur perbedaan antara dua atribut biner berdasarkan pada disimilarity. Misalnya, biner asimetris kesamaan antara objek i dan j dapat dihitung dengan

\operatorname { sim } ( i , j ) = \frac { q } { q + r + s } = 1 - d ( i , j )

Persamaan similarity ini disebut dengan Jaccard coefficient

Mengukur Jarak Tipe categorical

Ada beberapa macam pengukuran untuk tipe data categorical 3

Overlay Metric

Ketika semua atribut adalah bertipe nominal, ukuran jarak yang paling sederhana adalah dengan Ovelay Metric (OM) yang dinyatakan dengan

d ( x , y ) = \sum _ { i = 1 } ^ { n } \delta ( a _ { i } ( x ) , a _ { i } ( y ) )

dimana n adalah banyaknya atribut, a_i(x) dan a_i(y) adalah nilai atribut ke i yaitu A_i dari masing masing objek x dan y, \delta \ ( a_{ i } ( x ) , a_{ i } ( y ) ) adalah 0 jika a _ { i } ( x ) = a _ { i } ( y ) dan 1 jika sebaliknya.

OM banyak digunakan oleh instance-based learning dan locally weighted learning. Jelas sekali , ini sedikit buruk untuk mengukur jarak antara masing-masing pasangan sample, karena gagal memanfaatkan tambahan informasi yang diberikan oleh nilai atribut nominal yang bisa membantu dalam generalisasi.

Value Difference Metric (VDM)

VDM dikenalkan oleh Standfill and Waltz, versi sederhana dari VDM tanpa skema pembobotan didefinsisikan dengan

d ( x , y ) = \sum _ { i = 1 } ^ { n } \sum _ { c = 1 } ^ { C } \left| P ( c | a _ { i } ( x ) ) - P ( c | a _ { i } ( y ) ) \right |

dimana Cadalah banyaknya kelas, P(c|a_i(x)) adalah probabilitas bersyarat dimana kelas x adalah c dari atribut A_i, yang memiliki nilai a_i(x), P(c|a_i(y)) adalah probabilitas bersyarat dimana kelas y adalah c dengan atribut A_i memiliki nilai a_i(y)

VDM mengasumsikan bahwa dua nilai dari atribut adalah lebih dekat jika memiliki klasifikasi sama. Pendekatan lain berbasi probabilitas adalah SFM (Short and Fukunaga Metric) yang kemudian dikembangkan oleh Myles dan Hand dan didefinisikan dengan

d ( x , y ) = \sum _ { c = 1 } ^ { C } \left | P ( c | x ) - P ( c | y ) \right|

diman probabilitas keanggotaan kelas diestimasi dengan P(c|x) dan P(c|y) didekati dengan Naive Bayes,

Minimum Risk Metric (MRM)

Ukuran ini dipresentasikan oleh Blanzieri and Ricci, berbeda dari SFM yaitu meminimumkan selisih antara kesalahan berhingga dan kesalahan asymtotic. MRM meminimumkan risk of misclassification yang didefinisikan dengan

Mengukur Jarak Tipe Ordinal

Nilai-nilai atribut ordinal memiliki urutan atau peringkat, namun besarnya antara nilai-nilai berturut-turut tidak diketahui. Contohnya tingkatan kecil, sedang, besar untuk atribut ukuran. Atribut ordinal juga dapat diperoleh dari diskritisasi atribut numerik dengan membuat rentang nilai ke dalam sejumlah kategori tertentu. Kategori-kategori ini disusun dalam peringkat. Yaitu, rentang atribut numerik dapat dipetakan ke atribut ordinal f yang memiliki M_f state. Misalnya, kisaran suhu atribut skala-skala (dalam Celcius)dapat diatur ke dalam status berikut: −30 hingga −10, −10 hingga 10, 10 hingga 30, masing-masing mewakili kategori suhu dingin, suhu sedang, dan suhu hangat. M adalah jumlah keadaan yang dapat dilakukan oleh atribut ordinalmemiliki. State ini menentukan peringkat 1, ..., M_f

Perlakuan untuk atribut ordinal adalah cukup sama dengan atribut numerik ketika menghitung disimilarity antara objek4. Misalkan f adalah atribut-atribut dari atribut ordinal dari n objek. Menghitung disimilarity terhadap f fitur sebagai berikut:

  • Nilai f untuk objek ke-i adalah x_{if}, dan f memiliki M_f status urutan , mewakili peringkat 1, .., M_f Ganti setiap x_{if} dengan peringkatnya, r_{if} \in \{1...M_f\}
  • Karena setiap atribut ordinal dapat memiliki jumlah state yang berbeda, diperlukan untuk memetakan rentang setiap atribut ke [0,0, 1.0] sehingga setiap atribut memiliki bobot yang sama. Perl melakukan normalisasi data dengan mengganti peringkat r_{if} dengan
  • Dissimilarity kemudian dihitung dengan menggunakan ukuran jarak seperti atribut numerik dengan data yang baru setelah ditransformasi z_{if}

Menghitung Jarak Tipe Campuran

Menghitung ketidaksamaan antara objek dengan atribut campuran yang berupa nominal, biner simetris, biner asimetris, numerik, atau ordinal yang ada pada kebanyakan databasae dapat dinyatakan dengan memproses semua tipe atribut secara bersamaan5. Salah satu teknik tersebut menggabungkan atribut yang berbeda ke dalam matriks ketidaksamaan tunggal dan menyatakannya dengan skala interval antar [0,0, 1.0]. Misalkan data berisi atribut p tipe campuran. Ketidaksamaan (disimilarity ) antara objek i dan j dinyatakan dengan

d ( i , j ) = \frac { \sum _ { f = 1 } ^ { p } \delta _ { i j } ^ { ( f ) } d _ { i j } ^ { ( f ) } } { \sum _ { f = 1 } ^ { p } \delta _ { i j } ^ { ( f ) } }

dimana \delta_{ij}^{f}=0 - jika x_{if} atau x_{jf} adalah hilang (i.e., tidak ada pengukuran dari atribut f untuk objek i atau objek j)

  • jika x_{if}=x_{jf}=0 dan
  • atribut f adalah binary asymmetric,

selain itu \delta_{ij}^{f}=1

Kontribusi dari atribut f untuk dissimilarity antara i dan j (yaitu.d_{ij}^{f}) dihitung bergantung pada tipenya,

  • Jika f adalah numerik, d_{ij}^{f}=\frac{ \|x _{if}-x_{jf}\|}{max_hx_{hf}-min_hx{hf}}, di mana h menjalankan semua nilai objek yang tidak hilang untuk atribut f
  • Jika f adalah nominal atau binary,d_{ij}^{f}=0 jika x_{if}=x_{jf}, sebaliknya d_{ij}^{f}=1
  • Jika f adalah ordinal maka hitung rangking r_{if} dan \mathcal z_{if}=\frac {r_{if}-1}{M_f-1} , dan perlakukan z_{if} sebagai numerik.

Referensi


  1. Cielen, Davy, Arno Meysman, and Mohamed Ali. Introducing data science: big data, machine learning, and more, using Python tools. Manning Publications Co., 2016. 

  2. Shirkhorshidi, Ali Seyed, Saeed Aghabozorgi, and Teh Ying Wah. "A comparison study on similarity and dissimilarity measures in clustering continuous data." PloS one 10.12 (2015): e0144059. 

  3. Li, Chaoqun, and Hongwei Li. "A Survey of Distance Metrics for Nominal Attributes." JSW 5.11 (2010): 1262-1269. 

  4. Han, Jiawei, Jian Pei, and Micheline Kamber. Data mining: concepts and techniques. Elsevier, 2011. 

  5. Wilson, D. Randall, and Tony R. Martinez. "Improved heterogeneous distance functions." Journal of artificial intelligence research 6 (1997): 1-34.