Memahami Data

Memahami Data dan Pengambilan data¶

Macam macam Data¶

Dalam data data scinece dan maha data, Anda akan menemukan banyak jenis data yang berbeda, dan masing-masing cenderung membutuhkan alat dan teknik yang berbeda. Macam macam data dikelompokkan sebagai berikut ¹:

Data terstruktur (structured)
Data tidak terstruktur(unstructured)
Data bahasa alami(Natural Language)
Data yang dibangkit oleh Mesin (Machined-Generated)
Data Audio, Video,Citra
Data Streamming
Data berbasis Graph(Graph-based)

Data Terstruktur¶

Data terstruktur adalah data yang bergantung pada model data dan yang dinyatakan dalam bentuk tabel dengan kolom dan baris. Data terstruktur mudah disimpan dalam database dalam bentuk tabel atau file excel (Ms Office), SQl (Structure Query Language)sehingga mudah dilakukan query terhadap data tersebut. Tetapi realitanya banyak data yang ada dalam dalam bentuk data tidak terstruktur karena data dihasilkan oleh manusia dan mesin

Gambar 2.1 Contoh data terstruktur..

Macam- macam atribut¶

Atribut adalah data yang mewakili karakteristik atau fitur dari objek data. Atribut bisa disebut juga dengan dimensi, fitur, dan variabel yang istilah itu sering digunakan literatur. Dimensi istilah yang biasanya digunakan dalam data warehouse. Dalam literatur pembelajaran mesin cenderung menggunakan istilah fitur, sementara dalam bidang statistik lebih memilih menggunakan istilah variabel. Dalam penambangan data atau data miniing dan database biasa menggunakan istilah atribut atau fitur , dan dalam buku ini juga menggunakan istilah atribut atau fitur. Contoh atribut-atribut yang menggambarkan objek pelanggan dapat mencakup, misalnya ID pelanggan, nama, dan alamat. Nilai yang diamati untuk atribut tertentu dikenal sebagai nilai observasi. Sekumpulan atribut yang digunakan untuk menggambarkan objek disebut disebut dengan vektor atribut (atau vektor fitur. Distribusi data yang hanya melibatkan satu atribut (atau variabel) disebut univariat. Distribusi bivariat melibatkan dua atribut, dan seterusnya. Jenis atribut ditentukan oleh nilai-nilai pada atribut tersebut misal nominal, biner,atau ordinal, atau numerik. Pada subbagian berikut, kami perkenalkan nilai nilai tersebut

Macam macam tipe data atribut

Atribut Nominal

Nilai atribut nominal adalah simbol atau nama barang. Setiap nilai mewakili beberapa jenis kategori, kode, atau status, dan atribut nominal juga disebut kategori. Nilai-nilainya tidak memiliki tingkatan nilai. Dalam ilmu komputer, nilainya juga dikenal sebagai enumerasi

Contoh :

Misalkan warna rambut dan status perkawinan adalah dua atribut dari data orang. Nilai yang mungkin untuk warna rambut adalah hitam, coklat, pirang, merah, hitam pucat, abu-abu, dan putih. Status perkawinan memiliki nilai atribut lajang, menikah, bercerai, dan janda. Baik warna rambut maupun status perkawinan adalah atribut nominal. Contoh lain dari atribut nominal adalah atribut pekerjaan dengan nilai-nilainya adalah guru, dokter gigi, programmer, petani, dan sebagainya

Atribut Biner

Atribut biner adalah atribut nominal dengan hanya memiliki dua kategori atau status: 0 atau 1, di mana 0 biasanya berarti atribut itu tidak ada, dan 1 berarti itu ada. Atribut biner disebut sebagai Boolean jika dinyatakan dengan benar (true) dan salah (false)

Contoh :

Terdapat atribut yang menggambarkan merokok pada pasien, 1 menunjukkan bahwa pasien merokok, sementara 0 menunjukkan bahwa pasien tidak merokok. Demikian pula, seandainya ada pasien menjalani tes medis yang memiliki dua kemungkinan hasil. Atribut tes medis bersifat biner, dengan nilai 1 berarti hasil tes untuk pasien positif, sedangkan 0 berarti hasilnya negatif. Atribut biner simetris jika keduanya memiliki nilai bobot yang sama; Artinya, tidak ada kekhususan mengenai hasil mana yang harus dikodekan sebagai 0 atau 1. Misalkan atribut gender yang dengan nila atributnya laki dan perempuan. Atribut biner adalah asimetris jika hasil dari nilai nilainya tidak sama pentingnya seperti hasil positif dan negatif dari tes medis untuk HIV. Dengan mengkodekan hasil yang paling penting, biasanya 1 (mis., HIV positif) dan yang lainnya dengan 0 (mis., HIV negatif)

Atribut ordinal

Atribut ordinal adalah atribut dengan nilai yang memiliki arti urutan atau peringkat di antara nilai-nilai yang ada, tapi besarnya nilai yang berurutan tersebut tidak diketahui. Ukuran kecenderungan terpusat dari atribut ordinal dapat diwakili oleh modus dan median (nilai tengah), tetapi tidak untuk nilai rata-rata. Perlu diperhatikan bahwa atribut nominal, biner, dan ordinal bersifat kualitatif. Artinya, atribut-atribut tersebut hanya menjelaskan sebuah fitur dari suatu objek tanpa memberikan ukuran atau kuantitas yang sebenarnya. Nilai-nilai atribut kualitatif biasanya merupakan kata-kata yang mewakili kategori

Contoh:

Atribut ordinal misalkan ukuran minuman yang tersedia di sebuah restoran cepat saji. Atribut nominal ini memiliki tiga nilai yang mungkin: kecil, sedang, dan besar. Nilai memiliki arti urutan yang (yang sesuai dengan ukuran minuman). Contoh atribut ordinal lainnya adalah pangkat dan jabatan profesi. Atribut ordinal berguna untuk melakukan penilaian subjektif terhadap kualitas sesuatu objek yang tidak dapat diukur secara obyektif. Atribut ordinal sering digunakan dalam survei untuk peringkat. Dalam satu survei, para peserta diminta untuk menilai tingkat kepuasan mereka sebagai pelanggan. Kepuasan pelanggan memiliki kategori ordinal berikut ini: 0: sangat tidak puas,1: agak tidak puas, 2: netral, 3: puas, dan 4: sangat puas. Atribut ordinal juga dapat diperoleh dari diskritisasi nilai atribut numerik dengan membagi rentang nilai menjadi urutan kategori

Atribut Numerik

Atribut numerik bersifat kuantitatif; Artinya, ini adalah kuantitas yang terukur, yang dinyatakan dengan bilangan bulat atau nilai riel. Atribut numerik terdiri dari atribut skala Interval (interval-scaled) atau skala rasio (ratio-scaled)

Atribut skala interval diukur pada dengan skala unit ukuran yang sama. Nilai - nilai Interval berskala memiliki urutan dan bisa positif, 0, atau negatif. Jadi, selain untuk memberikan peringkat nilai, atribut semacam itu memungkinkan kita untuk membandingkan dan mengukur perbedaan antar nilai

Contoh:

Atribut suhu adalah skala interval. Misalkan kita memiliki nilai suhu di luar ruangan untuk beberapa hari yang berbeda dari suatu objek. Dengan mengurutkan nilai, kita mendapatkan peringkat objek yang berkenaan dengan suhu. Selain itu, kita bisa mengukur perbedaan antara nilai. Misalnya, a suhu $20^0$ C adalah lima derajat lebih tinggi dari suhu $15^0$ C. Contoh lainnya adlah kalender tahun. Misalnya, tahun 2002 dan 2010 terpisah delapan tahun. Karena atribut skala interval adalah numerik, kita dapat menghitung nilai rata-rata, ukuran median dan modus dari kecenderungan terpusat

Atribut Skala Ratio Atribut skala rasio adalah atribut numerik dengan melekat titik nol pada nilai atribut tersebut. Artinya, jika pengukuran adalah berskala rasio, kita dapat dapat mengatakan berapa kali dari nilai yang lain atau rasio dari nilai yang lain. Selain itu, nilai yang dipesan, dan kita juga bisa menghitung selisih antara nilai, serta mean, median, dan modus

Contoh

Atribut tentang pengukuran berat badan, tinggi badan, jumlah kata dalam dokumen

Data Tidak Terstruktur¶

Data tidak terstruktur adalah data yang tidak mudah dimasukkan ke dalam model data karena isi/kontennya spesifik atau bervariasi. Salah satu contoh data tidak terstruktur adalah data email. Meskipun email berisi elemen terstruktur seperti pengirim, judul, dan isi teks, terlalu banyak variasi dari isi yang terkandung dalamnya diantaranya dialek bahasa yang dipakai dan sebagainya. Email juga salah satu contoh data bahasa alami

Gambar 2.2 Contoh Data email

Bahasa Alami¶

Dalam neuropsikologi , linguistik , dan filsafat bahasa , bahasa alami atau bahasa biasa adalah bahasa yang telah berevolusi secara alami pada manusia melalui penggunaan dan pengulangan tanpa perencanaan. Bahasa alami berbeda dengan bahasa yang dibangun untuk pemrograman komputer atau membangun logika nalar. Bahasa alami dikenal sebagai bahasa manusia misal bahasa indonesia, bahasa inggris dan lain lain. Didalam pemrosesan bahasa alami diperluangan pengetahuan ilmu linguistics, semantics, statistics dan machine learning. Dengan pemrosesan bahasa alami membantu komputer untuk memahami bahasa yang telah diucapkan oleh manusia

Data yang dibangkitkan oleh Mesin¶

Data yang dibangkitkan oleh mesin secara otomatis tanpa intervensi manusia. Data ini terus menerus dibangkitkan selama proses tertentu sedang berjalan. Misalkan data weblog dari mesin server yang dihasilkan dari hasil transaksi user dengan sistem web. Contoh lain adalah data yang dihasilkan dari implementasi internet of things misal perekaman suhu udara dan kelembaban udara dari daerah tertentu yang terhubung dengan pusat penyimpanan data tersebut.

Gambar 2.3 Contoh Data weblog (https://www.iri.com/blog/migration/data-migration/clf-elf-web-log-formats/)

Data jaringan atau data berbasis Graph¶

Data graph adalah data yang dinyatakan dengan graph yang dalam matematika mengacu pada konsep teori graph. Data ini menunjukkan keterhubungan antara objek-objek atau relasi antar objek-objek dengan menggunakan struktur node, edge, dan karakteristik/sifat keterhubungan antar objek tersebut. Salah satu data graph adalah data keterhubungan orang dalam media sosial. Dengan memanfaatkan data graph media sosial kita dapat mengukur ukuran ukuran tertentu berdasarkan struktur yang dibentuknya. Misalkan menentukan pengaruh orang dalam struktur jaringan tersebut, apakah termasuk orang penting/berpengaruh atau bukan. Gambar berikut menunjukkan contoh data graph

Gambar 2.4 .Pertemanan dalam media sosial yang dinyataka dengan data graph

Database graph dapat digunakan untuk menyimpan data berbasis graph dan mengunakan query tertentu yaitu SPARQL

Data Audio, Video dan Citra¶

Dengan perkembangan teknologi multimedia yang sangat pesat saat ini ,data audio, video dan citra cukup besar dihasilkan dari transaksi bisnis. Dengan besarnya data yang dihasilkan membutuhkan proses pengolahan spesifik dari data tersebut untuk dimanfaatkan terutama dalam analisa data sain. Diantara pemanfaatan data mulitimedia tersebut adalah pengenalan objek, pengenala suara, segmentasi citra satelit dan banyak analisa lain yang dihasilkan dari data multimeda tersebut.

Data streamming¶

Data streaming adalah data yang dihasilkan secara terus-menerus oleh ribuan sumber data, yang biasanya mengirimkan catatan data secara bersamaan, dan dalam ukuran kecil (urutan kilobyte). Data streaming mencakup berbagai macam data seperti logfile yang dihasilkan oleh pelanggan aplikasi seluler atau website Anda, transaksi e-commerce, informasi dari jejaring sosial, data geospasial, dan perangkat sensor yang terhubung atau instrumentasi di pusat data.

Data ini perlu diproses secara berurutan dan bertahap secara record-by-record digunakan untuk berbagai macam analisis misalkan korelasi, agregasi, penyaringan, dan pengambilan sampel. Informasi yang diperoleh dari analisis tersebut memberikan petunjuk terhadap pelanggan mereka seperti penggunaan layanan mereka, aktivitas server, klik website, dan lain lain. Misalnya, dalam bisnis kita dapat melacak perubahan sentimen publik pada merek dan produk mereka dengan menganalisis aliran data media sosial, sehingga dapat merespons secara tepat, waktu dan tindakan yang harus dilakukan

Distribusi Data¶

Karakteristik utama dari data adalah distribusi probabilitasnya. Distribusi data yang paling dikenal adalah distribusi normal atau Gaussian. Distribusi ini ditemukan pada sistem fisik dimana data dibangkitkan secara acak. Fungsi dinyatakan dalam bentuk fungsi padat probabilitas (probability density function)

$f ( x ) = \frac { 1 } { ( \sigma \sqrt { 2 } \pi ) } \frac { e ^ { - ( x - \mu ) ^ { 2 } } } { ( 2 \sigma ^ { 2 } ) } \hspace{10em} (1)$ Dimana $\sigma$ adalah standar deviasi dan $\mu$ adalah mean. Persamaan ini menyatakan peluang variable acak dari suatu data $x$ . Kita menyatakan standar deviasi sebagai lebar kurva lonceng dan rata rata sebagai pusat. Kadangkala istilah variance digunakan dan ini adalah kuadrat dari standar deviasi. Standar deviasi pada dasarnya mengukur bagaimana sebaran data.

Untuk memahami lebih jelasnya bagaimana fungsi tersebut digambarkan, berikut implementasinya data dengan distribusi normal yang memiliki rata-rata 1 dan variansinya 0.5

Gambar 2.4. Distribusi Data

mu = 1 # rata-rata
sigma =np.sqrt(0.5) # standar deviasi (akar dari varians)
s = np.random.normal(mu, sigma, 1000) # membangkitkan 1000 bilangan acak dgn distribusi norma
import matplotlib.pyplot as plt

plt.plot(bins, 1/(sigma * np.sqrt(2 * np.pi)) * np.exp( - (bins - mu)**2 / (2 * sigma**2) ),linewidth=2, color='blue')
plt.show()

Ekplorasi data tipe Numerik¶

Pada bagian ini kita membahas metode statistik dasar untuk analisis ekplorasi data atribut numerik. Kita membahas ukuran kecenderungan pusat (central tendency), ukuran dispersi atau sebaran, dan ukuran ketergantungan linier atau hubungan antara atribut. Kita menekankan hubungan antara probabilistik dan geometris dan aljabar dari sudut pandang data matriks

Analisa univariat¶

Analisis univariat dilakukan pada atribut tunggal ( $X$ ); dengan demikian matriks data D bisa dianggap sebagai matriks $n × 1$ , atau sebagai vektor kolom, yang dinyatakan dengan

$X=\begin {pmatrix} \begin{array} { c } { X } \\ \hline x _ { 1 } \\ { x _ { 2 } } \\ { \vdots } \\ { x _ { n } } \end{array} \end {pmatrix} \hspace{10em} (2)$

dimana $X$ adalah atribut numerik yang dimaksudkan, dengan $x_i \in \mathbb R$ . $X$ diasumsikan adalah variabel acak, dengan setiap titik $x_i(1\leq i \leq n)$ , merupakan variabel acak. Asumsikan bahwa data yang diamati adalah sampel acak yang diambil dari $X$ , artinya, setiap variabel $x_i$ adalah saling bebas dan berdistribusi sama (iid). Dalam sudut pandang vektor, kita dapat memperlakukan sampel sebagai vektor n-dimensi, dan menulis $X \in \mathbb R^n$

Secara umum, fungsi padat probabilitas atau fungsi massa $f(x)$ dan fungsi distribusi kumulatif $F(x)$ untuk atribut $X$ keduanya tidak diketahui. Akan tetapi, kita dapat mengestimasi distribusi ini langsung dari data sample, juga memungkinkan kita untuk menghitung beberapa parameter penting populasi.

Secara umum, fungsi padat probabilitas atau fungsi massa $f(x)$ dan fungsi distribusi kumulatif $F(x)$ untuk $F ^ { - 1 } ( q ) = \operatorname { min } { x | \hat { F } ( x ) \geq q } \quad \text { for } q \in [ 0,1 ]$ atribut $X$ keduanya tidak diketahui. Akan tetapi, kita dapat mengestimasi distribusi ini langsung dari data sample, juga juga memungkinkan kita untuk menghitung beberapa parameter penting populasi.

Fungsi distribusi Kumulatif Empiris¶

Fungsi distribusi kumulatif empiris (CDF ) dari $X$ dinyatakan dengan

$\hat { F } ( x ) = \frac { 1 } { n } \sum _ { i = 1 } ^ { n } I ( x _ { i } \leq x ) \hspace{10em} (3)$ dimana

$I(x_i\le x)=\Biggl\{\begin{array}={} 1 & {\text {if }x_i\le x }\\ 0 & {\text {if }x_i > x}\end{array}$

adalah variabel indikator biner yang menyatakan variabel indikator biner yang menunjukkan apakah kondisi yang diberikan terpenuhi atau tidak.

Fungsi distribusi kumulatif Invers¶

Definisi fungsi distribusi kumulatif invers atau fungsi quantile untuk variabel acak sebagai berikut : $F ^ { - 1 } ( q ) = \operatorname { min } \{ x | \hat { F } ( x ) \geq q \} \quad \text { for } q \in [ 0,1 ] \hspace{10em} (4)$ Fungsi distribusi kumulatif Invers empiris dapat diperoleh dari persamaan (3)

Fungsi massa Probabilitas Empiris¶

Fungsi massa probabilitas empiris dari dinyatakan dengan $\hat { f } ( x ) = P ( X = x ) = \frac { 1 } { n } \sum _ { i = 1 } ^ { n } I ( x _ { i } = x ) \hspace{10em} (5)$ dimana

$I(x_i\le x)=\Biggl\{\begin{array}={} 1 & {\text {if }x_i= x }\\ 0 & {\text {if }x_i \neq x}\end{array}$

Fungsi massa probabilitas empiris juga menempatkan massa probabitas $\frac {1}{n}$ pada setipa titik $x_i$

Mengukur kecenduran terpusat¶

Ukuran ini memberikan indikasi tentang konsentrasi massa probabilitas , nilai tengah dan lainnya.

Mean¶

Mean juga disebut dengan nilai harapan dari variabel acak $X$ yang berarti rata rata aritmetika dari nilai $X$ . Mean adalah salah satu dari kecenderungan terpusat dari $X$ .

Mean atau nilai harapan dari variabel acak didefinisikan dengan $\mu = E [ X ] = \sum _ { x } x f ( x ) \hspace{10em} (6)$ diman $f(x)$ adalah fungsi massa probabilitas dari $X$ .

Nilai harapan dari variabel acak kontinu dinyakan dengan $\mu = E [ X ] = \int _ { - \infty } ^ { \infty } x f ( x ) d x \hspace{10em} (7)$ dimana $f(x)$ adalah fungsi padat probabilitas dari $X$ .

Sample Mean. Sample mean adalah statistik, yaitu fungsi , didefinisikan sebagai nilai rata-rata dari : $\hat { \mu } = \frac { 1 } { n } \sum _ { i = 1 } ^ { n } x _ { i } \hspace{10em} (8)$ Sample mean dipakai sebagai pengestimasi nilai mean yang tidak diketahui dari . Nilai tersebut diperoleh dengan memasukkan dalam fungsi massa probabilitas empiris dalam persamaan (6) $\hat { \mu } = \sum _ { x } x \hat { f } ( x ) = \sum _ { x } x ( \frac { 1 } { n } \sum _ { i = 1 } ^ { n } I ( x _ { i } = x ) ) = \frac { 1 } { n } \sum _ { i = 1 } ^ { n } x _ { i } \hspace{10em} (9)$ Sample mean adalah tidak bias . Estimator $\hat { \theta }$ disebut dengan unbiased estimator (stimator tidak bias) untuk parameter $\theta$ jika untuk setiap kemungkinan nilai dari . Sample mean adalah unbiased estimator untuk mean populasi sehingga $E [ \hat { \mu } ] = E [ \frac { 1 } { n } \sum _ { i = 1 } ^ { n } x _ { i } ] = \frac { 1 } { n } \sum _ { i = 1 } ^ { n } E [ x _ { i } ] = \frac { 1 } { n } \sum _ { i = 1 } ^ { n } \mu = \mu \hspace{10em} (10)$ dengan variabel acak $x_i$ adalah independent and identically distributed (iid) dengan $X$ , yang berarti memiliki rata-rata $\mu$ yang sama seperti $X$ , yaitu,$ E [x_i] =\mu$ untuk semua $x_i$ . Kita juga menggunakan fakta bahwa fungsi ekpektasi $E$ adalah linier operator yaitu untuk suatu dua bilangan acak $X$ dan $Y$ dan bilangan real $a$ dan $b$ , kita memiliki $E [ a X + b Y ] = a E [ X ] + b E [ Y ]$

Robustnes Kita mengatakan bahwa statistik adalah robust jika tidak dipengaruhi oleh suatu nilai ekstrim ( misal outlier/pencilan) dalam data. Akan tetapi rata-rata sample tidak robust pada nilai pencilan (outlier) , sehingga dengan adanya data pencilan menjadikan rata-rata bisa jadi bukan rata-rata yang sebenarnya. Ukuran yang lebih robust adalah trimmed mean yang didapatkan setalah mengabaikan sebagian kecil dari nilai nilai ekstrim pada salah satu ujungnya.

Median¶

Median dari suatu variabel acak didefinisikan dengan nilai sehingga $P ( X \leq m ) \geq \frac { 1 } { 2 } \text { and } P ( X \geq m ) \geq \frac { 1 } { 2 } \hspace{10em} (11)$ Dengan kata lain, median adalah nilai paling tengah (middle-most). Dalam istliah (invers) fungsi distribusi kumulatif, median dinyatakan dengan $F ( m ) = 0.5 \text { or } m = F ^ { - 1 } ( 0.5 )$ Sample median dapat diperoleh dari Fungsi distribusi kumulatif invers atau fungsi distribusi kumulatif invers empiris dengan dihitung $\hat { F } ( m ) = 0.5 \text { atau } m = \hat { F } ^ { - 1 } ( 0.5 )$ Pendekatan paling sederhana untuk menghitung sample median adalah dengan mengurutkan semua nilai $x_i$ $(i \in [1,n])$ dengan urutan naik. Jika $n$ adalah ganjil , media adalah nilai pada posisi $\frac {n+1}{2}$ . Jika $n$ adalah genap, nilai padan posisi $\frac {n}{2}$ dan $\frac {n}{2}+1$ adalah keduanya median.

Tidak seperti mean, median adalah robust, sehingga ia tidak dipengaruhi oleh banyaknya nilai extrim.

Mode¶

Nilai mode dari variabel acak adalah nilai dimana fungsi massa probabilitas atau fungsi padat probabilitas mencapai nilai maximumnya, bergantung pada apakah $X$ adalah diskrit atau kontinu.

Sample mode adalah nila untuk fungsi probabilitas empiris mencapai nilai maksimum, dinyatakan dengan $mode(X) =\arg \underset{x}{max} \ {\hat f(x)}$ Mode ini mungkin bukan ukuran kecenderungan sentral yang sangat berguna untuk sampel, karena kemungkinan elemen yang tidak representatif menjadi elemen yang paling sering muncul. Selanjutnya, jika semua nilai dalam sampel berbeda, maka masing-masing akan menjadi mode

Contoh. (Sample Mean, Median, dan Mode). Perhatikan atribut sepal length dalam data iris. Data iris, bisa dilihat di sumber data website ini.Sample mean dinyatakan dengan $\hat { \mu } = \frac { 1 } { 150 } ( 5.9 + 6.9 + \cdots + 7.7 + 5.1 ) = \frac { 876.5 } { 150 } = 5.843$ Gambar 2.5 menunjukkan semua dari 150 nilai sepal length dan sample mean. Gambar 2.6a menunjukkan fungsi distribusi kumulatif empiri dan gambar 2.6b menunjukkan fungsi distribusi kumulatif empiris untuk sepal length

Karena adalah genap, sample median adalah nilai pada posisi dan setelah diurutkan. Untuk sepal length kedua nilainya adalah 5.8, kemudian sample media adalah 5.8 . Dari fungsi distribusi kumulatif invers dalam gambar 2.6b, kita dapat melihat bahwa
$\hat { F } ( 5.8 ) = 0.5 \text { or } 5.8 = \hat { F } ^ { - 1 } ( 0.5 )$

Sample mode untuk sepal length adalah 5. yang dapat dilihat dari frequency dari 5 dalam gambar 2.5. Massa probabilitas empiris pada adalah $\hat { f } ( 5 ) = \frac { 10 } { 150 } = 0.067$

Gambar 2.5 Kemunculan nilai nilai variabel sepal length. Tumpukan menunjukkan nilai yang sama.

Gambar 2.6a Frekwensi distribusi kumulatif empiris variabel sepal length

Gambar 2.6b Invers Frekwensi distribusi kumulatif variabel sepal length

Mengukur Sebaran Data¶

Kita sekarang membahas ukuran ukuran untuk menilai dispersi atau penyebaran data numerik. Ukuran-ukuran itu adalah rentang (range), kuantil, kuartil, persentil, dan rentang interkuartil. Semua itu adalah ringkasan lima angka, yang dapat ditunjukkan dengan boxplot, berguna dalam mengidentifikasi pencilan (outlier). Varians dan standar deviasi juga menunjukkan sebaran distribusi data.

Rentang (Range), Quartil, and Rentang Interquartile¶

Misalkan $x_1, x_2, .. x_N$ adalah sekumpulan pengamatan untuk atribut numerik, $X$ . Rentang adalah selisih antara nilai terbesar (maks ()) dan terkecil (min ()). Misalkan data untuk atribut X diurutkan dalam urutan naik.Bagilah data berdasarkan titik titik tertentu sehingga membagi distribusi data ukuran yang sama, seperti pada Gambar dibawah. Titik data ini disebut kuantil. 2-quantile adalah titik data yang membagi bagian bawah dan atas dari distribusi data. Ini sama dengan median. 4-kuantil adalah tiga titik data yang membagi distribusi data menjadi empat bagian yang sama; setiap bagian mewakili seperempat dari distribusi data. Ini lebih sering disebut sebagai kuartil. 100-kuantil lebih sering disebut sebagai persentil; mereka membagi distribusi data menjadi 100 data berukuran sama. Median, kuartil, dan persentil adalah bentuk kuantil yang paling banyak digunakan.

Gambar 2.7. Percentile data

Kuartil memberikan gambaran pusat distribusi, penyebaran, dan bentuk distribusi. Kuartil satu, dilambangkan oleh Q1, adalah persentil ke-25. Nilai ini menunjukan 25% terendah dari data. Kuartil ketiga, dilambangkan oleh Q3, adalah persentil ke-75 - itu memisahkan data 75% dari terendah data (atau 25% dari tertinggi data. Kuartil kedua adalah persentil ke-50 atau median dari distribusi data.

Jarak antara kuartil pertama dan ketiga adalah ukuran yang menyatakan rentang yang dicakup oleh bagian tengah data. Jarak ini disebut rentang interkuartil (IQR) dan dinyatakan dengan

$I Q R = Q _ { 3 } - Q _ { 1 }$

Dengan ukuran kuartil Q1 dan Q3, dan median kita dapat mengidentifikasikan ada tidaknya pencilan (outlier) pada suatu data. Data pencilan atau outlier nilai data biasanya ada di setidaknya 1,5 × IQR di atas kuartil ketiga atau di bawah kuartil pertama

Karena Q1, median, dan Q3 tidak berisi informasi tentang titik akhir data, ringkasan yang lebih lengkap dari bentuk distribusi dapat diperoleh dengan memberikan nilai data terendah dan tertinggi . Ini dikenal sebagai ringkasan lima nilai. Ringkasan lima nilai adistribusi terdiri dari median (Q2), kuartil Q1 dan Q3, dan data terkecil dan terbesar( Minimum, Q1, Median, Q3, Maksimum)

Boxplots adalah cara populer untuk memvisualisasikan distribusi. Boxplot menggabungkan ringkasan lima nilai tersebut sebagai berikut: - Ujung kotak adalah kuartil dan panjang kotak adalah rentang interkuartil. - Median ditandai dengan garis di dalam kotak. - Dua garis (disebut whiskers) di luar kotak memanjang ke pengamatan terkecil (Minimum) dan terbesar (Maksimum)

Outlier biasanya ada di dibawah $Q_1 – 1.5 \times IQR$ dan diatas $Q_3 + 1.5 \times IQR$

Gambar 2.8. Boxplot

Variansi dan Standar Deviasi¶

Variansi dan standar deviasi adalah ukuran penyebaran data. Nilai-nilai tersebut menunjukkan bagaimana penyebaran distribusi data. Standar Deviasi yang rendah berarti bahwa pengamatan data cenderung sangat dekat dengan rata-rata, sedangkan standar deviasi yang tinggi menunjukkan data tersebar di sejumlah nilai-nilai besar.

Varian dari pengamatan $N, x_1, x_2, ..., x_N$ , untuk atribut numerik X adalah

$\sigma ^ { 2 } = \frac { 1 } { N } \sum _ { i = 1 } ^ { N } ( x _ { i } - \overline { x } ) ^ { 2 } = ( \frac { 1 } { N } \sum _ { i = 1 } ^ { N } x _ { i } ^ { 2 } ) - \overline { x } ^ { 2 }\hspace{10em} (11.a)$

di mana $ \overline { x } $ adalah nilai rata-rata dari pengamatan, Standar deviasi $\sigma $ dari pengamatan adalah akar kuadrat dari variansi, $\sigma^2$

Sifat dasar dari standar deviasi, $\sigma$ , sebagai ukuran penyebaran data adalah sebagai berikut:

Ukuran $\sigma$ mengukur sebaran disekitar rata-rata dan harus dipertimbangkan bila rata-rata dipilih sebagai ukuran pusat data
$\sigma = 0$ hanya jika tidak ada penyebaran data, hanya terjadi bila semua pengamatan memiliki nilai sama, Jika tidak maka $\sigma > 0$

Skewness¶

Derajat distorsi dari kurva lonceng simetris atau distribusi normal. Untuk mengukur kurang tidak simetrisnya distribusi data Untuk menghitung derajat distorisi dapat menggunakan Koefisien Kemencengan Pearson yang diperoleh dengan menggunakan nilai selisih rata-rata dengan modus dibagi simpangan baku. Koefisien Kemencengan Pearson dirumuskan sebagai berikut $s k=\frac{\overline{X}-M o}{s}$

dengan $\overline{X}-M o \approx 3(\overline{X}-M e)$

maka

$s k \approx \frac{3(\overline{X}-M e)}{s}$

Gambar 2.9 Macam macam Kemiringan data (Skewness)

Implementasi¶

Untuk implementasi silahkan unduh data

import pandas as pd
from scipy import stats
df=pd.read_csv("data.csv",usecols=[0])

print("jumlah data  ",df['NilaiPreTest'].count())
print("rata-rata   ",df['NilaiPreTest'].mean())
print("nila minimal ",df['NilaiPreTest'].min())
print("Q1       ",df['NilaiPreTest'].quantile(0.25))
print("Q2          ",df['NilaiPreTest'].quantile(0.5))
print("Q3          ",df['NilaiPreTest'].quantile(0.75))
print("Nilai Max   ",df['NilaiPreTest'].max())
print("kemencengan","{0:.2f}".format(round(df['NilaiPreTest'].skew(),2)))
mode=stats.mode(df)
print("Nilai modus {} dengan jumlah {}".format(mode.mode[0], mode.count[0]))
print("kemencengan          " ,"{0:.6f}".format(round(df['NilaiPreTest'].skew(),6)))
print("Standar Deviasi   ","{0:.2f}".format(round(df['NilaiPreTest'].std(),2)))
print("Variansi         ","{0:.2f}".format(round(df['NilaiPreTest'].var(),2)))

Analisa Bivariate¶

Dalam analisa bivariate, kita memandang dua atribut pada waktu yang sama. Kita fokus untuk memahami keterkaitan atau kebergantungan antara dua variabel atau atribut tersebut. Kita membatasi pada dua variabel $X_1$ dan $X_2$ , dengan $D$ dinyatakan sebagai matrik dengan ukuran $n\times2$

$X=\begin {pmatrix} \begin{array}{ c c } { X _ { 1 } } & { X _ { 2 } } \\ \hline x _ { 11 } & { x _ { 12 } } \\ { x _ { 21 } } & { x _ { 22 } } \\ { \vdots } & { \vdots } \\ { x _ { n 1 } } & { x _ { n 2 } } \end{array} \end {pmatrix}$

Secara geometri, kita dapat memandang $D$ dalam dua cara. Itu dapat dianggap sebagai $n$ titik atau vektor dalam 2-ruang dimensi terhadap atribut $X_1$ dan yaitu .Selain itu dapat dilihat sebagai 2 titik atau vektor dalam -ruang dimensi yang berisi titik, yaitu setiap kolom adalah vektor dalam sebagai berikut : $\left. \begin{array} { l } { X _ { 1 } = ( x _ { 11 } , x _ { 21 } , \ldots , x _ { n 1 } ) ^ { T } } \end{array} \right.$

$\left. \begin{array} { l } { X _ { 2 } = ( x _ { 12 } , x _ { 22 } , \ldots , x _ { n 2 } ) ^ { T } } \end{array} \right.$

Dalam sudut pandang probabilistik, vektor kolom $X=(X_1,X_2)^T$ dianggap variabel acak bivariate dan titik titik $x _ { i } ( 1 \leq i \leq n )$ dinyatakan sebagai sampel acak yang diperoleh dari $X$ , yaitu $x_i$ dianggap independent and identically distributed (iid) seperti $X$ .

Fungsi Massa Probabilitas Gabungan Empiris¶

Fungsi Massa Probabilitas Gabungan Empiris untuk dinyatakan dengan $\hat { f } ( x ) = P ( X = x ) = \frac { 1 } { n } \sum _ { i = 1 } ^ { n } I ( x _ { i } = x ) \hspace{10em} (12)$

$\hat { f } ( x _ { 1 } , x _ { 2 } ) = P ( X _ { 1 } = x _ { 1 } , X _ { 2 } = x _ { 2 } ) = \frac { 1 } { n } \sum _ { i = 1 } ^ { n } I ( x _ { i 1 } = x _ { 1 } , x _ { i 2 } = x _ { 2 } )$

dimana $I$ adalah variabel indikator yang bernilai 1 jika argumen argumennya benar

$I ( x _ { i } = x ) = \left\{ \begin{array} { l l } { 1 } & { \text { jika } x _ { i 1 } = x _ { 1 } \text { dan } x _ { i 2 } = x _ { 2 } } \\ { 0 } & { \text { untuk yang lainnya } } \end{array} \right.$

Seperti dalam kasus univariate, fungsi probabilitas menempatkan massa probabilitas $\frac {1}{n}$ pada setiap objek dalam data sampel.

Mengukur Dispersi¶

Mean¶

Rata rata bivariate didefinisikan sebagai nilai harapan dari variabel acak vektor , didefinisikan sebagai berikut : $\mu = E [ X ] = E \left[ \left( \begin{array} { l } { X _ { 1 } } \\ { X _ { 2 } } \end{array} \right) \right] = \left( \begin{array} { l } { E [ X _ { 1 } ] } \\ { E [ X _ { 2 } ] } \end{array} \right) = \left( \begin{array} { l } { \mu _ { 1 } } \\ { \mu _ { 2 } } \end{array} \right)$

Dengan kata lain, rata-rata bivariate adalah nilai harapan dari masing masing atribut.

Rata-rata sampel dapat diperoleh dari dan , fungsi massa probabilitas empiris dari dan , menggunakan persamaan (8). Dapat juga dihitung dari gabungan fungsi massa probabilitas empiris dalam persamaan (12) $\hat { \mu } = \sum _ { x } x \hat { f } ( x ) = \sum _ { x } x \left( \frac { 1 } { n } \sum _ { i = 1 } ^ { n } I ( x _ { i } = x )\right ) = \frac { 1 } { n } \sum _ { i = 1 } ^ { n } x _ { i }$

Variansi¶

Kita dapat menghitung variansi masing masing atribut, yaitu untuk dan untuk mengggunkan persamaan (11.a). Variansi secara keseluruhan dinyatakan dengan $var(D)=\sigma_1^2 +\sigma_2^2$ Variansi sampel $\hat \sigma_1^2 + \hat \sigma_2^2$ dapat diestimasi dn jumlah variansi sample adalah $\sigma_1^2 +\sigma_2^2$

Mengukur keterkaitan¶

Covarian¶

Kovarian antara dua atribut dan mengukur keterkaitan antara kebergantungan linier diantaranya dan didefinisikan dengan $\sigma _ { 12 } = E [ ( X _ { 1 } - \mu _ { 1 } ) ( X _ { 2 } - \mu _ { 2 } ) ]$ Dengan linieraritas dari harapan, kita miliki $\left. \begin{array}{l}{ \sigma _ { 12 } = E [ ( X _ { 1 } - \mu _ { 1 } ) ( X _ { 2 } - \mu _ { 2 } ) ] }\\{ = E [ X _ { 1 } X _ { 2 } - X _ { 1 } \mu _ { 2 } - X _ { 2 } \mu _ { 1 } + \mu _ { 1 } \mu _ { 2 } ] }\\{ = E [ X _ { 1 } X _ { 2 } ] - \mu _ { 2 } E [ X _ { 1 } ] - \mu _ { 1 } E [ X _ { 2 } ] + \mu _ { 1 } \mu _ { 2 } }\\{ = E [ X _ { 1 } X _ { 2 } ] - \mu _ { 1 } \mu _ { 2 } }\\{ = E [ X _ { 1 } X _ { 2 } ] - E [ X _ { 1 } ] E [ X _ { 2 } ] }\end{array} \right.$

Jika $X_1$ dan adalah variabel acak saling bebas, maka kita dapat simpulkan bahwa covariannya adalah nol. Ini karena jika dan adalah saling bebas, maka kita memiliki
$E [ X _ { 1 } X _ { 2 } ] = E [ X _ { 1 } ] \cdot E [ X _ { 2 } ]$ yang pada akhirnya menyiratkan bahwa $\sigma{12}= 0$

Namaun sebaliknya tidak benar. Yaitu jika , kita tidak dapat mengklaim bahwa $X_1 $ dan adalah saling bebas. Semuanya kita katakan bahwa tidak adalah kebergantung linier antara keduanya. Kovarian sampel antra dan dinyatakan dengan $\hat { \sigma } _ { 12 } = \frac { 1 } { n } \sum _ { i = 1 } ^ { n } ( x _ { i 1 } - \hat { \mu } _ { 1 } ) ( x _ { i 2 } - \hat { \mu } _ { 2 } )$

Korelasi¶

Korelasi antara variabel $X_1$ dan $X_2$ adalah standarisasi kovarian, yang didapatkan dengan menormalisasi kovarian dengan standar deviasi masing masing variabel dinyatakan dengan

$\rho _ { 12 } = \frac { \sigma _ { 12 } } { \sigma _ { 1 } \sigma _ { 2 } } = \frac { \sigma _ { 12 } } { \sqrt { \sigma _ { 1 } ^ { 2 } \sigma _ { 2 } ^ { 2 } } }$ Korelasi sample untuk atribut $X_1$ dan $X_2$ dinyatakan dengan

$\hat { \rho } _ { 12 } = \frac { \hat { \sigma } _ { 12 } } { \hat { \sigma } _ { 1 } \hat { \sigma } _ { 2 } } = \frac { \sum _ { i = 1 } ^ { n } ( x _ { i 1 } - \hat { \mu } _ { 1 } ) ( x _ { i 2 } - \hat { \mu } _ { 2 } ) } { \sqrt { \sum _ { i = 1 } ^ { n } ( x _ { i 1 } - \hat { \mu } _ { 1 } ) ^ { 2 } \sum _ { i = 1 } ^ { m } ( x _ { i 2 } - \hat { \mu } _ { 2 } ) ^ { 2 } } }$

Matrik Kovarian¶

Variansi dari untuk dua atribut dan dapat diringkas dalam matrik covarianse bujursangkar denga ukuran $2 \times 2 $ dinyatakan dengan $\left. \begin{array}{l}{ \Sigma = E [ ( X - \mu ) ( X - \mu ) ^ { T } ] }\\{ = E \left[ \left( \begin{array} { c } { X _ { 1 } - \mu _ { 1 } } \\ { X _ { 2 } - \mu _ { 2 } } \end{array} \right) ( X _ { 1 } - \mu _ { 1 } \quad X _ { 2 } - \mu _ { 2 } ) \right ] }\\{ = \left( \begin{array} { c c } { E [ ( X _ { 1 } - \mu _ { 1 } ) ( X _ { 1 } - \mu _ { 1 } ) ] } & { E [ ( X _ { 1 } - \mu _ { 1 } ) ( X _ { 2 } - \mu _ { 2 } ) ] } \\ { E [ ( X _ { 2 } - \mu _ { 2 } ) ( X _ { 1 } - \mu _ { 1 } ) ] } & { E [ ( X _ { 2 } - \mu _ { 2 } ) ( X _ { 2 } - \mu _ { 2 } ) ] } \end{array} \right) }\\{ = \left( \begin{array} { c c } { \sigma _ { 1 } ^ { 2 } } & { \sigma _ { 12 } } \\ { \sigma _ { 21 } } & { \sigma _ { 2 } ^ { 2 } } \end{array} \right) }\end{array} \right.$ Karena $\sigma_{12}=\sigma_{21}$ , adalah matrik simetris. Matrik vovarian merekam variansi tertentu atribut pada diagonal utamanya, dan informasi covarian pada elemen element bukan diagonal. Total variance dari dua atribut dinyatakan sebagai jumlah elemen elemen diagonal dari , yang juga disebut trace dari dinyatakan dengan $\operatorname { var } ( D ) = \operatorname { tr } ( \Sigma ) = \sigma _ { 1 } ^ { 2 } + \sigma _ { 2 } ^ { 2 }$ Kita segera memiliki $tr(\Sigma)\geq0$

Secara umum covarian adalah non-negatif, karena $| \Sigma | = \operatorname { det } ( \Sigma ) = \sigma _ { 1 } ^ { 2 } \sigma _ { 2 } ^ { 2 } - \sigma _ { 12 } ^ { 2 } = \sigma _ { 1 } ^ { 2 } \sigma _ { 2 } ^ { 2 } - \rho _ { 12 } ^ { 2 } \sigma _ { 1 } ^ { 2 } \sigma _ { 2 } ^ { 2 } = ( 1 - \rho _ { 12 } ^ { 2 } ) \sigma _ { 1 } ^ { 2 } \sigma _ { 2 } ^ { 2 }$

dimana kitu gunakan persamaan sebelumnya, yaitu $\rho_{12},\sigma_1,\sigma_2$ . dengan $|\Sigma|$ adalah determinan dari matrik kovarian. Perhatikan bahwa $|\rho_{12}|\leq 1$ menyebabkan $\rho_{12}^2 \leq 1$ sehingga det $(\Sigma) \geq 1$ oleh karena itu determinannya adalah non-negative.

Matrik kovarian sampel dinyatakan dengan $\hat { \Sigma } = \left( \begin{array} { l l } { \hat { \sigma } _ { 1 } ^ { 2 } } & { \hat { \sigma } _ { 12 } } \\ { \hat { \sigma } _ { 12 } } & { \hat { \sigma } _ { 2 } ^ { 2 } } \end{array} \right)$ Matrik kovarian sampe $ \hat \Sigma$ memilki karakteristik sama seperti $\Sigma$ , yaitu simetris dan $|\hat \Sigma| \geq 0$ dan itu dapat digunakan untum memudahkan mendapatkan total sampel dan variansi secara umum

Contoh (Rata rata Sampel dan Covarian)

Perhatikan atribut sepal length dan sepal width untuk data iris

Ada n=150 data dalam ruang dimensi. Rata rata sampel adalah $\hat { \mu } = \left( \begin{array} { l } { 5.843 } \\ { 3.054 } \end{array} \right)$ Matrik covarian dinyatakan dengan $\hat { \Sigma } = \left( \begin{array} { r r } { 0.681 } & { - 0.039 } \\ { - 0.039 } & { 0.187 } \end{array} \right)$ Variansi untuk sepal length adalah dan sepal width adalah . Covarian antara dua atribut adalah dan korelasi antara dua atribut tersebut adalah $\hat { \rho } _ { 12 } = \frac { - 0.039 } { \sqrt { 0.681 \cdot 0.187 } } = - 0.109$ Lalu, ada korelasi yang sangat lemah antara dua atribut tersebut

Total variansi sampel dinyatakan dengan $\operatorname { tr } ( \hat { \Sigma } ) = 0.681 + 0.187 = 0.868$ dan variansi secara umum dinyatakan dengan $\hat { \Sigma } | = \operatorname { det } ( \hat { \Sigma } ) = 0.681 \cdot 0.187 - ( - 0.039 ) ^ { 2 } = 0.126$

Analisa Multivariate¶

Dalam analisa multivariate, kita melihat atribut numerik dengan dimensi . Data dinyatakan degan matrik seperti berikut $D = \left( \begin{array} { c c c c } { X _ { 1 } } & { X _ { 2 } } & { \cdots } & { X _ { d } } \\ \hline x _ { 11 } & { x _ { 12 } } & { \cdots } & { x _ { 1 d } } \\ { x _ { 21 } } & { x _ { 22 } } & { \cdots } & { x _ { 2 d } } \\ { \vdots } & { \vdots } & { \ddots } & { \vdots } \\ { x _ { n 1 } } & { x _ { n 2 } } & { \cdots } & { x _ { n d } } \end{array} \right)$

Jika dilihat dari baris data memiliki objek atatu vektor dalam ruang dimensi atribut $x _ { i } = ( x _ { i 1 } , x _ { i 2 } , \ldots , x _ { i d } ) ^ { T } \in \mathbb R ^ { d }$ Jika dilihat dari sudut pandang kolom, data diangga sebagai objek atau vektor dalam dimensi ruang dengan titik-titik data $X _ { j } = ( x _ { 1 j } , x _ { 2 j } , \ldots , x _ { n j } ) ^ { T } \in R ^ { n }$

Jika dilihat dari sudut pandang probabilitas, $d$ atribut dimodelkan dengan variabel acak vektor $X=(X_1,X_2,...X_d)^T$ dan titik titik $x_i$ dianggap sebagai sampel acak yang diperoleh dari $X$ , atribut atribut tersebut independent and identfically distributed dari $X$ (i.i.d $X$ )

Mean¶

Generalisasi persamaan (2.18) rata-rata vektor multivariate diperoleh dari masing-masing atribut yang dinyatakan dengan $\mu = E [ X ] = \left( \begin{array} { c } { E [ X _ { 1 } ] } \\ { E [ X _ { 2 } ] } \\ { \vdots } \\ { E [ X _ { d } ] } \end{array} \right) = \left( \begin{array} { c } { \mu _ { 1 } } \\ { \mu _ { 2 } } \\ { \vdots } \\ { \mu _ { d } } \end{array} \right) \hspace{12em} (2.3)$ Generalisasi persamaan (2.19) rata-rata sampel dinyatakan dengan $\hat { \mu } = \frac { 1 } { n } \sum _ { i = 1 } ^ { n } x _ { i }$

Matrik Kovarian¶

Generalisasi persamaan (2.26) untuk dimensi, kovarian multicovariate di dinyatakan dengan matrik kovarian simetris $ d\times d $yang menyatakan kovarian untuk setiap pasangan atribut $\Sigma = E [ ( X - \mu ) ( X - \mu ) ^ { T } ] = \left( \begin{array} { c c c c } { \sigma _ { 1 } ^ { 2 } } & { \sigma _ { 12 } } & { \cdots } & { \sigma _ { 1 d } } \\ { \sigma _ { 21 } } & { \sigma _ { 2 } ^ { 2 } } & { \cdots } & { \sigma _ { 2 d } } \\ { \cdots } & { \cdots } & { \cdots } & { \cdots } \\ { \sigma _ { d 1 } } & { \sigma _ { d 2 } } & { \cdots } & { \sigma _ { d } ^ { 2 } } \end{array} \right)$ Elemen diagonal $\sigma_i^2 $ menyatakan variansi atribut $X_i$ , dimana elemen-elemen bukan diagonal $\sigma_{ij} = \sigma_{ji}$ menyatakan kovarian antara atribut pasangan $X_i$ dan $X_j$ . Matrik kovarian adalah positif semidefinite

Contoh Rata-rata sample dan matrik covarian.

Perhatikan semua atribut numerik untuk data iris, namanya sepal length, petal length, dan petal width. Rata rata multivarean dinyatakan dengan

$\hat { \mu } = ( 5.843 \quad 3.054 \quad 3.759 \quad 1.199 ) ^ { T } $$ dan matrik covarian nya adalah $$ \hat { \Sigma } = \left( \begin{array} { r r r r } { 0.681 } & { - 0.039 } & { 1.265 } & { 0.513 } \\ { - 0.039 } & { 0.187 } & { - 0.320 } & { - 0.117 } \\ { 1.265 } & { - 0.320 } & { 3.092 } & { 1.288 } \\ { 0.513 } & { - 0.117 } & { 1.288 } & { 0.579 } \end{array} \right) $$ Jumlah variansi adalah $$ \operatorname { var } ( D ) = \operatorname { tr } ( \hat { \Sigma } ) = 0.681 + 0.187 + 3.092 + 0.579 = 4.539$

Contoh Perkalian dalam dan perkalian luar. Untuk mengdeskripsikan komputasi perkalian dalam dan perkalian luar dari matrik covarian, perhatikan data 2-dimensi $D = \left( \begin{array} { l l } { A _ { 1 } } & { A _ { 2 } } \\ \hline 1 & { 0.8 } \\ { 5 } & { 2.4 } \\ { 9 } & { 5.5 } \end{array} \right)$

Rata-rata vektor adalah sebagai berikut $\hat { \mu } = \left( \begin{array} { l } { \hat { \mu } _ { 1 } } \\ { \hat { \mu } _ { 2 } } \end{array} \right) = \left( \begin{array} { l } { 15 / 3 } \\ { 8.7 / 3 } \end{array} \right) = \left( \begin{array} { c } { 5 } \\ { 2.9 } \end{array} \right)$ dan matrik data terpusat dinyatakan $Z = D - 1 \cdot \mu ^ { T } = \left( \begin{array} { l l } { 1 } & { 0.8 } \\ { 5 } & { 2.4 } \\ { 9 } & { 5.5 } \end{array} \right) - \left( \begin{array} { l } { 1 } \\ { 1 } \\ { 1 } \end{array} \right) \left( \begin{array} { l l } { 5 } & { 2.9 } \end{array} \right) = \left( \begin{array} { r r } { - 4 } & { - 2.1 } \\ { 0 } & { - 0.5 } \\ { 4 } & { 2.6 } \end{array} \right)$ Pendekatan perkalian dalam [pers. 2.30] untuk menghitung matrik kovarian adalah $\left. \begin{array}{l}{ \hat { \Sigma } = \frac { 1 } { n } Z ^ { T } Z = \frac { 1 } { 3 } \left( \begin{array} { c c c } { - 4 } & { 0 } & { 4 } \\ { - 2.1 } & { - 0.5 } & { 2.6 } \end{array} \right) \cdot \left( \begin{array} { c c } { - 4 } & { - 2.1 } \\ { 0 } & { - 0.5 } \\ { 4 } & { 2.6 } \end{array} \right) }\\{ = \frac { 1 } { 3 } \left( \begin{array} { c c } { 32 } & { 18.8 } \\ { 18.8 } & { 11.42 } \end{array} \right) = \left( \begin{array} { c c } { 10.67 } & { 6.27 } \\ { 6.27 } & { 3.81 } \end{array} \right) }\end{array} \right.$ Pendekatan lain yaitu dengan perkalian luar [pers. 2.31] dibyatakan dengan $\hat { \Sigma } = \frac { 1 } { n } \sum _ { j = 1 } ^ { n } z _ { i } \cdot z _ { i } ^ { T }$

$= \frac { 1 } { 3 } \left [ \left( \begin{array} { c } { - 4 } \\ { - 2.1 } \end{array} \right) \cdot \left( \begin{array} { c c } { - 4 } & { - 2.1 } \end{array} \right) + \left( \begin{array} { r r } { 0 } \\ { - 0.5 } \end{array} \right) \cdot \left( \begin{array} { c c } { 0 } & { - 0.5 } \end{array} \right) + \left( \begin{array} { c } { 4 } \\ { 2.6 } \end{array} \right) \cdot \left( \begin{array} { c c } { 4 } & { 2.6 } \end{array} \right)\right ]$

$\left. \begin{array} { l } { = \frac { 1 } { 3 } [ \left( \begin{array} { c c } { 16.0 } & { 8.4 } \\ { 8.4 } & { 4.41 } \end{array} \right) + \left( \begin{array} { c c } { 0.0 } & { 0.0 } \\ { 0.0 } & { 0.25 } \end{array} \right) + \left( \begin{array} { c c } { 16.0 } & { 10.4 } \\ { 10.4 } & { 6.76 } \end{array} \right) ] } \\ { = \frac { 1 } { 3 } \left( \begin{array} { c c } { 32.0 } & { 18.8 } \\ { 18.8 } & { 11.42 } \end{array} \right) = \left( \begin{array} { c c } { 10.67 } & { 6.27 } \\ { 6.27 } & { 3.81 } \end{array} \right) } \end{array} \right.$

dimana data terpusat $z_i$ adalah baris dari $Z$

Atribut Kategorikal¶

Kita asumsikan bahwa data terdiri dari satu atribut $X$ . Domain dari $X$ terdiri dari nilai simbolis . Data adalah matrik data simbolis yang dinyatakan dengan $D = \left( \begin{array} { c } { X } \\ { x _ { 1 } } \\ { x _ { 2 } } \\ { \vdots } \\ { x _ { n } } \end{array} \right)$ dimana setiap nilai $x_i \in dom(X)$

Variabel Bernouli¶

Marilah kita lihat kasus ketika atribut kategorikal memililik domain $ {a_1,a_2}$ dengan . Kita dapat memodelkan sebagai variabel acak Bernouli, yang didasarkan pada dua nilai berbeda yaitu 1 dan 0, sesuai dengan pemetaan $X ( v ) = \left\{ \begin{array} { l l } { 1 } & { \text { if } v = a _ { 1 } } \\ { 0 } & { \text { if } v = a _ { 2 } } \end{array} \right.$ Fungsi massa probabilitas (PMF) dari dinyatakan dengan $P ( X = x ) = f ( x ) = \left\{ \begin{array} { l l } { p _ { 1 } } & { \text { if } x = 1 } \\ { p _ { 0 } } & { \text { if } x = 0 } \end{array} \right. \hspace{5em}\hspace{3em} \hspace{3em} \hspace{3em}$ dimana dan adalah parameter distribusi, yang harus memenuhi kondisi $p_1+p_0=1$ Karena hanya ada satu parameter bebas, biasanya menotasikan maka . Fungsi Massa Probabilitas dari variabel acak Bernouli dapat kemudian ditulis dengan $P ( X = x ) = f ( x ) = p ^ { x } ( 1 - p ) ^ { 1 - x }$ Kita dapat melihat bahwa $P ( X = 1 ) = p ^ { 1 } ( 1 - p ) ^ { 0 } = p \text { and } P ( X = 0 ) = p ^ { 0 } ( 1 - p ) ^ { 1 } = 1 - p$ seperti yand diharapkan

Mean dan Variansi

Nilai harapan dari dinyatakan dengan $\mu = E [ X ] = 1 \cdot p + 0 \cdot ( 1 - p ) = p$ dan variansi dari dinyatakan dengan $\left. \begin{array}{l}{ \sigma ^ { 2 } = \operatorname { var } ( X ) = E [ X ^ { 2 } ] - ( E [ X ] ) ^ { 2 } }\\ \hspace{7mm}= ( 1 ^ { 2 } \cdot p + 0 ^ { 2 } \cdot ( 1 - p ) ) - p ^ { 2 } = p - p ^ { 2 } = p ( 1 - p ) \\\end{array} \right.$

Rata-rata sampel dan Variansi

Untuk mengestimasi parameter dari variabel Bernouli $X$ , kita asumsikan bahwa setiap simbol dipetakan ke nilai biner. Sehingga, sekumpulan nilai ${x_1,x_2,...x_n}$ diasumsikan menjadi sampel acak yang diperoleh dari $X$ (yaitu setiap $ x_i$ adalah IID dengan $X$ .

Rata-rata sampel dinyatakan dengan $\hat { \mu } = \frac { 1 } { n } \sum _ { i = 1 } ^ { n } x _ { i } = \frac { n _ { 1 } } { n } = \hat { p }$ dimana $n_1$ adalah banyaknya titik dengan $x_1=1$ dalam sampel acak (sama dengan banyak kejadian dari simbol $a_1$ )

Misal menyatakan banyak titik dengan dalam sampel acak. Variansi sample dinyatakan dengan $\left. \begin{array}{l}{ \hat { \sigma } ^ { 2 } = \frac { 1 } { n } \sum _ { i = 1 } ^ { n } ( x _ { i } - \hat { \mu } ) ^ { 2 } }\\ \hspace{7mm}{ = \frac { n _ { 1 } } { n } ( 1 - \hat { p } ) ^ { 2 } + \frac { n - n _ { 1 } } { n } ( - \hat { p } ) ^ { 2 } }\\\hspace{7mm}{ = \hat { p } ( 1 - \hat { p } ) ^ { 2 } + ( 1 - \hat { p } ) \hat { p } ^ { 2 } }\\\hspace{7mm}{ = \hat { p } ( 1 - \hat { p } ) ( 1 - \hat { p } + \hat { p } ) }\\\hspace{7mm}{ = \hat { p } ( 1 - \hat { p } ) }\end{array} \right.$

Variansi sampel dapat juga diperoleh langsung dari persamaan(3.1) dengan mensubsitusikan $\hat p$ untuk $p$ .

Contoh

Perhatikan atribut sepal length ( $X$ ) untuk dataset iris dalam tabel 1.1. Marilah kita definisikan bunga iris dengan Long jika bunga itu sepal length dalam range $[7, \infty ]$ , dan short jika sepal length dalam range . Kemudian dapat dinyatakan dengan atribut kategorikan dengan domain {Long,Short}. Dari sampel yang diamati ukuran , kita menemukan 13 iris long. Rata-rata sampel dari adalah $\hat { \mu } = \hat { p } = 13 / 150 = 0.087$ dan variansinya adalah $\hat { \sigma } ^ { 2 } = \hat { p } ( 1 - \hat { p } ) = 0.087 ( 1 - 0.087 ) = 0.087 \cdot 0.913 = 0.079$

Ditribusi binomial : banyaknya kejadian¶

Diberikan variabel Bernoulli $X$ , misal $\{x_1,x_2,...x_n\}$ menyatakan sampel acak dari ukuran $n$ yang diperoleh dari . Misal adalah variabel acak yang menyatakan numlah kejadi dari simbol (nilai ) dalam sampe. N adalah distribusi binomial yang dinyatakan dengan $f ( N = n _ { 1 } | n , p ) = \left( \begin{array} { l } { n } \\ { n _ { 1 } } \end{array} \right) p ^ { n _ { 1 } } ( 1 - p ) ^ { n - n _ { 1 } }$ Dalam kenyataannya, $N$ adalah jumlah dari $n$ variabel acak Bernoulli yang saling bebas dan (IID) dengan yaitu . Dengan liniearitas dari ekpektasi, mean atau jumlah harapan dari kejadian simbol dinyatakan dengan $\mu _ { N } = E [ N ] = E \left[ \sum _ { i = 1 } ^ { n } x _ { i } \right] = \sum _ { i = 1 } ^ { n } E [ x _ { i } ] = \sum _ { i = 1 } ^ { n } p = n p$ Karena adalah semuanya saling bebas, variansi dari dinyatakan dengan $\sigma _ { N } ^ { 2 } = \operatorname { var } ( N ) = \sum _ { i = 1 } ^ { n } \operatorname { var } ( x _ { i } ) = \sum _ { i = 1 } ^ { n } p ( 1 - p ) = n p ( 1 - p )$ Contoh 3.2. Dengan meneruskan contoh 3.1, kita dapat menggunakan parameter yang telah diestimasi untuk menghitung banyaknya kejadian yang diharapkan N long dari sepal length. distribusi binomial Iris $E [ N ] = n \hat { p } = 150 \cdot 0.087 = 13$

Dalam kasus ini, karena dihitung dari sample melalui , tidak mengherankan bahwa jumlah kejadian diharapkan dari Long Iris sama dengan kejadian yang sebenarnya. Akan tetapi yang lebih menarik adalah kita dapat menghitung variansi jumlah kejadian $\operatorname { var } ( N ) = n \hat { p } ( 1 - \hat { p } ) = 150 \cdot 0.079 = 11.9$

Meningkatnya ukuran sample, distribusi binomial seperti yang diberikan dapalam persamaan 3.3 cenderung ke distribusi normal dengan $\mu=13$ dan $\sigma=\sqrt{11.9}=3.45$ . Sehingga dengan kepercaan lebih besar dari 95%, kita dapat mengklam bahwa jumlah kejadian dari $a_i$ akan terletak dalam rentang $\mu \pm 2 \sigma = [ 9.55,16.45 ]$ yang mengikuti dari fakta bahwa untuk distribusi normal 95,45% dari massa probabilitas terletak dalam dua standar deviasi dari rata-rata.

Variable multivariate Bernoulli¶

Sekarang kita memandang kasus umum ketika $X$ adalah atribut kategorical dengan domain $\{a_1,a_2,...a_m\}$ . Kita dapat memodelkan $X$ sebagai variabel acak Bernoulli $m$ -dimensi $X = ( A _ { 1 } , A _ { 2 } , \ldots , A _ { m } ) ^ { T }$ dimana setiap $A_i$ adalah variabel Bernoulli dengan parameter $p_i$ yang menotasikan probabilitas dari pengamatan simbol $a_i$ . Akan tetapi karena $X$ dapat mengasumsikan hanya satu dari nilai simbolik pada suatu waktum jika $X=a_i$ maka $A_i=1$ dan $A_j=0$ untuk semua $j \neq i$ . Variabel acak $X \in {0,1}^m$ , dan jika , maka , dimana adalah standar vektor basis ke i, yang dinyatakan dengan $e _ { i } = ( \overbrace { 0 , \ldots , 0 } ^ { i - 1 } , 1 , \overbrace { 0 , \ldots , 0 } ^ { m - i } ) ^ { T }$ Pada $e_i$ hanya elemen ke i adalah 1 ( $e_{ii}=1$ ) , sedangkan semua elemen yang lain adalah nol, ( $e_{ij}=0, \forall j \neq i$ ).

Disini, definis yang lebih tepat dari variabel Bernoulli multivariate , yaitu generalisasi dari variabel Bernoullii dari dua hasil ke hasil. Kita kemudian memodelkan atribut kategorical sebagai variabel Bernoulli multivariate didefinisikan dengan $X ( v ) = e _ { i } \text { if } v = a _ { i }$

Rentang dari terdiri dari nilai vektor berbeda dengan fungsi massa probabilitas dari dinyatakan dengan $P ( X = e _ { i } ) = f ( e _ { i } ) = p _ { i }$ dimana adalah probabilitas dari nilai pengamatan . Parameter ini harus memenuhi kondisi $\sum _ { i = 1 } ^ { m } p _ { i } = 1$ Fungsi massa prababilitas dapat ditulis secara utuh sebagai berikut $P ( X = e _ { i } ) = f ( e _ { i } ) = \prod _ { j = 1 } ^ { m } p _ { j } ^ { e _ { i j } }Ka$ Kareana dan funtuk $ j\neq i$, kita dapat melihat bahwa, seperti yang diharapkan, kita miliki $f ( e _ { i } ) = \prod _ { j=1 } ^ { m } p _ { j } ^ { e _ { i j } } = p _ { 1 } ^ { e _ { i 0 } } \times \cdots p _ { i } ^ { e _ { i i } } \cdots \times p _ { m } ^ { e _ { i m } } = p _ { 1 } ^ { 0 } \times \cdots p _ { i } ^ { 1 } \cdots \times p _ { m } ^ { 0 } = p _ { i }$

$\left. \begin{array} { | l | l | l | } \hline \text { Bins } & { { \text { Domain } } } & { { \text { Counts } } } \\ \hline [ 4.3,5.2 ] & { \text { Very Short } ( a _ { 1 } ) } & { n _ { 1 } = 45 } \\ { ( 5.2,6.1 ] } & { \text { Short } ( a _ { 2 } ) } & { n _ { 2 } = 50 } \\ { ( 6.1,7.0 ] } & { \text { Long } ( a _ { 3 } ) } & { n _ { 3 } = 43 } \\ { ( 7.0,7.9 ] } & { \text { Very Long } ( a _ { 4 } ) } & { n _ { 4 } = 12 } \\ \hline \end{array} \right.$

Contoh : Marilah kita lihat atribut sepal length () untuk data Iris seperti yang ditunjukkan dalam tabel 1.2. Kita membagi sepal length kedalam empat interval yang sama, dan memberikan nama untuk setiap interval seperti yang diunjukkan dalam tabel 3.1. Kita lihat sebagai atribut kategorical dengan domain $\{a _ { 2 } = \text { VeryShort, } a _ { 2 } = \text { Short, } a _ { 3 } = \operatorname { Long } , a _ { 4 } = \operatorname{Very Long}\}$

Kita memodelkan atribut kategorical sebagai variabel Bernoulli multivariate, didefinisikan dengan $X ( v ) = \left\{ \begin{array} { l l } { e _ { 1 } = ( 1,0,0,0 ) } & { \text { jika } v = a _ { 1 } } \\ { e _ { 2 } = ( 0,1,0,0 ) } & { \text { jika } v = a _ { 2 } } \\ { e _ { 3 } = ( 0,0,1,0 ) } & { \text { jika } v = a _ { 3 } } \\ { e _ { 4 } = ( 0,0,0,1 ) } & { \text { jika } v = a _ { 4 } } \end{array} \right.$ Misalkan, simbol $x_1=Short=a_2$ dinyatakan dengan $(0,1,0,0)^T=e_2$

Mean

Mean atau nilai harapan dari dapat diperoleh dengan $\mu = E [ X ] = \sum _ { i = 1 } ^ { m } e _ { i } f ( e _ { i } ) = \sum _ { i = 1 } ^ { m } e _ { i } p _ { i } = \left( \begin{array} { l } { 1 } \\ { 0 } \\ { \vdots } \\ { 0 } \end{array} \right) p _ { 1 } + \cdots + \left( \begin{array} { l } { 0 } \\ { 0 } \\ { \vdots } \\ { 1 } \end{array} \right) p _ { m } = \left( \begin{array} { c } { p _ { 1 } } \\ { p _ { 2 } } \\ { \vdots } \\ { p _ { m } } \end{array} \right) = p$

Mengukur Jarak Data¶

Mengukur Jarak Tipe Numerik¶

Salah satu tantangan dalam era ini dengan datatabase yang memiliki banyak tipe data. Mngukur jarak adalah komponen utama dalam algoritma clustering berbasis jarak. Alogritma seperit Algoritma Partisioning misal K-Mean, K-medoidm dan fuzzy c-mean dan rough clustering bergantung pada jarak untuk melakukan pengelompokkan

Sebelum menjelaskan tentang beberapa macam ukuran jarak, kita mendefinisikan terlebih dahulu yaiut $v_1, v_2$ menyatakandua vektor yang menyatakan $v_1 = {x_1, x_2, . . ., x_n}, v_2 ={y_1, y_2, . . ., y_n},$ dimana $x_i, y_i$ disebut attribut. Ada beberapa ukuran similaritas datau ukuran jarak, diantaranya²

Minkowski Distance¶

Kelompk Minkowski diantaranya adalah Euclidean distance dan Manhattan distance, yang menjadi kasus khusus dari Minkowski distance. Minkowski distance dinyatakan dengan

$d _ { \operatorname { min } } = ( \ sum _ { i = 1 } ^ { n } | x _ { i } - y _ { i } | ^ { m } ) ^ { \frac { 1 } { m } } , m \geq 1$

diman $m$ adalah bilangan riel positif dan $x_i$ dan $ y_i$ adalah dua vektor dalam runang dimensi $n$ Implementasi ukuran jarak Minkowski pada model clustering data atribut dilakukan normalisasi untuk menghindari dominasi dari atribut yang memiliki skala data besar.

Manhattan distance¶

Manhattan distance adalah kasus khsusu dari jarak Minkowski distance pada m = 1. Seperti Minkowski Distance, Manhattan distance sensitif terhadap outlier. BIla ukuran ini digunakan dalam algoritma clustering , bentuk cluster adalah hyper-rectangular. Ukuran ini didefinisikan dengan

$d _ { \operatorname { man } } = \sum _ { i = 1 } ^ { n } \left| x _ { i } - y _ { i } \right|$

Euclidean distance¶

Jarak yang paling terkenal yang digunakan untuk data numerik adalah jarak Euclidean. Ini adalah kasus khusus dari jarak Minkowski ketika m = 2. Jarak Euclidean berkinerja baik ketika digunakan untuk kumpulan data cluster kompak atau terisolasi . Meskipun jarak Euclidean sangat umum dalam pengelompokan, ia memiliki kelemahan: jika dua vektor data tidak memiliki nilai atribut yang sama, kemungkin memiliki jarak yang lebih kecil daripada pasangan vektor data lainnya yang mengandung nilai atribut yang sama. Masalah lain dengan jarak Euclidean sebagai fitur skala terbesar akan mendominasi yang lain. Normalisasi fitur kontinu adalah solusi untuk mengatasi kelemahan ini.

Average Distance¶

Berkenaan dengan kekurangan dari Jarak Euclidian Distance diatas, rata rata jarak adala versi modikfikasid ari jarak Euclidian untuk memperbaiki hasil. Untuk dua titik $x,y$ dalam ruang dimensi $n$ , rata-rata jarak didefinisikan dengan

$d _ { a v e } = \left ( \frac { 1 } { n } \sum _ { i = 1 } ^ { n } ( x _ { i } - y _ { i } ) ^ { 2 } \right) ^ { \frac { 1 } { 2 } }$

Weighted euclidean distance¶

Jika berdasarkan tingkatan penting dari masing masing atribut ditentukan, maka Weighted Euclidean distance adalah modifikisasi lain dari jarak Euclidean distance yang dapat digunakan. Ukuran ini dirumuskan dengan

$d _ { w e } = \left ( \sum _ { i = 1 } ^ { n } w _ { i } ( x _ { i } - y _ { i } \right) ^ { 2 } ) ^ { \frac { 1 } { 2 } }$ dimana $w_i$ adalah bobot yang diberikan pada atribut ke i.

Chord distance¶

Chord distance adalah salah satu ukuran jarak modifikasi Euclidean distance untuk mengatasi kekurangan dari Euclidean distance. Ini dapat dipecahkan juga dengan menggunakan skala pengukuran yang baik. Jarak ini dapat juga dihitung dari data yang tidak dinormalisasi . Chord distance didefinisikan dengan

$d _ { \text {chord} } = \left ( 2 - 2 \frac { \sum _ { i = 1 } ^ { n } x _ { i } y _ { i } } { \| x \| _ { 2 } \| y \| _ { 2 } } \right) ^ { \frac { 1 } { 2 } }$

dimana $\| x \|_ {2}$ adalah $L^{2} \text {-norm} \| x \|_{2} = \sqrt { \sum_{ i = 1 }^{ n }x_{i}^{2}}$

Mahalanobis distance¶

Mahalanobis distance berdasarkan data berbeda dengan Euclidean dan Manhattan distances yang bebas antra data dengan data yang lain. Jarak Mahalanobis yang teratur dapat digunakan untuk mengekstraksi hyperellipsoidal clusters. Jarak Mahalanobis dapat mengurangi distorsi yang disebabkan oleh korelasi linier antara fitur dengan menerapkan transformasi pemutihan ke data atau dengan menggunakan kuadrat Jarak mahalanobis. Mahalanobis distance dinyatakan dengan

$d _ { m a h } = \sqrt { ( x - y ) S ^ { - 1 } ( x - y ) ^ { T } }$

diman $S$ adalah matrik covariance data.

Cosine measure¶

Ukuran Cosine similarity lebih banyak digunakan dalam similaritas dokumen dan dinyatakan dengan

$Cosine(x,y)=\frac { \sum _ { i = 1 } ^ { n } x _ { i } y _ { i } } { \| x \| _ { 2 } \| y \| _ { 2 } }$

dimana $\|y\|_{2}$ adalah Euclidean norm dari vektor $y=(y_{1} , y_{2} , \dots , y_{n} )$ didefinisikan dengan $\|y\|_{2}=\sqrt{ y _ { 1 } ^ { 2 } + y _ { 2 } ^ { 2 } + \ldots + y _ { n } ^ { 2 } }$

Pearson correlation¶

Pearson correlation banyak digunakan dalam data expresi gen. Ukuran similaritas ini menghitung similaritas antara duan bentuk pola expresi gen. Pearson correlation didefinisikan dengan

$Pearson ( x , y ) = \frac { \sum _ { i = 1 } ^ { n } ( x _ { i } - \mu _ { x } ) ( y _ { i } - \mu _ { y } ) } { \sqrt { \sum _ { i = 1 } ^ { n } ( x _ { i } - y _ { i } ) ^ { 2 } } \sqrt { \sum _ { i = 1 } ^ { n } ( x _ { i } - y _ { i } ) ^ { 2 } } }$

The Pearson correlation kelemahannya adalah sensitif terhadap outlier

Mengukur Jarak Atribut Binary¶

Mari kita lihat similaritas dan desimilirity untuk objek yang dijelaskan oleh atribut biner simetris atau asimetris. Aatribut biner hanya memiliki dua status: 0 dan 1 Contoh atribut perokok menggambarkan seorang pasien, misalnya, 1 menunjukkan bahwa pasien merokok, sedangkan 0 menunjukkan pasien tidak merokok. Memperlakukan atribut biner sebagai atribut numerik tidak diperkenankan. Oleh karena itu, metode khusus untuk data biner diperlukan untuk membedakan komputasi.

Jadi, bagaimana kita bisa menghitung ketidaksamaan antara dua atribut biner? ”Satu pendekatan melibatkan penghitungan matriks ketidaksamaan dari data biner yang diberikan. Jika semua atribut biner dianggap memiliki bobot yang sama, kita memiliki tabel kontingensi $2 \times 2$ di mana $q$ adalah jumlah atribut yang sama dengan 1 untuk kedua objek $i$ dan $j$ , $r$ adalah jumlah atribut yang sama dengan 1 untuk objek $i$ tetapi 0 untuk objek $j$ , $s$ adalah jumlah atribut yang sama dengan 0 untuk objek $i$ tetapi 1 untuk objek $j$ , dan $t$ adalah jumlah atribut yang sama dengan 0 untuk kedua objek $i$ dan $j$ . Jumlah total atribut adalah $p$ , di mana $p=q+r+s+t$

Ingatlah bahwa untuk atribut biner simetris, masing-masing nilai bobot yang sama.Dissimilarity yang didasarkan pada atribut aymmetric binary disebut symmetric binary dissimilarity. Jika objek i dan j dinyatakan sebagai atribut biner simetris, maka dissimilarity antar $i$ dan $j$ adalah

$d ( i , j ) = \frac { r + s } { q + r + s + t }$

Untuk atribut biner asimetris, kedua kondisi tersebut tidak sama pentingnya, seperti hasil positif (1) dan negatif (0) dari tes penyakit. Diberikan dua atribut biner asimetris, pencocokan keduanya 1 (kecocokan positif) kemudian dianggap lebih signifikan daripada kecocokan negatif. Ketidaksamaan berdasarkan atribut-atribut ini disebut asimetris biner dissimilarity, di mana jumlah kecocokan negatif, t, dianggap tidak penting dan dengan demikian diabaikan. Berikut perhitungannya

$d ( i , j ) = \frac { r + s } { q + r + s }$

Kita dapat mengukur perbedaan antara dua atribut biner berdasarkan pada disimilarity. Misalnya, biner asimetris kesamaan antara objek $i$ dan $j$ dapat dihitung dengan

$\operatorname { sim } ( i , j ) = \frac { q } { q + r + s } = 1 - d ( i , j )$

Persamaan similarity ini disebut dengan Jaccard coefficient

Mengukur Jarak Tipe categorical¶

Ada beberapa macam pengukuran untuk tipe data categorical ³

Overlay Metric¶

Ketika semua atribut adalah bertipe nominal, ukuran jarak yang paling sederhana adalah dengan Ovelay Metric (OM) yang dinyatakan dengan

$d ( x , y ) = \sum _ { i = 1 } ^ { n } \delta ( a _ { i } ( x ) , a _ { i } ( y ) )$

dimana $n$ adalah banyaknya atribut, $a_i(x)$ dan $a_i(y)$ adalah nilai atribut ke $i$ yaitu $A_i$ dari masing masing objek $x$ dan $y$ , $\delta \ ( a_{ i } ( x ) , a_{ i } ( y ) )$ adalah 0 jika $a _ { i } ( x ) = a _ { i } ( y )$ dan 1 jika sebaliknya.

OM banyak digunakan oleh instance-based learning dan locally weighted learning. Jelas sekali , ini sedikit buruk untuk mengukur jarak antara masing-masing pasangan sample, karena gagal memanfaatkan tambahan informasi yang diberikan oleh nilai atribut nominal yang bisa membantu dalam generalisasi.

Value Difference Metric (VDM)¶

VDM dikenalkan oleh Standfill and Waltz, versi sederhana dari VDM tanpa skema pembobotan didefinsisikan dengan

$d ( x , y ) = \sum _ { i = 1 } ^ { n } \sum _ { c = 1 } ^ { C } \left| P ( c | a _ { i } ( x ) ) - P ( c | a _ { i } ( y ) ) \right |$

dimana $C$ adalah banyaknya kelas, $P(c|a_i(x))$ adalah probabilitas bersyarat dimana kelas $x$ adalah $c$ dari atribut $A_i$ , yang memiliki nilai $a_i(x)$ , $P(c|a_i(y))$ adalah probabilitas bersyarat dimana kelas $y$ adalah $c$ dengan atribut $A_i$ memiliki nilai $a_i(y)$

VDM mengasumsikan bahwa dua nilai dari atribut adalah lebih dekat jika memiliki klasifikasi sama. Pendekatan lain berbasi probabilitas adalah SFM (Short and Fukunaga Metric) yang kemudian dikembangkan oleh Myles dan Hand dan didefinisikan dengan

$d ( x , y ) = \sum _ { c = 1 } ^ { C } \left | P ( c | x ) - P ( c | y ) \right|$

diman probabilitas keanggotaan kelas diestimasi dengan $P(c|x)$ dan $P(c|y)$ didekati dengan Naive Bayes,

Minimum Risk Metric (MRM)¶

Ukuran ini dipresentasikan oleh Blanzieri and Ricci, berbeda dari SFM yaitu meminimumkan selisih antara kesalahan berhingga dan kesalahan asymtotic. MRM meminimumkan risk of misclassification yang didefinisikan dengan

$d ( x , y ) = \sum _ { c = 1 } ^ { C } P ( c | x ) ( 1 - P ( c | y ) )$

Mengukur Jarak Tipe Ordinal¶

Nilai-nilai atribut ordinal memiliki urutan atau peringkat, namun besarnya antara nilai-nilai berturut-turut tidak diketahui. Contohnya tingkatan kecil, sedang, besar untuk atribut ukuran. Atribut ordinal juga dapat diperoleh dari diskritisasi atribut numerik dengan membuat rentang nilai ke dalam sejumlah kategori tertentu. Kategori-kategori ini disusun dalam peringkat. Yaitu, rentang atribut numerik dapat dipetakan ke atribut ordinal $f$ yang memiliki $M_f$ state. Misalnya, kisaran suhu atribut skala-skala (dalam Celcius)dapat diatur ke dalam status berikut: −30 hingga −10, −10 hingga 10, 10 hingga 30, masing-masing mewakili kategori suhu dingin, suhu sedang, dan suhu hangat. $M$ adalah jumlah keadaan yang dapat dilakukan oleh atribut ordinalmemiliki. State ini menentukan peringkat $1, ..., M_f$

Perlakuan untuk atribut ordinal adalah cukup sama dengan atribut numerik ketika menghitung disimilarity antara objek⁴. Misalkan $f$ adalah atribut-atribut dari atribut ordinal dari $n$ objek. Menghitung disimilarity terhadap f fitur sebagai berikut:

Nilai $f$ untuk objek ke- $i$ adalah $x_{if}$ , dan $f$ memiliki $M_f$ status urutan , mewakili peringkat $1, .., M_f$ Ganti setiap $x_{if}$ dengan peringkatnya, $r_{if} \in \{1...M_f\}$
Karena setiap atribut ordinal dapat memiliki jumlah state yang berbeda, diperlukan untuk memetakan rentang setiap atribut ke [0,0, 1.0] sehingga setiap atribut memiliki bobot yang sama. Perl melakukan normalisasi data dengan mengganti peringkat dengan $z _ { i f } = \frac { r _ { i f } - 1 } { M _ { f } - 1 }$
Dissimilarity kemudian dihitung dengan menggunakan ukuran jarak seperti atribut numerik dengan data yang baru setelah ditransformasi $z_{if}$

Menghitung Jarak Tipe Campuran¶

Menghitung ketidaksamaan antara objek dengan atribut campuran yang berupa nominal, biner simetris, biner asimetris, numerik, atau ordinal yang ada pada kebanyakan databasae dapat dinyatakan dengan memproses semua tipe atribut secara bersamaan⁵. Salah satu teknik tersebut menggabungkan atribut yang berbeda ke dalam matriks ketidaksamaan tunggal dan menyatakannya dengan skala interval antar $[0,0, 1.0]$ . Misalkan data berisi atribut $p$ tipe campuran. Ketidaksamaan (disimilarity ) antara objek $i$ dan $j$ dinyatakan dengan

$d ( i , j ) = \frac { \sum _ { f = 1 } ^ { p } \delta _ { i j } ^ { ( f ) } d _ { i j } ^ { ( f ) } } { \sum _ { f = 1 } ^ { p } \delta _ { i j } ^ { ( f ) } }$

dimana $\delta_{ij}^{f}=0$ - jika $x_{if}$ atau $x_{jf}$ adalah hilang (i.e., tidak ada pengukuran dari atribut f untuk objek $i$ atau objek $j$ )

jika $x_{if}=x_{jf}=0$ dan
atribut $f$ adalah binary asymmetric,

selain itu $\delta_{ij}^{f}=1$

Kontribusi dari atribut $f$ untuk dissimilarity antara i dan j (yaitu. $d_{ij}^{f}$ ) dihitung bergantung pada tipenya,

Jika $f$ adalah numerik, $d_{ij}^{f}=\frac{ \|x _{if}-x_{jf}\|}{max_hx_{hf}-min_hx{hf}}$ , di mana h menjalankan semua nilai objek yang tidak hilang untuk atribut f
Jika $f$ adalah nominal atau binary, $d_{ij}^{f}=0$ jika $x_{if}=x_{jf}$ , sebaliknya $d_{ij}^{f}=1$
Jika $f$ adalah ordinal maka hitung rangking $r_{if}$ dan $\mathcal z_{if}=\frac {r_{if}-1}{M_f-1}$ , dan perlakukan $z_{if}$ sebagai numerik.

Referensi¶

Cielen, Davy, Arno Meysman, and Mohamed Ali. Introducing data science: big data, machine learning, and more, using Python tools. Manning Publications Co., 2016. ↩
Shirkhorshidi, Ali Seyed, Saeed Aghabozorgi, and Teh Ying Wah. "A comparison study on similarity and dissimilarity measures in clustering continuous data." PloS one 10.12 (2015): e0144059. ↩
Li, Chaoqun, and Hongwei Li. "A Survey of Distance Metrics for Nominal Attributes." JSW 5.11 (2010): 1262-1269. ↩
Han, Jiawei, Jian Pei, and Micheline Kamber. Data mining: concepts and techniques. Elsevier, 2011. ↩
Wilson, D. Randall, and Tony R. Martinez. "Improved heterogeneous distance functions." Journal of artificial intelligence research 6 (1997): 1-34. ↩