Skip to content

Praproses data

Install hugo https://www.mikedane.com/static-site-generators/hugo/installing-hugo-on-windows/

Sampel Mean

Disumsikan bahwa setiap titk simbol x_i \in D dipetakan ke variabel x_i=X(x_i). Data yang telah dipetakan x_1,x_2,....x_n adalah kemudian diasumsikan sampel acak IID dengan X. Kita dapat menghitung sampel mean dengan menempatkan massa proabilitas dari $ \frac {1}{n}$ pada setiap titik $$ \hat { \mu } = \frac { 1 } { n } \sum _ { i = 1 } ^ { n } x _ { i } = \sum _ { i = 1 } ^ { m } \frac { n _ { i } } { n } e _ { i } = \left( \begin{array} { c } { n _ { 1 } / n } \ { n _ { 2 } / n } \ { \vdots } \ { n _ { m } / n } \end{array} \right) = \left( \begin{array} { c } { \hat { p } _ { 1 } } \ { \hat { p } _ { 2 } } \ { \vdots } \ { \hat { p } _ { m } } \end{array} \right) = \hat { p } $$ dimana n_i adalah banyaknya kejadian dari nilai vektor e_i dalam sampel, yang ekivalen dengan banyaknya kejadian dari simbol a_i. Selanjutnya, kita memiliki \sum_{i=1}^m n_i=n, yang mengikuti dari fakta bahwa X hanya dapat diperoleh pada m yang berbeda e_i dan perhitungan setiap nilai haru ditambahkan hingga ke ukuran sampel n

Contoh3.4. Sampel Mean. Perthatikan jumlah yang diamati untuk setiap nilai a_i (e_i) dari diskritisasi atribut sepal length dalam tabel 3.1. Karena jumlah sampel adalah n=150, dari sini kita dapat estimasi \hat p_i sebagai berikut $$ \left. \begin{array} { l } { \hat { p } _ { 1 } = 45 / 150 = 0.3 } \ { \hat { p } _ { 2 } = 50 / 150 = 0.333 } \ { \hat { p } _ { 3 } = 43 / 150 = 0.287 } \ { \hat { p } _ { 4 } = 12 / 150 = 0.08 } \end{array} \right. $$ pmf

Fungsi Massa Probabilias diplot dalam gambar 3.1 dan sample mean untuk X dinyatakan dengan $$ \hat { \mu } = \hat { p } = \left( \begin{array} { c } { 0.3 } \ { 0.333 } \ { 0.287 } \ { 0.08 } \end{array} \right) $$ Matrik Covarian

Perhatikan lagi bahwa m-dimensi variabel multivariate Bernouli adalah sederhananya vektor dari m variabel Bernoulli. Misalkan X=(A_1,A_2,...A_m)^T dimana A_i adalah variabel Bernoulli yang terkait dengan simbol a_i. Informasi variansi covarian antara unsur-unsur variabel Bernoully yang menghasilkan matrik untuk X

Marilah kita pertama kita perhatikan variansi dari setiap variabel Bernoulli A_i. Dengan persamaan (3.1),kita segera memiliki $$ \sigma _ { i } ^ { 2 } = \operatorname { var } ( A _ { i } ) = p _ { i } ( 1 - p _ { i } ) $$ Berikutnya perhatikan covariasi antara A_1 dan A_j. Dengan memanfaatkan identitas (2.21) kita miliki $$ \sigma _ { i j } = E [ A _ { i } A _ { j } ] - E [ A _ { i } ] \cdot E [ A _ { j } ] = 0 - p _ { i } p _ { j } = - p _ { i } p _ { j } $$ yang mengikuti dari fakta bahwa E[A_iA_j]=0 sehingga A_1 dan A_2 keduanya tidak sama dengan 1 dan kemudian perkalian A_iA_j=0. Fakta yang sama ini terkait dengan relasi negatif antara A_i dan A_j. Yang menarik adalah bahwa derajat keterkaitan negatif adalah proporsional pada perkalian dari nilai mean A_i dan A_j.

Dari eskperesi sebelumnya untuk varian dan covarian, m\times m matrik covarian untuk X dinyatakan dengan $$ \Sigma = \left( \begin{array} { c c c c } { \sigma _ { 1 } ^ { 2 } } & { \sigma _ { 12 } } & { \dots } & { \sigma _ { 1 m } } \ { \sigma _ { 12 } } & { \sigma _ { 2 } ^ { 2 } } & { \dots } & { \sigma _ { 2 m } } \ { \vdots } & { \vdots } & { \ddots } & { \vdots } \ { \sigma _ { 1 m } } & { \sigma _ { 2 m } } & { \dots } & { \sigma _ { m } ^ { 2 } } \end{array} \right) = \left( \begin{array} { c c c c } { p _ { 1 } ( 1 - p _ { 1 } ) } & { - p _ { 1 } p _ { 2 } } & { \dots } & { - p _ { 1 } p _ { m } } \ { - p _ { 1 } p _ { 2 } } & { p _ { 2 } ( 1 - p _ { 2 } ) } & { \dots } & { - p _ { 2 } p _ { m } } \ { \vdots } & { \vdots } & { \ddots } & { \vdots } \ { - p _ { 1 } p _ { m } } & { - p _ { 2 } p _ { m } } & { \cdots } & { p _ { m } ( 1 - p _ { m } ) } \end{array} \right) $$ Perhatikan bagaimana setiap baris dalam \Sigma adalah nol. Misalkan, untuk baris i kita punya $$ - p _ { i } p _ { 1 } - p _ { i } p _ { 2 } - \cdots + p _ { i } ( 1 - p _ { i } ) - \cdots - p _ { i } p _ { m } = p _ { i } - p _ { i } \sum _ { l = 1 } ^ { m } p _ { j } = p _ { i } - p _ { i } = 0 $$ Karna \Sigma adalah simetris, maka memungkinkan setiap kolom jumlahnya adalah nol.

Definisi P sebagai m\times m matrik diagonal: $$ P = \operatorname { diag } ( p ) = \operatorname { diag } ( p _ { 1 } , p _ { 2 } , \ldots , p _ { m } ) = \left( \begin{array} { c c c c } { p _ { 1 } } & { 0 } & { \cdots } & { 0 } \ { 0 } & { p _ { 2 } } & { \cdots } & { 0 } \ { \vdots } & { \vdots } & { \ddots } & { \vdots } \ { 0 } & { 0 } & { \cdots } & { p _ { m } } \end{array} \right) $$

Kita dapat menulis matrik kovarian X dengan $$ \Sigma = P - p \cdot p ^ { T } $$ Matrik Kovarian Sampel

Matrik kovarian sample dapat diperoleh dari (3.8) dengan jelas yaitu $$ \hat { \Sigma } = \hat { P } - \hat { p } \cdot \hat { p } ^ { T }dimana \hat P=diag(\hat p) dan $\hat p=\hat \mu =(hat) $$ dimana \hat P=diag(\hat p) dan \hat p=\hat \mu =(\hat p_1,\hat p_2,...\hat p_m) menyatakan fungsi massa k probabilitas empiris untuk X.

Contoh. Dari hasil diskritisasi atribut sepal length dalam contoh 3.4 kita telah memiliki $ \hat { \mu } = \hat { p } = ( 0.3,0.333,0.287,0.08 ) ^ { T }$

Mtrik kovarian sample dinyatakan dengan
$$ \left. \begin{array}{l}{ \hat { \Sigma } = \hat { P } - \hat { p } \cdot \hat { p } ^ { T } }\\hspace{5mm}{ = \left( \begin{array} { c c c c } { 0.3 } & { 0 } & { 0 } & { 0 } \ { 0 } & { 0.333 } & { 0 } & { 0 } \ { 0 } & { 0 } & { 0.287 } & { 0 } \ { 0 } & { 0 } & { 0 } & { 0.08 } \end{array} \right) - \left( \begin{array} { c } { 0.3 } \ { 0.333 } \ { 0.287 } \ { 0.08 } \end{array} \right) \left( \begin{array} { l l l l } { 0.3 } & { 0.333 } & { 0.287 } & { 0.08 } \end{array} \right) }\end{array} \right.\ \left. \begin{array} { l } { = \left( \begin{array} { c c c c } { 0.3 } & { 0 } & { 0 } & { 0 } \ { 0 } & { 0.333 } & { 0 } & { 0 } \ { 0 } & { 0 } & { 0.287 } & { 0 } \ { 0 } & { 0 } & { 0 } & { 0.08 } \end{array} \right) - \left( \begin{array} { c c c c } { 0.09 } & { 0.1 } & { 0.086 } & { 0.024 } \ { 0.1 } & { 0.111 } & { 0.096 } & { 0.027 } \ { 0.086 } & { 0.096 } & { 0.082 } & { 0.023 } \ { 0.024 } & { 0.027 } & { 0.023 } & { 0.006 } \end{array} \right) } \ { = \left( \begin{array} { r r r r } { 0.21 } & { - 0.1 } & { - 0.086 } & { - 0.024 } \ { - 0.1 } & { 0.222 } & { - 0.096 } & { - 0.027 } \ { - 0.086 } & { - 0.096 } & { 0.204 } & { - 0.023 } \ { - 0.024 } & { - 0.027 } & { - 0.023 } & { 0.074 } \end{array} \right) } \end{array} \right. $$

Mean sample persamaan (3.6 ) adalah $$ \hat { \mu } = \hat { p } = ( 2 / 5,3 / 5 ) ^ { T } = ( 0.4,0.6 ) ^ { T } $$ dan matrik kovarian sample (3.9) adalah $$ \hat { \Sigma } = \hat { P } - \hat { p } \hat { p } ^ { T } = \left( \begin{array} { c c } { 0.4 } & { 0 } \ { 0 } & { 0.6 } \end{array} \right) - \left( \begin{array} { l } { 0.4 } \ { 0.6 } \end{array} \right) \left( \begin{array} { l l } { 0.4 } & { 0.6 } \end{array} \right)\ \hspace{50mm}= \left( \begin{array} { c c } { 0.4 } & { 0 } \ { 0 } & { 0.6 } \end{array} \right) - \left( \begin{array} { c c } { 0.16 } & { 0.24 } \ { 0.24 } & { 0.36 } \end{array} \right) = \left( \begin{array} { r r } { 0.24 } & { - 0.24 } \ { - 0.24 } & { 0.24 } \end{array} \right) $$ Tabel 3.2 (a) Dataset Kategorical (b) dataset yang telah dipetakan ke biner © dataset yang telah dicentering

Untuk menunjukkan bahwa hasilnya sema yang telah diperoleh dengan analisa standar numerik, kita memetakan atribut kategorical X menjadi dua atribut Bernoulli A_1 dan A_2 masing masing dengan simbol Long dan Short masing masing. Dataset yang dipetakan ditunjukkan dalam tabel 3.2b. Mean sampel sederhana diperolah dengan $$ \hat { \mu } = \frac { 1 } { 5 } \sum _ { i = 1 } ^ { 5 } x _ { i } = \frac { 1 } { 5 } ( 2,3 ) ^ { T } = ( 0.4,0.6 ) ^ { T } $$ Selanjutnyaang te, kita centerkan dataset dengan mengurangkan mean dari masing masing atribut. Setelah dicentering, dataset dipetakan seperti yang ditunjukkan dalam tabel 3.2 dengan atribut Z_i seperti atrbut yang telah dicenter A_i. KIta dapat menghitung matrik covarian dengan menggunakan inner product [persamaan2.30] pada kolom yang telah dipusatkan. Kita miliki

$$ \left. \begin{array}{l}{ \sigma _ { 1 } ^ { 2 } = \frac { 1 } { 5 } Z _ { 1 } ^ { T } Z _ { 1 } = 1.2 / 5 = 0.24 }\{ \sigma _ { 2 } ^ { 2 } = \frac { 1 } { 5 } Z _ { 2 } ^ { T } Z _ { 2 } = 1.2 / 5 = 0.24 }\{ \sigma _ { 12 } = \frac { 1 } { 5 } Z _ { 1 } ^ { T } Z _ { 2 } = - 1.2 / 5 = - 0.24 }\end{array} \right. $$ Kemudian matrik kovarian sample dinyatakan dengn

$$ \hat { \Sigma } = \left( \begin{array} { r r } { 0.24 } & { - 0.24 } \ { - 0.24 } & { 0.24 } \end{array} \right) $$ yang sesuai dengan hasil yang diperoleh dengan menggunakan pendekatan model Bernoulli multivariate.

Analisa Bivariate

Asumsikan data terdiri dari dua atribut kategorikal X_1 dan X_2 dengan $$ \left. \begin{array} { l } { \operatorname { dom } ( X _ { 1 } ) = { a _ { 11 } , a _ { 12 } , \ldots , a _ { 1 m _ { 1 } } } } \ { \operatorname { dom } ( X _ { 2 } ) = { a _ { 21 } , a _ { 22 } , \ldots , a _ { 2 m _ { 2 } } } } \end{array} \right. $$

Kita telah memberikan n titik kategorical dari bentuk $x_i=(x_{i1},x_{i2})^T $ dengan x_{i1} \in dom(X_1) dan x_{i2} \in dom(X_2). Dataset adalah matrik simbolik n\times 2 yaitu $$ D = \left( \begin{array} { c c } { X _ { 1 } } & { X _ { 2 } } \ \hline x _ { 11 } & { x _ { 12 } } \ { x _ { 21 } } & { x _ { 22 } } \ { \vdots } & { \vdots } \ { x _ { n 1 } } & { x _ { n 2 } } \end{array} \right) $$ Kita dapat memodelkan X_1 dan X_2 sebagai variabel Bernoulli multivariate X1 dan $ X_2$ dengan dimensi m_1 dan m_2. Fungsi massa probabilitas untuk X_1 dan X_2 dinyatakan dengan sesuai persamaan (3.4) $$ \left. \begin{array} { l } { P ( X _ { 1 } = e _ { 1 i } ) = f _ { 1 } ( e _ { 1 i } ) = p _ { i } ^ { 1 } = \prod _ { k = 1 } ^ { m _ { 1 } } ( p _ { i } ^ { 1 } ) ^ { c _ { i k } ^ { 1 } } } \ { P ( X _ { 2 } = e _ { 2 j } ) = f _ { 2 } ( e _ { 2 j } ) = p _ { j } ^ { 2 } = \prod _ { k = 1 } ^ { m _ { 2 } } ( p _ { j } ^ { 2 } ) ^ { e _ { j k } ^ { 2 } } } \end{array} \right. $$