Presentasi sedang didownload. Silahkan tunggu

Presentasi sedang didownload. Silahkan tunggu

Transformasi Data dan Statistika Inferensia

Presentasi serupa


Presentasi berjudul: "Transformasi Data dan Statistika Inferensia"— Transcript presentasi:

1 Transformasi Data dan Statistika Inferensia
Wahyu Dwi Lesmono, S.Si

2 Apa itu Transformasi Data?
Perubahan data dari variabel yang sebenarnya menjadi skala konversi nilai tertentu. Transformasi data dapat dilakukan untuk data numerik.

3 Tujuan/Alasan Dilakukannya Transformasi Data
Mengubah data menjadi skala yang berbeda Meningkatkan kecocokan data dengan asumsi yang mendasari pada proses pemodelan Melinearisasikan hubungan antara 2 variabel yang hubungannya tidak linear Memodifikasi rentang nilai dari suatu variabel Mengetahui distribusi dari suatu data Memudahkan interpretabilitas Menormalkan suatu data

4 Bentuk Transformasi Paling Umum
Menurut Tukey (1977) dalam judul buku Exploratory Data Analysis memberikan penjelasan mengenai fungsi transformasi yang paling umum digunakan tergantung banyaknya satuan angka pada data yang disebut dengan “The Ladder of Transformations”: Semakin ke kiri maka transformasi yang digunakan untuk angka yang banyak satuan angkanya. Semakin ke kanan maka transformasi yang digunakan untuk angka yang sedikit satuan angkanya (desimal)

5 Transformasi Box-Cox Transformasi pangkat berparameter tunggal λ terhadap nilai peubah acak X yang digunakan untuk menormalisasikan data. Nilai λ berkisar diantara -5 hingga 5. Nilai λ yang optimal didapat dengan menggunakan perhitungan profile likelihood.

6 Bentuk Transformasi Box-Cox yang Umum
λ Nama Transformasi -2 Y-2 = 1/Y2 Resiprokal Kuadrat -1 Y-1 = 1/Y1 Resiprokal -0.5 Y-0.5 = 1/√Y Resiprokal Akar Kuadrat ln(Y) Logaritma Natural 0.5 √Y Akar Kuadrat 1 Y Tanpa Transformasi 2 Y2 Kuadrat

7 Alternatif Transformasi Box-Cox
Apabila transformasi Box-Cox tidak memenuhi kenormalan pada data, maka dapat menggunakan alternatif transformasi sebagai berikut: Transformasi Arc Sin Transformasi Johnson

8 Skewness dan Kurtosis Skewness (Kemencengan) merupakan suatu ukuran/derajat distribusi pada data untuk mengetahui bentuk simetrik dari suatu distribusi pada data. Simetris sempurna (distribusi normal) terjadi apabila nilai skewness dari suatu data adalah 0. Kurtosis (Keruncingan/Ketinggian) merupakan suatu ukuran/derajat distribusi pada data untuk mengetahui bentuk keruncingan atau kelandaian dari suatu distribusi pada data. Suatu data dikatakan memiliki keruncingan yang baik (distribusi normal) apabila nilai kurtosis dari suatu data adalah 0.

9 Bentuk Distribusi dan Nilai Skewness dan Kurtosis yang Baik
Dataset dengan nilai skewness dan kurtosis sama dengan 0 yang menunjukkan data sempurna atau data berdistribusi normal.

10 Bentuk Distribusi dan Nilai Skewness
Menceng ke kanan (Kemencengan positif) Menceng ke kiri (Kemencengan negatif)

11 Bentuk Distribusi dan Nilai Kurtosis
Ketinggian meruncing (Keruncingan positif) Ketinggian melandai (Keruncingan negatif)

12 Boxplot Boxplot merupakan penyajian data kuantitatif dalam bentuk diagram berupa kotak dan garis. Diagram boxplot menunjukkan letak kuartil 0 (minimum/batas bawah), kuartil 1, kuartil 2 (median), kuartil 3, kuartil 4 (maksimum/batas atas) pada data, serta adanya pencilan (outlier) pada data. Kegunaan Boxplot: Mengetahui pemusatan (tendensi sentral) pada data Mengetahui penyebaran (dispersi) pada data Mengetahui simetris suatu data Mengetahui ketinggian suatu data Mengetahui pencilan pada data

13 Bentuk Umum Boxplot Tanpa Pencilan

14 Bentuk Umum Boxplot dengan Pencilan

15 Boxplot Sebagai Indikator Tendensi Sentral Data
Boxplot dengan sampel sebanyak 20 titik dari suatu populasi memusat di 7. Boxplot dengan sampel sebanyak 20 titik dari suatu populasi memusat di 12.

16 Boxplot Sebagai Indikator Dispersi Data
Boxplot dengan sampel sebanyak 20 titik dari suatu populasi memusat di 10 dengan simpangan baku 3. Boxplot dengan sampel sebanyak 20 titik dari suatu populasi memusat di 7 dengan simpangan baku 1.

17 Boxplot Sebagai Indikator Simetris
Boxplot dengan ukuran sampel 20 titik dari populasi simetris. Garis mendekati kotak tengah dan panjang ujungnya sama. Boxplot dengan ukuran sampel 20 titik dari populasi yang menceng ke kanan. Ujung atas lebih panjang dibandingkan ujung bawah dan garisnya menuju ke arah bawah kotak. Boxplot dengan ukuran sampel 20 titik dari populasi yang menceng ke kiri. Ujung bawah lebih panjang dibandingkan ujung atas dan garisnya menuju ke arah atas kotak.

18 Boxplot Sebagai Indikator Keruncingan
Boxplot dengan ukuran sampel 20 titik dari populasi dengan ujung garis yang panjang. Panjang ujung garis melebihi panjang kotak. Ujung garis yang proposional akan memberikan panjang ujung garis yang sama dengan panjang kotak. Atau sedikit panjang Boxplot dengan ukuran sampel 20 titik dari populasi dengan ujung garis yang pendek. Panjang ujung garis lebih pendek dibandingkan panjang yang ada dalam kotak Boxplot dengan ukuran sampel 20 titik dari populasi dengan ujung garis yangsangat pendek. Dalam kasus ini, terkadang tidak terdapat ujung garis sama sekali.

19 Beberapa Uji Normalitas dan Deteksi Kenormalan Data
Kolmogorov-Smirnov Test Anderson-Darling Test Shapiro-Wilk Test Jarque-Bera Test Ryan-Joiner Test Liliefors Test Rasio Kurtosis dan Rasio Skewness Bentuk Boxplot dan Histogram P-P Plot dan Q-Q Plot

20 Statistika Inferensia
Statistika Inferensia merupakan bagian dari analisis dan eksplorasi data untuk menguji dan menyimpulkan suatu data dari tujuan, hipotesis, dan kriteria yang ditentukan.

21 Bahasan Statistika Inferensia
Asumsi Statistika Teori Keputusan Statistika Teori Estimasi Uji Hipotesis Statistika Jajak Pendapat dalam Statistika Model Statistika Survey Sampling Data Ringkasan Statistik Nomor 1-4 berkaitan dengan kesimpulan pada analisis dan eksplorasi data (statistika proposisi). Nomor 5-8 berkaitan dengan proses pada analisis dan eksplorasi data.

22 Statistika Proposisi Titik Penduga = mencari pendekatan terbaik dari parameter yang telah ditentukan. Selang Penduga (Selang kepercayaan/himpunan kepercayaan) = interval yang mengandung nilai parameter yang sebenarnya dengan peluang yang dinyatakan sebagai tingkat kepercayaan Selang kredibel = tingkat kepercayaan dari suatu himpunan nilai tertentu Penolakan hipotesis Clustering atau klasifikasi titik data menjadi sekumpulan grup

23 Pengujian Statistika yang Paling Umum Digunakan
Mengetahui kesamaan nilai statistika deskriptif antar variabel Mengetahui hubungan antar variabel Mengetahui pengaruh (perubahan) antar variabel Mengetahui pemenuhan asumsi statistik Mengetahui pola, sumber, kelompok data statistik Mengetahui kelayakan dan perbandingan model statistik yang dibentuk Mengetahui kecukupan, kefektifan, keefisiensi, kelengkapan, dan keasimtotikan statistik

24 Metode Statistika Inferensia
Regresi = Uji F dan Uji t Korelasi = Uji F dan Uji t Data Kategorik = Uji Chi-Square dan Uji Binomial ANOVA = Uji F Data Deskriptif = Uji Z dan Uji t

25 Contoh Kasus 1 Berikut ini merupakan perolehan data mengenai jumlah respirasi sel aerob pada mikroaerofil sebanyak 30 yang didapat sebagai berikut: Apakah data tersebut normal? Tampilkan ringkasan grafik pada data tersebut! Bagaimana bentuk probability plot dari data tersebut? Apabila data tidak normal, bentuk transformasi apakah yang sesuai untuk mengubah data tersebut menjadi normal? Cek kembali dengan ringkasan grafik dan probability plot apakah data tersebut sudah normal? 200 160 5 440 110 15 220 170 1 1100 210 30 80 3600 10 55 90 60 85 20 1700 35 100 430 180 N.B: Tingkat Kepercayaan 95%

26 Jawaban A Input Data di Minitab dengan Kolom Variabel C1 bernama Aerobes Stat > Basic Statistics > Graphical Summary Masukkan Variabel Aerobes ke kotak Variables Klik OK

27 Jawaban A Dari hasil ringkasan grafik disamping menunjukkan bahwa dengan menggunakan uji normalitas dengan metode Anderson-Darling dikatakan bahwa data tidak normal. Hal ini dikarenakan nilai P-Value yang lebih kecil dibandingkan nilai taraf nyata. Selain itu dapat ditunjukkan pula dari bentuk histogram yang memenceng ke kanan dan bentuk boxplot yang tidak seimbang.

28 Jawaban B Stat > Basic Statistics > Normality Test Masukkan variabel “Aerobes” ke kotak Variable Klik OK Metode uji Normalitas yang bisa dipilih tergantung kebutuhan. Biasanya dilakukan pengujian semua metode untuk mendukung keputusan apakah data normal atau tidak dari banyaknya metode yang diujikan.

29 Jawaban B Berdasarkan probability plot dengan metode Anderson-Darling menunjukkan bahwa data tidak normal. Hal ini terlihat dari plot titik yang membentuk pola vertikal tertentu dan menjauhi garis residual percentage. Selain itu, dari probability plot menunjukkan bahwa data jumlah respirasi sel aerob terdapat pencilan yang ditunjukkan dengan adanya titik yang menjauhi wilayah garis residual percentage.

30 Jawaban C Stat > Control Charts > Box-Cox Transformation Plih Observations for a subgroup in one row of columns > Masukkan variabel Aerobes ke dalam Kotak Options > Klik Optimal or rounded lamda > ketik Store transformed data in sebagai “Hasil” Klik OK > Klik OK

31 Jawaban C Dengan menggunakan transformasi Box-Cox didapat hasil transformasi yang optimal yaitu dengan menggunakan nilai λ = 0.00 sehingga bentuk transformasi yang cocok pada data jumlah respirasi sel aerob adalah: Selang kepercayaan 95% bagi ketepatan nilai λ berada diantara dan 0.10. N.B: Walaupun hasil komputasi menunjukkan bahwa nilai λ = -0.06, namun untuk mempermudah perhitungan digunakan nilai pembulatan

32 Jawaban D Dari hasil data yang sudah ditransformasikan terlihat bahwa dengan menggunakan transformasi ln Y maka data respirasi sel aerob menjadi normal. Hal ini terlihat dari nilai P-Value yang lebih besar dari taraf nyatanya, selain itu dilihat dari nilai skewness dan kurtosis yang mendekati nol serta probability plot dengan titik-titik yang menyebar mendekati garis residual percentage.

33 Contoh Kasus 2 Inna ingin melakukan penelitian mengenai berat badan ideal berdasarkan sampel 15 orang (responden) berdasarkan gender dan berat badan. Rumus berat badan ideal yang ditetapkan Inna adalah sebagai berikut: Inna memberikan kriteria bahwa batasan berat badan ideal hanya untuk responden yang berat badannya diatas 50 kilogram. (Data ada di slide berikut) Lakukan transformasi data pada berat badan sesuai dengan kasus diatas serta siapa saja yang berat badannya tergolong ideal sesuai kriteria Inna?

34 Input Data Kasus Gender: 1 = Wanita 2 = Pria

35 - Transform > Compute Variable
Target Variabel diisi Berat_Ideal > Klik Type & Label… Label diisi Berat Badan Ideal > Klik Type Numeric > Continue

36 - Klik variabel berat badan > klik tanda panah > klik
- Klik variabel berat badan > klik tanda panah > klik *0.9 pada tombol kalkulator Klik tombol If (Optional Case Selection Condition) Klik variabel berat badan > klik tanda panah > klik >50 pada tombol kalkulator Klik Continue > OK

37 Berdasarkan kriteria berat badan ideal yang ditetapkan oleh Inna, responden yang memenuhi kriteria tersebut adalah ADE, LINA, HADI, DIANA, SUSI, WENI, FARID, HADI, ADRIAN dan ADRIAN.

38 Contoh Kasus 3 Jika Inna ingin membuat peringkat berat badan dari teringan hingga terberat berdasarkan gender. Urutkan siapa saja berat badan teringan hingga terberat berdasarkan gender!

39 - Transform > Rank Cases
Masukan Variable(s) sebagai berat badan dan By sebagai gender Assign Rank 1 to pilih smallest value Klik Rank Types > Ceklis Rank > Continue Klik Ties > Pilihj Rank Assigned to Ties “Mean” > Continue Klik Ok

40 Berdasarkan hasil peringkat berat badan teringan hingga terberat berdasarkan gender diatas, didapat responden berdasarkan gender dari berat badan teringan hingga terberat yaitu: Pria: (1) HADI, (2) HADI, (3) ADE, (4) SUSI, (5) ADRIAN, (6) ADRIAN, (7) WENI Wanita: (1) IWAN, (2) WENI, (3) ANA, (4) AYU, (5) SUSI, (6) FARID, (7) DIANA, (8) LINA

41 Contoh Kasus 4 Jika Inna menetapkan kategori berat badan dengan kriteria sebagai berikut: 40 kilogram hingga 55 kilogram: Gemuk 55 kilogram hingga 70 kilogram: Gendut 70 kilogram keatas: Gembrot Siapa saja responden yang termasuk kategori yang ditetapkan Inna?

42 - Transform > Visual Binning
Masukan variabel “berat badan” ke Variables to Bin Binned Value beri nama “kategori_berat” dan Label beri nama “Kategori Berat Badan” Pada kolom Value pada baris pertama ketik 50 dengan Label Gemuk, baris kedua ketik 60 dengan label Gendut, baris ketiga dengan label Gembrot Upper Endpoints pilih Excluded (<) Klik Ok > Ok

43 Berdasarkan kategori berat badan yang ditetapkan Inna, responden yang tergolong Gemuk adalah AYU, ANA, FARID, SUSI, WENI, dan IWAN. Responden yang tergolong Gendut adalah LINA, dan DIANA. Serta responden yang tergolong Gembrot adalah ADE, HADI, SUSI, WENI, HADI, ADRIAN, dan ADRIAN.

44 Pertanyaan Tugas Besar Individu (A)
Jika pada kasus jumlah respirasi sel aerob dilakukan transformasi berupa log Y (logaritma basis 10), bagaimana hasil transformasinya? Jelaskan apakah dengan bentuk transformasi log Y akan menyebabkan data menjadi normal tanpa adanya pencilan dan bandingkan hasilnya dengan transformasi ln Y dengan log Y! Apa kesamaan hasil dari kedua bentuk transformasi tersebut! Jelaskan mengapa uji normalitas penting dilakukan dalam analisis statistika? Jika anda merupakan seorang tim ahli screening administrasi yang menyatakan bahwa tidak boleh terdapat dua nama yang sama pada data yang diperoleh Inna, lakukan screening data pada Contoh Kasus 3 untuk memeriksa kejanggalan dari data responden yang diperoleh Inna, memeriksa intepretasi/penjelasan yang didapat, serta penanggulangan dari kejanggalan yang diperoleh!

45 Pertanyaan Tugas Besar Individu (B)
Jika pada kasus jumlah respirasi sel aerob dilakukan transformasi berupa log Y (logaritma basis 10), bagaimana hasil transformasinya? Jelaskan apakah dengan bentuk transformasi log Y akan menyebabkan data menjadi normal tanpa adanya pencilan dan bandingkan hasilnya dengan transformasi ln Y dengan log Y! Apa kesamaan hasil dari kedua bentuk transformasi tersebut! Jelaskan kegunaan uji normalitas untuk analisis dan eksplorasi data! Apakah kriteria keputusan antara membandingkan nilai statistik hitung dengan statistik tabel dan membandingkan nilai P-Value dengan Taraf Nyata memberikan keputusan dan kesimpulan yang sama? Jelaskan mengapa bisa memberikan keputusan dan kesimpulan seperti itu!

46 Check Point Apakah data berat badan 15 responden yang didapat Inna menyebar normal? Jelaskan alasan anda untuk memperkuat jawaban anda apakah data tersebut normal atau tidak? Jelaskan bentuk transformasi apa yang terbaik pada data berat badan 15 responden yang didapat oleh Inna untuk memenuhi segala kekurangan asumsi pada data miliknya? Bagaimana pengaruh kategori berat badan dan gender terhadap perubahan berat badan responden? Buat Persamaan Regresinya! Model apakah yang terbaik untuk menggambarkan berat badan responden yang didapat Inna berdasarkan nomor 3?


Download ppt "Transformasi Data dan Statistika Inferensia"

Presentasi serupa


Iklan oleh Google