1 Analisis Data Output Slide terutama diambil dari: “The Art of Computer Systems Performance Analysis” by Raj Jain, Wiley 1991. [Chapters 12, 13, and 25]

Slides:



Advertisements
Presentasi serupa
STATISTIKA INFERENSI : UJI HIPOTESIS (SAMPEL GANDA)
Advertisements

Distribusi Chi Kuadrat, t dan F
PENGUJIAN HIPOTESIS SAMPEL KECIL
BAB VI UKURAN VARIASI ATAU DISPERSI (Pengukuran Dispersi) (Pertemuan ke-8) Oleh: Andri Wijaya, S.Pd., S.Psi., M.T.I. Program Studi Sistem Informasi Sekolah.
Statistika Inferensi : Estimasi Titik & Estimasi Interval
ESTIMASI.
Dr. Ananda Sabil Hussein
(MEASURES OF DISPERSION)
Studi Deskriptif dan Analisis Data Dasar
BAB 15 ANALISIS REGRESI DAN KORELASI LINIER
1 6 Statistika Deskriptif. © John Wiley & Sons, Inc. Applied Statistics and Probability for Engineers, by Montgomery and Runger. Ringkasan Numerik dari.
UKURAN DISPERSI Presented by Astuti Mahardika, M.Pd.
Review Statistik (pertemuan 7). Konsep Tendensi Pusat Ukuran tendensi pusat adalah sembarang ukuran yang menunjukkan pusat segugus data, yang telah.
Analisis Output Pemodelan Sistem.
© 2002 Prentice-Hall, Inc.Chap 6-1 Metode Statistika I Interval Konfidensi.
Estimasi (Pendugaan) TOPIK Pengertian Estimasi Estimasi titik Nilai rata-rata populasi Nilai proporsi populasi Estimasi Interval Estimasi interval.
Probabilitas dan Statistika BAB 10 Uji Hipotesis Sampel Ganda
BAB 15 ANALISIS REGRESI DAN KORELASI LINIER
STATISTIK INFERENSIAL
Analisis Data Kuantitatif
Kuliah ke 9 ESTIMASI PARAMETER SATU POPULASI
TENDENSI SENTRAL.
T – test
KONSEP TEORI STATISTIK
STATISTIKA INFERENSI : UJI HIPOTESIS (SAMPEL GANDA)
STATISTIK DESKRIPTIF.
UKURAN PENYEBARAN (VARIABILITAS)
Statistika Inferensi : Estimasi Titik & Estimasi Interval
Probabilitas dan Statistik
Metode Penelitian Ilmiah
STATISTIKA INFERENSI : UJI HIPOTESIS (SAMPEL GANDA)
STATISTIKA Mean, Median dan Modus.
Perhitungan jumlah dan presentasi data
Analisis Univariat dan Bivariat
BIOSTATISTIK DESKRIPTIF
UKURAN NILAI SENTRAL&UKURAN PENYEBARAN
FUNGSI STATISTIK. SEBAGAI ALAT PENYAJI DATA.
UKURAN VARIASI ATAU DISPERSI (Pengukuran Dispersi)
Ukuran Pemusatan (Central Tendency)
Distribusi Sampling Juweti Charisma.
STATISTIKA INDUSTRI I ANALISIS REGRESI DAN KORELASI LINIER (1)
STATISTIK1 Pertemuan 5: Ukuran Penyebaran Dosen Pengampu MK:
UKURAN-UKURAN STATISTIK
Statistika Inferensi : Estimasi Titik & Estimasi Interval
UKURAN NILAI SENTRAL&UKURAN PENYEBARAN
ESTIMASI dan HIPOTESIS
Statistika Pertemuan ke – 8 dan ke – 9.
PROBABILITAS dan DISTRIBUSI
STATISTIK1 Pertemuan 3: Ukuran Pemusatan dan Penyebaran
ESTIMASI.
STATISTIKA INDUSTRI I ANALISIS REGRESI DAN KORELASI LINIER (1)
UKURAN NILAI SENTRAL&UKURAN PENYEBARAN
STATISTIK Pertemuan 6: Teori Estimasi (Interval Konfidensi)
PPS 503 TEKNIK ANALISA DATA PERTEMUAN KE DUA
TENDENCY CENTRAL Data Interval.
STATISTIKA DESKRIPTIF
BAB 14 PENGUJIAN HIPOTESIS SAMPEL KECIL
STATISTIK 1 Pertemuan 5,6: Ukuran Pemusatan dan Penyebaran
OLEH : RESPATI WULANDARI, M.KES
STATISTIKA Pertemuan 3: Ukuran Pemusatan dan Penyebaran
STATISTIKA Pertemuan 3: Ukuran Pemusatan dan Penyebaran
Rancangan Acak Lengkap
NILAI STATISTIKA DESKRIPTIF
Mendeskripsikan Data Fadjar Pambudhi.
Penaksiran Parameter Bambang S. Soedibjo.
Statistika Inferensi : Estimasi Titik & Estimasi Interval
DASAR-DASAR STATISTIKA
Pertemuan 11 Studi Deskriptif dan Analisis Data Dasar.
OLEH : SITTI HAWA, ST, MPW.  Ukuran pemusatan atau disebut rata – rata adalah menunjukan dimana suatu data memusat atau suatu kumpulan pengamatan memusat.
STATISTIKA DESKRIPTIF Tendensi Sentral & Ukuran Dispersi KELOMPOK 2.
Transcript presentasi:

1 Analisis Data Output Slide terutama diambil dari: “The Art of Computer Systems Performance Analysis” by Raj Jain, Wiley [Chapters 12, 13, and 25]

2 Outline r Pengukuran Central Tendency m Mean, Median, Mode r Bagaimana merangkum Variabilitas? r Membandingkan sistem dengan menggunakan Sample Data r Membandingkan dua alternatif r Transient Removal

3 Pengukuran Central Tendency (1) r Sample mean – Jumlah semua hasil observasi dibagi banyaknya observasi m Selalu ada dan unik m Mean memberikan beban yang sama pada semua observasi m Mean sangat dipengaruhi oleh outlier r Sample median – daftar hasil observasi dengan urutan naik; hasil observasi yang di tengah adalah median; m # observasi genap – mean dari dua nilai tengah m Selalu ada dan unik m Tidak terpengaruh outlier

4 Pengukuran Central Tendency (2) r Modus sample – plot histogram dari observasi; temukan puncak dengan frekuensi paling besar; titik ini adalah modus; m Modus mungkin tidak ada (yaitu, semua sample memiliki frekuensi yang sama) m Bisa lebih dari satu (yaitu, bimodal) m Jika hanya ada satu modus, distribusi tersebut adalah unimodal mode

5 Pengukuran Central Tendency (3) r Pakah data categorical? m Ya: gunakan modus m Contoh: sumber daya yang paling banyak dipakai dalam sistem r Apakah jumlah total penting? m Ya: gunakan mean m Contoh: total response time untuk Web requests r Apakah distribusi tidak simetris? m Ya: gunakan median Median lebih tidak terpengaruh oleh outlier, dibandingkan dengan mean. m Tidak: gunakan mean. Kenapa?

6 Penyalahgunaan Mean yang umum (1) r Kegunaan mean bergantung pada jumlah observasi dan varians m Contoh: dua sample response time: 10 ms and 1000 ms. Mean adalah 505 ms! Nilai yang benar, tetapi tidak ada gunanya. r Penggunaan mean tanpa,mempedulikan ketaksimetrisan Sistem A Sistem B Mean: 1010 Modus:105 Min,Max : [9,11] [4,31]

7 Penyalahgunaan Mean yang umum(2) r Mean suatu hasil kali dengan mengalikan mean m Mean suatu hasil kali sama dengan hasil kali mean jika kedua variabel acak tersebut independen. m Jika x dan y berkorelasi E(xy) != E(x)E(y) m Rata-rata user pada sistem system 23; rata-rata proses/user 2. Rata-rata # proses pada sistem? Apakah sama dengan 46? m Tidak! Umlah proses yang dipakai bersama oleh user bergantung pada beban.

8 Outline r Pengukuran Central Tendency r Bagaimana merangkum Variabilitas? r Membandingkan sistem dengan menggunakan Sample Data r Membandingkan dua alternatif r Transient Removal

9 Merangkum Variabilitas r Merangkum dengan satu bilangan cukup jarang dilakukan m Jika ada dua sistem dengan mean yang sama, kita biasanya memilih yang variabilitasnya lebih rendah Frequency Mean=2s Response Time 1.5 s 80% 4 s 20% Frequency Mean=2s Response Time 60% ~ s 40% ~5 s r Indeks penyebaran Range, Varians, 10- dan 90-percentil, Semi-interquantile range, dan mean absolute deviation

10 Range (kisaran) r Mudah dihitung; range = max – min r Pada banyak skenario, tidak terlalu berguna: m Min mungkin sama dengan nol m Max bisa jadi merupakan “outlier”  Dengan lebih banyak sample, max mungkin terus naik, dan min mungkin terus turun → tidak ada titik “stabil” r Range berguna jika kinerja sistem terbatas

11 Varians dan Standard Deviasi r Jika ada sample dari n observasi {x 1, x 2, …, x n }, varians sample dihitung sebagai: r Varians sample: s 2 (kuadrat satuan observasi) r Standard deviasi sample: s (dalam satuan observasi) r Perhatikan (n-1) pada perhitungan varians m (n-1) dari n selisih bersifat independen m Jika ada (n-1) selisih, selisih ke-n dapat dihitung m Jumlah independent terms adalah “derajat kebebasan” / degrees of freedom (df)

12 Standard Deviasi (SD) r Standard deviasi dan mean memiliki satuan yang sama m Lebih baik! m Contoh a) Mean = 2 s, SD = 2 s; variabilitas tinggi? m Contoh b) Mean = 2 s, SD = 0.2 s; variabilitas rendah? r Pengukuran lain yang banyak digunakan – C.O.V m C.O.V = Rasio standard deviasi terhadap mean m C.O.V tidak memiliki satuan m C.O.V menunjukkan besar variabilitas m C.O.V pada (a) adalah 1 dan pada (b) adalah.1

13 Percentile, Quantile, Quartile r Batas atas dan bawah dinyatakan dalam persen atau pecahan  90-percentile → 0.9-quantile m  –quantile: men-sort dan mengambil [(n-1)  +1] th observasi [] mean dibulatkan ke integer terdekat  Quartile membagi data menjadi bagian 25%, 50%, 75% → quartile (Q1, Q2, Q3) m 25% dari observasi ≤ Q1 (quartile pertama) m Quartile kedua Q2 juga merupakan median r Range (Q3 – Q1) adalah interquartile range m (Q3 – Q1)/2 adalah semi-interquartile (SIQR) range

14 Mean Absolute Deviation r Mean absolute deviation dihitung sebagai:

15 Pengaruh Outlier r Range: besar r Varians sample: besar, tetapi lebih kecil dari range r Mean absolute deviation: lebih kecil dari varians m Tidak mengkuadratkan (memperbesar) outlier r SIQR range: sangat resistant r Gunakan SIQR untuk indeks penyebaran jika median dipakai sebagai indeks central tendency

16 Outline r Pengukuran Central Tendency r Bagaimana merangkum Variabilitas? r Membandingkan Sistem dengan Mengunakan Sample Data m Sample vs. Populasi m Confidence Interval untuk Mean r Membandingkan dua alternatif r Transient Removal

17 Membandingkan Sistem dengan menggunakan Sample Data r Kata “sample” dan “example” memiliki akar yang sama – “essample” (French) r Satu sample tidak membuktikan teori – satu sample hanya merupakan satu contoh (example) r Pada intinya – tidak dapat diberikan pernyataan yang pasti mengenai karakteristik semua sistem. r Bagaimanapun, pernyataan probabilistik mengenai range sebagian besar sistem dapat dibuat. r Konsep Confidence interval (interval kepercayaan) sebagai building block

18 Sample versus Populasi r Bangkitkan 1-juta bilangan acak m Dengan mean  dan SD  dan letakkan di satu tempat r Anbil sample dari n observasi m {x 1, x 2, …, x n } memiliki mean, standard deviasi s r mungkin berbeda dari  ! r Di dunia nyata, mean populasi  tidak diketahui atau tidak mungkin didapati m Dengan demikian, dapatkan estimasi  dari x x x

19 Confidence Interval untuk Mean r Definisikan batas c 1 dan c 2 sedemikian sehingga: Prob{c 1 <  < c 2 } = 1-  m (c 1, c 2 ) adalah confidence interval m  adalah significance level m 100(1-  ) adalah confidence level r Biasanya diinginkan  yang kecil m confidence level 90%, 95% atau 99% r Satu pendekatan: ambil k sample, cari sample mean, sort, dan ambil ke-[1+0.05(k-1)] sebagai c 1 dan ke-[1+0.95(k-1)] th sebagai c 2

20 Teorema Central Limit (CLT) r Kita tidak membutuhkan banyak sample. Confidence interval dapat ditentukan dari satu sample, karena ~ N( ,  /sqrt(n)) r SD sample mean  /sqrt(n) disebut Standard error r Dengan menggunakan CLT, confidence interval 100(1-  )% untuk mean populasi adalah ( -z 1-  /2 s/sqrt(n), +z 1-  /2 s/sqrt(n)) m z 1-  /2 adalah quantil (1-  /2) dari unit normal variate (didapat dari tabel!) m s adalah SD sample x x x

21 Contoh Confidence Interval r Waktu CPU didapat dengan mengulangi eksperimen sebanyak 32 kali. Himpunan yang telah di-sort terdiri dari m {1.9,2.7,2.8,2.8,2.8,2.9,3.1,3.1,3.2,3.2,3.3,3.4,3.6,3.7,3.8,3.9,3.9,4.1,4. 1,4.2,4.2,4.4,4.5,4.5,4.8,4.9,5.1,5.1,5.3,5.6,5.9} m Mean = 3.9, standard deviasi (s) = 0.95, n=32 r Untuk confidence interval 90%, z 1-  /2 = 1.645, dan kita dapatkan { (1.645)(0.95)/(sqrt(32))} = (3.62,4.17)

22 Arti Confidence Interval (CI) xx - c x + c 90% kemungkinan bahwa interval ini berisi  r Dengan confidence 90%, kita dapat mengatakan bahwa mean populasi berada dalam batasan ini; yaitu, kemungkinan error adalah 10%. m Contoh, Ambil 100 sample dan buat CI. Dalam 10 kasus, interval tidak berisi mean populasi.

23 Besar Confidence Interval r z 1-  /2 s/sqrt(n) = c r Maka, z 1-  /2 = (c.sqrt(n))/s m s yang lebih besar menunjukkan confidence interval yang lebih besar m n yang lebih besar menunjukkan confidence interval yang lebih pendek → dengan observasi yang lebih banyak, kita dapat melakukan prediksi yang lebih baik terhadap mean populasi → hubungan akar kuadrat n menunjukkan bahwa penambahan observasi sebesar faktor 4 hanya mengurangi confidence interval dengan faktor 2. r Perhitungan Confidence Interval seperti yang dijelaskan di sini, hanya berlaku untuk n ≥ 30.

24 Bagaimana jika n tidak besar? r Untuk sample yang lebih sedikit, confidence interval dapat dibuat hanya jika populasi terdistribusi normal m t [1-α/2;n-1] adalah quantil (1-α/2) dari t-variate dengan derajat kebebasan (n-1)

25 Pengujian Zero Mean r Cek apakah nilai yang terukur jauh berbeda dari nol r Tentukan confidence interval r Cek apakah nol ada di dalam interval 0 mean Mean is zero Mean is nonzero

26 Outline r Pengukuran Central Tendency r Bagaimana merangkum Variabilitas? r Membandingkan sistem dengan menggunakan Sample Data r Membandingkan dua alternatif r Transient Removal

27 Membandingkan Dua Alternatif r Contoh m Penjadwalan “SJF” vs. “FIFO” r Teknik statistik untuk perbandingan seperti ini: m Observasi berpasangan m Observasi tidak berpasangan m Aproksimasi uji visual

28 Observasi berpasangan (1) r n eksperimen dengan korespondensi satu-satu antara pengujian pada sistem A dengan pengujian pada sistem B m Tidak ada korespondensi => tidak berpasangan m Uji ini menggunakan ide mean nol… r Perlakukan kedua sample sebagai satu sample dengan n pasang r Untuk setiap pasangan, hitung selisihnya r Buat confidence interval untuk selisih m CI termasul nol => sistem tidak banyak berbeda

29 Observasi berpasangan (2) r Enam beban kerja yang hampir sama digunakan pada dua sistem. {(5.4, 19.1), (16.6, 3.5), (0.6,3.4), (1.4,2.5), (0.6, 3.6) (7.3, 1.7)} Apakah salah satunya lebih baik? r Selisih kinerja adalah {-13.7, 13.1, -2.8, -1.1, -3.0, 5.6} r Sample mean = -.32, sample SD = 9.03 r CI = t[sqrt(81.62/6)] = t(3.69) r Quantil.95 dari t dengan DF 5 adalah r Confidence interval 90% = (-7.75, 7.11) r Sistem tidak berbeda karena mean nol ada dalam CI

30 Aproksimasi Uji Visual r Hitung confidence interval untuk mean r Jika CI tidak bertumpangan, satu sistem lebih baik dari yang lainnya mean CI tidak bertumpangan => alternatif berbeda CI betumpangan dan mean yang satu lebih baik dari yang lain => tidak banyak berbeda CI bertumpangan tetapi mean yang satu tidak berada pada CI yang lain => perlu pengujian lagi

31 Menentukan Ukuran Sample r Tujuan: menentukan ukuran sample n sekecil mungkin sehingga hasil dapat dipercaya r Metode: m himpunan pengukn awal m estimasi varians pengukuran m gunakan estimasi untuk menentukan ukuran sample untuk ketepatan r Akurasi r% => +r% pada confidence 100(1-  )%

32 Outline r Pengukuran Central Tendency r Bagaimana merangkum Variabilitas? r Membandingkan sistem dengan menggunakan Sample Data r Membandingkan dua alternatif r Transient Removal

33 Transient Removal r Pada banyak simulasi, diinginkan adanya steady state performance m Buang status transient awal r Bagaimanapun, pendefinisian status transient secara tepat cukup sulit! r Dikembangkan beberapa heuristik : m Long run m Inisialisasi yang layak m Truncation m Penghapusan data awal m Membuang rata-rata replika m Batch mean

34 Long Run r Penggunaan long run (percobaan yang lama/banyak) r Dampak status transient dapat diabaikan r Penggunaan sumber daya yang sia-sia r Seberapa banyak menjadi “cukup banyak”? r Metode ini diusulkan untuk digunakan secara terpisah

35 Batch Mean r Jalankan simulasi untuk waktu lama r Bagi observasi (N) menjadi m batch, masing-masing dengan ukuran n r Hitung varians batch mean dengan menggunakan prosedur untuk n = 2, 3, 4, 5 … r Plot varians vs. ukuran batch Abaikan Varians Batch mean Ukuran batch n Transient interval