INTERAKSI MANUSIA & KOMPUTER EVALUASI INTERAKSI MANUSIA & KOMPUTER
Evaluasi Empiris Pengenalan Evaluasi Empiris Perancangan Eksperimen Partisipasi, IRB dan Etika Pengumpulan Data Analisa Data dan Interpretasi Hasil Penggunaan Hasil Rancangan
Why Evaluate? Recall: Pengguna dan tugasnya diidentifikasi Kebutuhan dan persyaratan telah ditentukan Interface didesain, prototipenya dibangun Tapi apakah ada gunanya? Apakah sistem mendukung pengguna dalam tugas mereka? Apakah lebih baik dari apa yang ada sebelumnya (jika ada)?
Tipe-tipe Evaluasi Interpretasi dan Prediktif (pengingat) Evaluasi heuristik, panduan kognitif, etnografi ... Sumatif vs formatif Penilaian sumatif ini lebih bersifat punishment (memutuskan / menentukan) keberhasilan dan atau kegagalan Penilaian formatif bersifat fragmental atau bagian per bagian secara terpisah-pisah
Sekarang dengan Keterlibatan User Naturalistic (Naturalis) Empirical (Empiris) Dalam setting yang realistis, biasanya mencakup beberapa observasi terpisah, penelitian cermat terhadap pengguna Orang menggunakan sistem, memanipulasi variabel independen dan mengamati yang dependen
Mengapa Mengumpulkan Data? Merancang eksperimen untuk mengumpulkan data untuk menguji hipotesis untuk mengevaluasi antarmuka guna memperbaiki disain Informasi yang dikumpulkan dapat berupa: Objektif atau subjektif Informasi juga bisa: Kualitatif atau kuantitatif
Melakukan Eksperimen Tentukan TUGAS Tentukan ukuran kinerja Mengembangkan eksperimen Persetujuan IRB (Institutional Review Board) Merekrut peserta Kumpulkan data Memeriksa & menganalisa data Buat kesimpulan untuk menyelesaikan masalah desain Merancang ulang dan menerapkan antarmuka yang telah direvisi
The Task Benchmark task - mengumpulkan data kuantitatif Tugas yang representatif - menambah luas, dapat membantu memahami proses Katakan pada mereka apa yang harus dilakukan, bukan bagaimana melakukannya Masalah: Lab pengujian vs lapangan pengujian Validitas - pengguna biasa; tugas tipikal; Pengaturan yang khusus? Jalankan versi percobaan untuk menyingkirkan bug
“Benchmark” Tasks Tugas spesifik dan jelas yang dilakukan oleh pengguna Contoh: Email handler "Temukan pesan dari Mary dan balas dengan jawaban 'Selasa pagi pukul 11'.“ Pengguna melakukan ini dalam berbagai kondisi dan analis mengukur kinerjanya
Mendefinisikan Kinerja Berdasarkan tugasnya Ukuran / metrik spesifik dan obyektif Contoh: Kecepatan (waktu reaksi, waktu untuk menyelesaikan) Akurasi (kesalahan, hit / misses) Produksi (jumlah file yang diproses) Skor (jumlah poin yang didapat) ... Dan yang lainnya ...
Tipe Variabel Independen Dependen Apa yang dipelajari, apa yang disukai bervariasi (mis., Fitur antarmuka, perangkat interaksi, teknik seleksi) Independen Ukuran kinerja yang dicatat atau diperiksa (mis., Waktu, jumlah kesalahan) Dependen
Variabel “Controlling” Mencegah sebuah variabel mempengaruhi hasil dengan cara yang sistematis Metode pengendalian untuk variabel: Jangan biarkan bervariasi Misalnya, Semua laki-laki Biarkan bervariasi secara acak Misalnya, secara acak menugaskan peserta ke grup yang berbeda Penyeimbang (Counter Balance) - secara sistematis memvariasikannya Misalnya, jumlah laki-laki yang sama, perempuan di setiap kelompok Pilihan yang tepat tergantung pada keadaan
Hipotesis Apa yang diprediksi akan terjadi Lebih spesifik lagi, cara Anda memprediksi variabel dependen (yaitu, akurasi) akan bergantung pada variabel independen (s) Hipotesis "Null" (Ho) Menyatakan bahwa tidak akan ada efeknya Misalnya, "Tidak akan ada perbedaan kinerja antara kedua kelompok" Data yang digunakan untuk membantah hipotesis null ini
Contoh Hipotesis Apakah orang menyelesaikan operasi lebih cepat dengan layar hitam-putih atau warna? Independent display type (warna atau b/w) Dependent waktu untuk menyelesaikan tugas (menit) Variabel terkontrol jumlah laki-laki dan perempuan yang sama di setiap kelompok Hipotesis Waktu untuk menyelesaikan tugas akan lebih pendek bagi pengguna dengan tampilan warna Ho: Timecolor = Timeb/w Catatan : Di dalam/di antara masalah desain, selanjutnya
TERIMA KASIH