BAB 5. ANALISIS MARKOVIAN RISET OPERASIONAL 2, MANAJEMEN, 2 SKS
Pengantar Markov Analysis A technique dealing with probabilities of future occurrences with currently known probabilities Numerous applications in Business (e.g., market share analysis), Bad debt prediction University enrollment predictions Machine breakdown prediction TIA 310
Pengantar Penerapan pemrograman dinamis untuk pemecahan suatu proses keputusan stokhastik yang dapat dijabarkan oleh sejumlah keadaan yang terhingga. Probabilitas transisi antara keadaan dijabarkan dengan sebuah rantai Markov. Struktur imbalan dari proses ini juga dijabarkan oleh sebuah matriks dengan elemen-elemen individual yang mewakili pendapatan (atau biaya) yang dihasilkan oleh pergerakan dari satu keadaan ke keadaan lainnya. Tujuan dari masalah ini adalah menentukan kebijakan optimal yang memaksimumkan (meminimumkan) pendapatan (biaya) yang diharapkan dari proses tersebut di panjang tahap-tahap yang terhingga atau tak terhingga. TIA 310
Contoh Petani Contoh ini akan dipakai sepanjang bab ini. Contoh ini meringkaskan sejumlah penerapan penting dalam bidang sediaan, penggantian, manajemen arus kas, dan peraturan kapasitas saluran air. Setiap tahun, di awal musim tanam, seorang petani menggunakan pengujian kimia untuk memeriksa kondisi tanah. Bergantung pada hasil pengujian tersebut, produkstivitas sawah tersebut untuk musim itu dikelompokkan sebagai baik (1), sedang (2), atau buruk (3). Selama bertahun-tahun, petani tersebut melihat bahwa produktivitas tahun sekarang dapat diasumsikan hanya bergantung pada kondisi tanah tahun lalu. Probabilitas transisi di sepanjang periode 1 tahun dari satu keadaan produkstivitas ke keadaan lainnya dapat direpresentasikan dalam bentuk rantai Markov berikut ini: TIA 310
Keadaan sistem tahun depan Contoh Petani Petani tersebut dapat mengubah probabilitas transisi P1 dengan melakukan sejumlah tindakan. Umumnya, pupuk dipergunakan untuk memperbaiki kondisi tanah, yang menghasilkan matriks transisi P2 berikut ini: Untuk menempatkan masalah ini dari sudut pandang yang tepat, petani tersebut mengkaitkan suatu fungsi pengembalian laba (atau suatu struktur imbalan) dengan transisi dari satu keadaan ke keadaan lainnya. Fungsi pengembalian tersebut dinyatakan sebagai keuntungan atau kerugian dalam periode 1 tahun, bergantung pada keadaan yang terjadi dalam transisi tersebut. Keadaan sistem tahun depan 1 2 3 Keadaan sistem tahun ini 0,2 0,5 0,3 = P1 1 2 3 P2 = 0,3 0,6 0,1 0,05 0,4 0,55 TIA 310
Contoh Petani Matriks R1 dan R2 berikut meringkaskan fungsi pengembalian dalam ratusan dollar yang berkaitan dengan matrik P1 dan P2 secara berturut-turut. Bagaimana membaca matriks-matriks ini? Apa masalah yang dihadapi petani ini? Apakah kegiatan petani tersebut akan berlanjut untuk sejumlah tahun yang terbatas (disebut masalah keputusan tahap terhingga) atau praktis selamanya (masalah keputusan tahap tak terhingga)? 1 2 3 R1 = ||rij1||= 7 6 5 -1 1 2 3 R2 =||rij2||= 6 5 -1 7 4 -2 TIA 310
Contoh Petani Petani tersebut perlu menentukan arah tindakan terbaik yang harus diikuti (gunakan pupuk atau tidak) dengan diketahui hasil dari pengujian kimia (keadaan sistem). Proses optimisasi akan didasari oleh maksimasi pendapatan yang diperkirakan. Petani tersebut juga tertarik untuk mengevaluasi pendapatan yang diperkirakan yang dihasilkan dari arah tindakan yang telah ditentukan setiap kali keadaan tertentu muncul. Misalnya, pupuk dapat dipergunakan setiap kali kondisi tanah buruk (keadaan 3). Proses pengambilan keputusan dalam kasus ini dikatakan diwakili oleh kebijakan stasioner (stationary policy). Setiap kebijakan stasioner akan dikaitkan dengan satu transisi dan matriks pengembalian yang berbeda, yang, pada umumnya, dapat dibentuk dari matriks P1, P2, R1, dan R2. Misalnya, untuk kebijakan stasioner yang menyatakan penggunaan pupuk hanya ketika kondisi tanah buruk, matriks transisi dan matriks pengembalian yang dihasilkan, P dan R, secara berturut- turut adalah: TIA 310
Contoh Petani Bagaimana mendapatkan matriks P dan R itu? Apa saja kebijakan stasioner dari masalah petani ini? 0,2 0,5 0,3 P = 0,05 0,4 0,55 7 6 3 R = 5 1 -2 TIA 310
Model Pemrograman Dinamis Tahap Terhingga Petani tersebut merencanakan untuk “pensiun” setelah N tahun. Optimalitas di sini didefinisikan sedemikian rupa sehingga petani tersebut akan mengakumulasikan pendapatan yang diperkirakan tertinggi di akhir N tahun. Anggaplah k = 1 dan k = 2 mewakili dua arah tindakan (alternatif) yang tersedia bagi petani tersebut. Matriks Pk dan Rk mewakili probabilitas transisi dan fungsi imbalan untuk alternatif k yang diketahui dalam contoh di atas. Kita dapat mengekspresikan masalah petani tersebut sebagai sebuah model pemrograman dinamis (DP) tahap terhingga sebagai berikut. Anggaplah bahwa jumlah keadaan untuk setiap tahap (tahun) adalah m (= 3 dalam contoh petani ini) dan definisikan: fn(i) = pendapatan optimal yang diperkirakan untuk tahap n, n+1, …, N, dengan diketahui keadaan sistem (kondisi tanah) di awal tahun n adalah i. TIA 310
Model Pemrograman Dinamis Tahap Terhingga Persamaan rekursif mundur yang mengaitkan fn dan fn+1 dapat ditulis (lihat gambar di bawah) dengan fN+1(j) = 0 untuk semua j 1 Tahap n i . m fn(1) fn(i) fn(m) Tahap n + 1 j fn+1(1) fn+1 (j) fn+1 (m) Pi1k. ri1k Pijk. rijk Pimk. rimk
Model Pemrograman Dinamis Tahap Terhingga Persamaan ini didapat dengan alasan bahwa pendapatan kumulatif, rijk + fn+1(j), yang dihasilkan dari dicapainya keadaan j di tahap n+1 dari keadaan i di tahap n terjadi dengan probabilitas pijk. Jika vik mewakili pengembalian yang diperkirakan dan dihasilkan dari satu transisi dari keadaan i dengan diketahui alternatif k, maka vik dapat diekspresikan sebagai Persamaan rekursif DP itu dapat ditulis sebagai TIA 310
Model Pemrograman Dinamis Tahap Terhingga Sebagai contoh, jika pupuk tidak digunakan (k = 1), maka: v11 = 0,2x7 + 0,5x6 + 0,3x3 = 5,3 v21 = 0x + 0,5x5 + 0,5x1 = 3 v31 = 0x0 + 0x0 + 1x-1 = -1 Nilai-nilai memperlihatkan bahwa jika kondisi tanah ditemukan baik (keadaan 1) di awal tahun, satu transisi diperkirakan menghasilkan 5,3 untuk tahun itu. Demikian pula, jika kondisi tanah sedang (buruk), pendapatan yang diperkirakan adalah 3 (-1) Contoh 1 Masalah petani dengan data P1, P2, R1, dan R2. Diasumsikan bahwa horison perencanaan hanya 3 tahun (N=3). Didapatkan nilai-nilai vik adalah: TIA 310
Model Pemrograman Dinamis Tahap Terhingga Tahap 3 (n = 3) Tahap 2 (n = 2) i vi1 vi2 1 5,3 4,7 2 3,0 3,1 3 -1,0 0,4 vik Pemecahan optimal i k=1 k=2 f3(i) k* 1 5,3 4,7 2 3,0 3,1 3 -1,0 0,4 vik+ pi1kf3(1) + pi2kf3(2) + pi3kf3(3) Pemecahan optimal i k=1 k=2 f2(i) k* 1 5,3+0,2x5,3+0,5x3,1+0,3x0,4 = 8,03 4,7+0,3x5,3+0,6x3,1+0,1x0,4 = 8,19 8,19 2 3,0+0x5,3+0,5x3,1+0,5x0,4 = 4,75 3,1+0,1x5,3+0,6x3,1+0,3x0,4 = 5,61 5,61 3 -1,0+0x5,3+0x3,1+1x0,4 = -0,6 0,4+0,05x5,3+0,4x3,1+0,55x0,4 = 2,13 2,13
Model Pemrograman Dinamis Tahap Terhingga Tahap 1 (n = 1) Pemecahan optimal memperlihatkan bahwa untuk tahun 1 dan 2, petani tersebut sebaiknya menggunakan pupuk (k* = 2) tanpa bergantung pada keadaan sistem (kondisi tanah seperti yang ditunjukkan oleh uji kimia). Tetapi dalam tahun 3, pupuk sebaiknya hanya digunakan jika sistem tersebut berada dalam keadaan 2 atau 3. Pendapatan total yang diperkirakan untuk tiga tahun itu adalah f1(1) = 10,74 jika keadaan sistem dalam tahun 1 adalah baik, f1(2) = 7,92 jika sedang, dan f1(3) = 4,23 jika buruk. Pemecahan DP ini disebut juga pendekatan iterasi nilai (value-iteration approach). vik+ pi1kf2(1) + pi2kf2(2) + pi3kf2(3) Pemecahan optimal i k=1 k=2 f1(i) k* 1 5,3+0,2x8,19+0,5x5,61+0,3x2,13 = 10,38 4,7+0,3x8,19+0,6x5,61+0,1x2,13 = 10,74 10,74 2 3,0+0x8,19+0,5x5,61+0,5x2,13 = 6,87 3,1+0,1x8,19+0,6x5,61+0,3x2,13 = 7,92 7,92 3 -1,0+0x8,19+0x5,61+1x2,13 = 1,13 0,4+0,05x8,19+0,4x5,61+0,55x2,13 = 4,23 4,23
Model Pemrograman Dinamis Tahap Terhingga Masalah petani (horison terhingga) dapat digeneralisasi dengan dua cara. Pertama, probabilitas transisi dan fungsi pengembalian tidak perlu sama setiap tahun. Kedua, faktor diskonto dapat dipergunakan terhadap pendapatan yang diperkirakan dari tahap-tahap yang berturut-turut sehingga pendapatan f1(i) akan mewakili nilai sekarang dari pendapatan yang diperkirakan dari semua tahap. Generalisasi pertama hanya mengharuskan bahwa nilai pengembalian rijk dan probabilitas transisi pijk merupakan fungsi tambahan dari tahap yang bersangkutan, n. Dalam kasus ini, persamaan rekursif DP tersebut menjadi
Model Pemrograman Dinamis Tahap Terhingga dengan Generalisasi kedua dicapai sebagai berikut. Anggaplah α (<1) merupakan faktor diskonto per tahun, yang biasanya dihitung sebagai α = 1/(1+t), dengan t adalah suku bunga per tahun. Jadi D dollar dalam satu tahun dari sekarang adalah setara dengan αD dollar sekarang. Pemasukan faktor diskonto akan membuat persamaan rekursif menjadi: Secara umum, penggunaan faktor diskonto dapat menghasilkan keputusan optimum yang berbeda, dibandingkan dengan tidak dipergunakannya faktor diskonto.
Model Pemrograman Dinamis Tahap Terhingga Persamaan rekursif DP dapat dipergunakan untuk mengevaluasi setiap kebijakan stasioner untuk masalah petani ini. Jika kita mengasumsikan diskonto tidak dipergunakan (yaitu, α = 1), persamaan rekursif untuk mengevaluasi suatu kebijakan stasioner adalah dengan pij adalah elemen ke-(i,j) dari matriks transisi yang berkaitan engan kebijakan tersebut dan vi adalah pendapatan transisi satu langkah yang diperkirakan dari kebijakan tersebut. Misalkan kebijakan stasioner yang menyetakan penggunaan pupuk setiap kali kondisi tanah adalah buruk (keadaan 3), maka kita memiliki: 7 6 3 R = 5 1 -2 0,2 0,5 0,3 P = 0,05 0,4 0,55
Model Pemrograman Dinamis Tahap Terhingga Jadi kita memperoleh Dan nilai-nilai fn(i) dihitung f3(1) = 5,3; f3(2) = 3; f3(3) = 0,4 f2(1) = 5,3 + 0,2x5,3 + 0,5x3 + 0,3x0,4 = 7,98 f2(2) = 3 + 0x5,3 + 0,5x3 + 0,5x0,4 = 4,7 f2(3) = 0,4 + 0,05x5,3 + 0,4x3 + 0,55x0,4 = 2,09 f1(1) = 5,3 + 0,2x7,98 + 0,5x 4,7 + 0,3x 2,09 = 9,87 f1(2) = 3 + 0x7,98 + 0,5x 4,7 + 0,5x 2,09 = 6,39 f1(3) = 0,4 + 0,05x7,98 + 0,4x 4,7 + 0,55x 2,09 = 3,83 i 1 2 3 vi 5,3 0,4
Model Tahap Tak hingga Kita akan menentukan kebijakan jangka panjang optimum dari sebuah masalah keputusan Markov. Evaluasi didasarkan dari sebuah kebijakan berdasarkan maksimasi (minimasi) pendapatan (biaya) yang diperkirakan per periode transisi. Misalnya, dalam masalah petani tersebut, pemilih kebijakan terbaik (tahap tak hingga) didasari oleh pendapatan maksimum yang diperkirakan per tahun. Terdapat dua metode untuk memecahkan masalah tahap tak hingga: Enumerasi (pendaftaran) lengkap, dengan cara mengevaluasi setiap kebijakan maka pemecahan optimum dapat ditentukan. Metode ini dapat digunakan hanya jika kebijakan stasioner secara keseluruhan cukup sedikit untuk perhitungan praktis. 2. Iterasi kebijakan, yaitu menentukan kebijakan optimum dengan sejumlah kecil iterasi.
Metode Enumerasi Lengkap Anggaplah bahwa masalah keputusan ini memiliki S kebijakan stasioner, dan asumsikan bahwa Ps dan Rs adalah transisi (satu langkah) dan matriks pendapatan yang berkaitan dengan kebijakan ke-s, s = 1, 2, …, S. Langkah-langkah dari enumerasi adalah sebagai berikut: Langkah 1: Hitung vis, pendapatan satu langkah (satu periode) yang diperkirakan dari kebijakan s dengan diketahui keadaan i, i = 1, 2, …, m. Langkah 2: Hitung πis, probabilitas stasioner jangka panjang dari matriks transisi Ps yang berkaitan dengan kebijakan s. Probabilitas ini, ketika ada, dihitung dari persamaan: dengan πs = (π1s, π2s,…, πms) Langkah 3: Tentukan Es, pendapatan yang diperkirakan dari kebijakan s per langkah transisi (periode), dengan menggunakan rumus:
Metode Enumerasi Lengkap Langkah 4: Kebijakan optimum s* ditentukan sedemikian rupa sehingga: Contoh 1: Masalah petani dengan horison perencanaan periode tak hingga Di sini ada 8 kebijakan stasioner, yaitu: Kebijakan Stasioner s Tindakan 1 Tidak menggunakan pupuk sama sekali 2 Menggunakan pupuk tanpa bergantung pada keadaan 3 Gunakan pupuk ketika keadaan 1 4 Gunakan pupuk ketika keadaan 2 5 Gunakan pupuk ketika keadaan 3 6 Gunakan pupuk ketika keadaan 1 atau 2 7 Gunakan pupuk ketika keadaan 1 atau 3 8 Gunakan pupuk ketika keadaan 2 atau 3 TIA 310
Metode Enumerasi Lengkap Matriks Pk dan Rk untuk kebijakan 3 sampai 8 diturunkan dari matriks untuk kebijakan 1 dan 2. Karena itu kita memiliki 0,2 0,5 0,3 7 6 3 P1 = R1 = 5 1 -1 0,3 0,6 0,1 6 5 -1 P2 = R2 = 7 4 0,05 0,4 0,55 3 -2 0,3 0,6 0,1 6 5 -1 P3 = 0,5 R3 = 1 0,2 0,5 0,3 7 6 3 P4 = 0,1 0,6 R4 = 4 1 -1
Metode Enumerasi Lengkap Nilai-nilai vik karena itu dapat dihitung seperti diberikan dalam tabel berikut ini: 0,2 0,5 0,3 7 6 3 P5 = R5 = 5 1 0,05 0,4 0,55 -2 0,3 0,6 0,1 6 5 -1 P6 = R6 = 7 4 1 0,3 0,6 0,1 6 5 -1 P7 = 0,5 R7 = 1 0,05 0,4 0,55 3 -2 0,2 0,5 0,3 7 6 3 P8 = 0,1 0,6 R8 = 4 0,05 0,4 0,55 -2
Metode Enumerasi Lengkap 1 5,3 3 -1 2 4,7 3,1 0,4 4 5 6 7 8 Perhitungan dari probabilitas stasioner tersebut dicapai dengan menggunakan persamaan: πsPs = πs π1 + π2 + … + πm = 1
Metode Enumerasi Lengkap Sebagai ilustrasi, pertimbangkan s = 2. Persamaan yang berkaitan adalah: 0,3π1 + 0,1π2 + 0,05π3 = π1 0,6π1 + 0,6π2 + 0,4π3 = π2 0,1π1 + 0,3π2 + 0,55π3 = π3 π1 + π2 + π3 = 1 (Perhatikan bahwa salah satu dari ketiga persamaan pertama adalah berlebihan.) Pemecahan menghasilkan: π12 = 6/59, π22 = 31/59, π32 = 22/59 Dalam kasus ini, pendapatan tahunan yang diperkirakan adalah: Tabel berikut ini meringkaskan πk dan Ek untuk semua kebijakan stasioner.
Metode Enumerasi Lengkap Tabel terakhir ini menunjukkan bahwa kebijakan 2 menghasilkan pendapatan tahunan yang diperkirakan terbesar. Akibatnya, kebijakan jangka panjang optimum menyatakan penggunaan pupuk tanpa bergantung pada keadaan sistem. s π1s π2s π3s Es 1 -1 2 6/59 31/59 22/59 2,256 3 4 5 5/154 69/154 80/154 1,724 6 7 5/137 62/137 70/137 1,734 8 12/135 69/135 54/135 2,216
Metode Iterasi Kebijakan Tanpa Diskonto Bayangkan jika metode enumerasi lengkap diterapkan untuk masalah petani dengan 4 arah tindakan (bukan dua): tidak menggunakan pupuk, menggunakan pupuk satu kali selama musim tersebut, menggunakan pupuk dua kali, dan menggunakan pupuk tiga kali. Dalam kasus ini, petani tersebut secara keseluruhan memiliki 43 = 256 kebijakan stasioner. Melakukan enumerasi dari semua kebijakan secara eksplisit bukan hanya sulit, tetapi juga jumlah perhitungan yang terlibat dalam evaluasi kebijakan ini dapat sangat besar. Karena itu dikembangkan metode iterasi kebijakan sebagai berikut. Di bagian sebelumnya sudah diperlihatkan bahwa pengembalian total yang diperkirakan di tahap n dinyatakan dengan persamaan rekursif: Persamaan rekursif ini adalah dasar untuk pengembangan metode iterasi kebijakan. Tetapi, bentuk ini harus sedikit dimodifikasi untuk memungkinkan kita untuk mempelajari perilaku asimtut dari proses ini.
Metode Iterasi Kebijakan Tanpa Diskonto Pada intinya, kita mendefinisikan η sebagai jumlah tahap yang tersisa untuk dipertimbangkan. Ini adalah berbalikan dengan n dalam persamaan di atas, yang mendefinisikan tahap ke-n. Jadi, persamaan rekursif itu dapat ditulis: Catat bahwa fη adalah pendapatan kumulatif yang diperkirakan dengan diketahui η adalah jumlah tahap yang tersisa untuk dipertimbangkan. Dengan definisi baru ini, perilaku asimtut dari proses ini dapat diketahui dengan menganggap η→∞. Dengan diketahui bahwa π = (π1, π2, …, πm) adalah vektor probabilitas steady state dari matriks transisi P = ||pij|| dan E = π1v1 + π2v2 + … πmvm adalah pendapatan yang diperkirakan per tahun seperti dihitung di bagian sebelumnya, dapat diperlihatkan bahwa untuk η yang sangat besar, fη(i) = ηE +f(i)
Metode Iterasi Kebijakan Tanpa Diskonto dengan f(i) adalah sebuah bagian konstan yang mewakili titik potong asimtut dari fη(i) dengan diketahui keadaan i. Karena fη(i) adalah pengembalian optimum kumulatif untuk η tahap dengan diketahui keadaan i dan E adalah pengembalian yang diperkirakan per tahap, kita dapat secara intuitif melihat mengapa fη(i) sama dengan ηE ditambah faktor koreksi f(i) yang memperhitungkan keadaan spesifik i. Hasil ini tentu saja mengasumsikan bahwa η sangat besar. Menggunakan informasi ini, persamaan rekursif tersebut dapat ditulis: Dengan menyederhanakan persamaan di atas, kita memperoleh: yang menghasilkan m persamaan dan m + 1 variabel yang tidak diketahui, di mana variabel yang tidak diketahui itu adalah f(1), f(2), …, f(m), dan E.
Metode Iterasi Kebijakan Tanpa Diskonto Tujuan akhir adalah menentukan kebijakan optimum yang menghasilkan nilai E maksimum. Karena terdapat m persamaan dengan m+1 variabel yang tidak diketahui, nilai E optimum tidak dapat ditentukan dalam satu langkah. Sebaliknya, suatu pendekatan iteratif dimanfaatkan yang, dengan memulai di satu kebijakan secara sembarang, lalu akan menentukan suatu kebijakan baru yang menghasilkan nilai E yang lebih baik. Proses iteratif tersebut berakhir ketika dua kebijakan yang berturut-turut adalah identik. Proses iteratif ini terdiri dari dua komponen dasar, yang disebut langkah penentuan nilai (value determination) dan langkah perbaikan kebijakan (policy improvement). Langkah penentuan nilai. Pilihlah satu kebijakan s secara sembarang. Gunakan matriks Ps dan Rs yang berkaitan dan secara sembarang asumsikan bahwa fs(m) = 0, pecahkan persamaan dengan variabel yang tidak diketahui Es, fs(1), …, dan fs(m-1). Lanjutkan ke tahap perbaikan kebijakan.
Metode Iterasi Kebijakan Tanpa Diskonto 2. Langkah Perbaikan Kebijakan. Untuk setiap keadaan i, tentukan alternatif k yang menghasilkan: [Nilai-nilai fs(j), j = 1, 2, …, m, adalah nilai-nilai yang ditentukan dalam langkah penentuan nilai.] Keputusan optimum yang dihasilkan k untuk keadaan 1, 2, …, m membentuk kebijakan baru t. Jika s dan t adalah identik, berhenti; t adalah optimum. Jika tidak identik, tetapkan s = t dan kembali ke langkah penentuan nilai. Masalah optimisasi dari langkah perbaikan kebijakan memerlukan penjelasan. Tujuan kita dalam langkah ini adalah memperoleh max{E}. Seperti diketahui:
Metode Iterasi Kebijakan Tanpa Diskonto Karena f(i) tidak bergantung pada alternatif k, disimpulkan bahwa maksimisasi E di semua alternatif k adalah setara dengan masalah maksimisasi yang diketahui dalam langkah perbaikan kebijakan. Contoh: Kita mmecahkan contoh petani tersebut dengan metode iterasi kebijakan. Iterasi 1 Kita mulai dengan kebijakan sembarang yang menyatakan tidak diperguna-kannya pupuk. Matriks yang berkaitan adalah: Persamaan dalam langkah iterasi nilai adalah: E + f(1) – 0,2f(1) – 0,5f(2) – 0,3f(3) = 5,3 E + f(2) - 0,5f(2) – 0,5f(3) = 3 E + f(3) - f(3) = -1 Jika kita secara sembarang menganggap f(3) = 0, persamaan-persamaan tersebut menghasilkan pemecahan: E = -1, f(1) = 12,88, f(2) = 8, f(3) = 0 0,2 0,5 0,3 7 6 3 P = R = 5 1 -1
Metode Iterasi Kebijakan Tanpa Diskonto Selanjutnya, kita menerapkan langkah perbaikan kebijakan. Perhitungan yang berkaitan diperlihatkan dalam tabel berikut ini. Kebijakan baru ini menyatakan penggunaan pupuk tanpa bergantung pada keadaan. Karena kebijakan baru ini berbeda dari yang sebelumnya, langkah penentuan nilai kembali dilakukan. Iterasi 2 Matriks yang berkaitan dengan kebijakan baru ini adalah: Matriks ini menghasilkan persamaan-persamaan berikut: E + f(1) – 0,3f(1) – 0,6f(2) – 0,1f(3) = 4,7 vik+ pi1kf(1) + pi2kf(2) + pi3kf(3) Pemecahan optimal i k=1 k=2 f(i) k* 1 5,3+0,2x12,88+0,5x8+0,3x0 = 11,875 4,7+0,3x12,88+0,6x8+0,1x0 = 13,36 13,36 2 3,0+0x12,88+0,5x8+0,5x0 = 7 3,1+0,1x12,88+0,6x8+0,3x0 = 9,19 9,19 3 -1,0+0x12,88+0x8+1x0 = -1 0,4+0,05x12,88+0,4x8+0,55x0 = 4,24 4,24 0,3 0,6 0,1 6 5 -1 P = R = 7 4 0,05 0,4 0,55 3 -2 TIA 310
Metode Iterasi Kebijakan Tanpa Diskonto E + f(2) – 0,1f(1) – 0,6f(2) – 0,3f(3) = 3,1 E + f(3) – 0,05f(1) – 0,4f(2) – 0,55f(3) = 0,4 Sekali lagi, dengan menganggap f(3) = 0, kita memperoleh pemecahan: E = 2,26, f(1) = 6,75, f(2) = 3,79, f(3) = 0 Perhitungan dalam langkah perbaikan kebijakan diberikan dalam tabel berikut ini: Kebijakan baru ini, yang menyatakan penggunaan pupuk tanpa bergantung pada keadaan adalah identik dengan yang sebelumnya. Jadi, kebijakan terakhir ini optimal dan proses iteratif berakhir. Secara alamiah, kesimpulan dengan metode ini sama dengan kesimpulan yang diperoleh dengan metode enumerasi lengkap. vik+ pi1kf(1) + pi2kf(2) + pi3kf(3) Pemecahan optimal i k=1 k=2 f(i) k* 1 5,3+0,2x6,75+0,5x3,79+0,3x0 = 8,54 4,7+0,3x6,75+0,6x3,79+0,1x0 = 8,99 8,99 2 3,0+0x6,75+0,5x3,79+0,5x0 = 4,89 3,1+0,1x6,75+0,6x3,79+0,3x0 = 6,05 6,05 3 -1,0+0x6,75+0x3,79+1x0 = -1 0,4+0,05x6,75+0,4x3,79+0,55x0 = 2,25 2,25
Metode Iterasi Kebijakan Dengan Diskonto Dengan diketahui bahwa α (< 1) adalah faktor diskonto, persamaan rekursif tahap terhingga dapat ditulis sebagai: (Perhatikan bahwa η mewakili sejumlah tahap yang masih harus dilalui). Dapat dibuktikan bahwa sementara η→∞ (model tahap tak hingga), fη(i) = f(i), dengan f(i) adalah nilai sekarang (yang didiskonto) dari pendapatan yang diperkirakan dengan diketahui bahwa sistem tersebut berada dalam keadaan i dan beroperasi dalam horison waktu yang tak terhingga. Jadi perilaku jangka panjang dari fη(i) sementara η→∞ tidak bergantung dari nilai η. Ini berlawanan dengan kasus tanpa diskonto, di mana fη(i) = ηE + f(i), seperti disebutkan di atas. Hasil ini dapat diperkirkan karena dalam kasus diskonto, pengaruh pendapatan masa mendatang akan menurun menjadi nol secara asimtut. Pada kenyataannya, nilai sekarang f(i) akan mendekati nilai konstan sementara η→∞.
Metode Iterasi Kebijakan Dengan Diskonto Langkah kebijakan iterasi dimodifikasi sebagai berikut. Langkah penentuan nilai. Untuk sebuah kebijakan sembarang s dengan matriks Ps dan Rs, pecahkan m persamaan: dalam m nilai yang tidak diketahui fs(1), fs(2), …, fs(m). (Catat bahwa di sini terdapat m persamaan dengan tepat m variabel yang tidak diketahui) Langkah perbaikan kebijakan. Untuk setiap tahap i, tentukan alternatif k yang menghasilkan di mana fs(j) adalah nilai-nilai yang diperoleh dari langkah penentuan nilai. Jika kebijakan yang dihasilkan t adalah sama dengan s, berhenti; t optimum. Jika tidak sama, tetapkan s = t dan kembali ke langkah penentuan nilai
Metode Iterasi Kebijakan Dengan Diskonto Contoh: Kita akan menyelesaikan contoh terdahulu dengan α = 0,6 Dengan dimulai dari satu kebijakan sembarang s = {1,1,1}. Matriks P dan R (P1 dan R1 dalam contoh terdahulu) menghasilkan persamaan: f(1) – 0,6[0,2f(1) + 0,5f(2) + 0,3f(3)] = 5,3 f(2) – 0,6[ 0,5f(2) + 0,5f(3)] = 3 f(3) – 0,6[ f(3)] = -1 Pemecahan dari persamaan-persamaan ini menghasilkan: f(1) = 6,6, f(2) = 3,21, f(3) = -2,5 Ringkasan iterasi perbaikan kebijakan diberikan dalam tabel berikut ini: vik+ 0,6[pi1kf(1) + pi2kf(2) + pi3kf(3)] Pemecahan optimal i k=1 k=2 f(i) k* 1 5,3+0,6[0,2x6,6+0,5x3,21+0,3x-2,5] = 6,61 4,7+0,6[0,3x6,6+0,6x3,21+0,1x-2,5] = 6,89 6,89 2 3,0+0,6[0x6,6+0,5x3,21+0,5x-2,5] = 3,21 3,1+0,6[0,1x6,6+0,6x3,21+0,3x-2,5] = 4,2 4,2 3 -1,0+0,6[0x6,6+0x3,21+1x-2,5] = -2,5 0,4+0,6[0,05x6,6+0,4x3,21+0,55x-2,5] = 0,54 0,54
Metode Iterasi Kebijakan Dengan Diskonto Langkah penentuan nilai yang menggunakan P2 dan R2 dalam contoh sebelumnya menghasilkan persamaan-persamaan berikut: f(1) – 0,6[0,3f(1) + 0,6f(2) + 0,1f(3)] = 4,7 f(2) – 0,6[0,1f(1) + 0,6f(2) + 0,3f(3)] = 3,1 f(3) – 0,6[0,05f(1) + 0,4f(2) + 0,55f(3)] = 0,4 Pemecahan dari persamaan-persamaan ini menghasilkan: f(1) = 8,88, f(2) = 6,62, f(3) = 3,57 Ringkasan iterasi perbaikan kebijakan diberikan dalam tabel berikut ini: vik+ 0,6[pi1kf(1) + pi2kf(2) + pi3kf(3)] Pemecahan optimal i k=1 k=2 f(i) k* 1 5,3+0,6[0,2x8,88+0,5x6,62+0,3x3,37] = 8,95 4,7+0,6[0,3x8,88+0,6x6,62+0,1x3,37] = 8,88 8,95 2 3,0+0,6[0x8,88+0,5x6,62+0,5x3,37] = 5,99 3,1+0,6[0,1x8,88+0,6x6,62+0,3x3,37] = 6,62 6,62 3 -1,0+0,6[0x8,88+0x6,62+1x3,37] = 1,02 0,4+0,6[0,05x8,88+0,4x6,62+0,55x3,37] = 3,37 3,37
Metode Iterasi Kebijakan Dengan Diskonto Karena kebijakan baru {1,2,2} berbeda dengan kebijakan di atas, langkah penentuan nilai dimasuki kembali dengan menggunakan P8 dan R8 dalam contoh sebelumnya menghasilkan persamaan-persamaan berikut: f(1) – 0,6[0,2f(1) + 0,5f(2) + 0,3f(3)] = 5,3 f(2) – 0,6[0,1f(1) + 0,6f(2) + 0,3f(3)] = 3,1 f(3) – 0,6[0,05f(1) + 0,4f(2) + 0,55f(3)] = 0,4 Pemecahan dari persamaan-persamaan ini menghasilkan: f(1) = 8,98, f(2) = 6,63, f(3) = 3,38 Ringkasan iterasi perbaikan kebijakan diberikan dalam tabel berikut ini: vik+ 0,6[pi1kf(1) + pi2kf(2) + pi3kf(3)] Pemecahan optimal i k=1 k=2 f(i) k* 1 5,3+0,6[0,2x8,98+0,5x6,63+0,3x3,38] = 8,98 4,7+0,6[0,3x8,98+0,6x6,63+0,1x3,38] = 8,91 8,98 2 3,0+0,6[0x8,98+0,5x6,63+0,5x3,38] = 6,00 3,1+0,6[0,1x8,98+0,6x6,63+0,3x3,38] = 6,63 6,63 3 -1,0+0,6[0x8,98+0x6,63+1x3,38] = 1,03 0,4+0,6[0,05x8,98+0,4x6,63+0,55x3,38] = 3,37 3,37
Metode Iterasi Kebijakan Dengan Diskonto Karena kebijakan baru ini {1,2,2} adalah identik dengan kebijakan sebelumnya, kebijakan ini optimal. Catat bahwa kebijakan diskonto menghasilkan kebijakan optimal yang berbeda, yang menyatakan tidak digunakannya pupuk jika keadaan sistem adalah baik (keadaan 1).
Pemecahan Pemrograman Linear untuk Masalah Keputusan Markov Masalah keputusan Markov tahap tak hingga, baik dengan maupun tanpa diskonto, dapat dirumuskan dan dipecahkan sebagai sebuah program linear. Masalah Keputusan Markov tanpa diskonto. Di bagian seblumhya, sudah diperlihatkan bahwa masalah Markov tahap tak hingga tanpa diskonto pada akhirnya menyempit menjadi masalah penentuan kebijakan optimal s*, yang bersesuaian dengan: dengan S adalah kumpulan dari semua kebijakan yang mungkin dalam masalah itu. Batasan dari masalah ini memastikan bahwa πis, i = 1, 2, …, m mewakili probabilitas steady-state dari rantai Markov Ps. Secara spesifik, setiap kebijakan s dinyatakan dengan sekelompok tindakan yang tetap (stasioner). Kita harus memodifikasi variabel yang tidak diketahui dari masalah ini sedemikian rupa sehingga pemecahan optimal akan secara otomatis menentukan tindakan optimal k ketika sistem tersebut berada dalam keadaan i. Kumpulan dari semua tindakan optimal ini lalu akan mendefinisikan s*, kebijakan optimal.
Pemecahan Pemrograman Linear untuk Masalah Keputusan Markov Tujuan ini dicapai sebagai berikut. Anggaplah qik = probabilitas kondisional dari memilih alternatif k dengan diketahui sistem tersebut berada dalam keadaan i Jadi, masalah ini dapat diekspresikan sebagai dengan batasan Catat bahwa pij adalah fungsi dari kebijakan yang dipilih dan karena itu merupakan fungsi dari alternatif spesifik k dari kebijakan tersebut.
Pemecahan Pemrograman Linear untuk Masalah Keputusan Markov Masalah ini dapat dikonversikan menjadi sebuah program linear dengan membuat substitusi yang tepat yang melibatkan qik. Amati bahwa formulasi tersebut adalah setara dengan masalah semula hanya jika qik = 1 untuk tepat satu k untuk setiap i, karena hal ini akan mengurangi jumlah menjadi vik, di mana k* adalah alternatif optimal yang dipilih. Untungnya, program linear yang kita kembangkan di sini memperhitungkan kondisi ini secara otomatis. Definisikan wik = πi qik , untuk semua i dan k Berdasarkan definisinya, wik mewakili probabilitas gabungan untuk berada dalam keadaan i dan membuat keputusan k. Dari teori probabilitas kita mengetahui bahwa:
Pemecahan Pemrograman Linear untuk Masalah Keputusan Markov Karena itu Jadi kita melihat bahwa batasan dapat ditulis sebagai Juga batasan secara otomatis tersirat berdasarkan cara kita mendefinisikan qik dalam bentuk wik. Jadi masalah ini dapat ditulis sebagai
Pemecahan Pemrograman Linear untuk Masalah Keputusan Markov dengan batasan Model yang dihasilkan ini merupakan sebuah program linear dalam wik. Di sini akan diperlihatkan bahwa pemecahan optimalnya secara otomatis menjadi qik = 1 untuk satu k untuk setiap i. Pertama, catat bahwa program linear ini memeliki m persamaan independen (satu persamaan yang berkaitan dengan π = πP adalah berlebihan). Karena itu, masalah ini harus memiliki m variabel dasar. Tetapi, dapat diperlihatkan bahwa wik harus positif secara ketat untuk setidaknya satu k untuk setiap i. Dari kedua hasil ini, kita menyimpulkan bahwa: TIA 310
Pemecahan Pemrograman Linear untuk Masalah Keputusan Markov hanya dapat memiliki nilai biner (0 atau 1), seperti yang diinginkan. (Pada kenyataannya, hasil di atas juga memperlihatkan bahwa di mana k* adalah alternatif yang bersesuaian dengan wik >0) Contoh: Formulasi LP untuk masalah petani tadi tanpa diskonto: maksimumkan E = 5,3w11 + 4,7w12 + 3w21 + 3,1w22 – w31 + 0,4w32 dengan batasan w11 + w12 – (0,2w11 + 0,3w12 + 0,1w22 + 0,05w32) = 0 w21 + w22 – (0,5w11 + 0,6w12 + 0,5w21 + 0,6w22 + 0,4w32) = 0 w31 + w32 – (0,3w11 + 0,1w12 + 0,5w21 + 0,3w22 + w31 + 0,55w32) = 0 w11 + w12 + w21 + w22 + w31 + w32) = 1 wik ≥ 0, untuk semua i dan k Pemecahan optimalnya adalah w11 = w12 = w31 = 0 dan w12 = 6/59, w22 = 31/59, dan w32 = 22/59. Hasil ini berarti bahwa q12 = q22 = q32 = 1. Jadi, kebijakan optimal menyatakan dipilihnya alternatif 2 (k = 2) untuk i = 1, 2, dan 3. Nilai optimal dari E adalah 2,256. TIA 310
Pemecahan Pemrograman Linear untuk Masalah Keputusan Markov Adalah menarik bahwa nilai-nilai positif dari wik tepat setara dengan nilai-nilai πi yang berkaitan dengan kebijakan optimal dalam prosedur enumerasi lengkap. Observasi ini menunjukkan hubungan langsung di antara kedua metode pemecahan ini. Masalah Keputusan Markov dengan diskonto. Masalah ini diekspresikan dengan persamaan rekursif Persamaan ini adalah setara dengan dengan ketentuan bahwa f(i) mencapai nilai minimum untuk setiap i. Sekarang pertimbangkan fungsi tujuan
Pemecahan Pemrograman Linear untuk Masalah Keputusan Markov dengan bi (> 0 untuk semua i) adalah sebuah konstanta sembarang. Dapat diperlihatkan bahwa optimisasi dari fungsi ini dengan dikenakan pertidaksamaan yang diberikan akan menghasilkan nilai minimum dari f(i), seperti yang diinginkan. Jadi masalah ini dapat ditulis sebagai dengan batasan f(i) tidak dibatasi, i = 1, 2, …, m. Sekarang, masalah dual dari masalah ini adalah
Pemecahan Pemrograman Linear untuk Masalah Keputusan Markov dengan batasan wik ≥ 0, untuk i = 1, 2, …, m; k = 1,2, …, K Perhatikan bahwa fungsi tujuan ini memiliki bentuk yang sama seperti kasus tanpa diskonto, sehingga wik dapat diinterpretasikan dengan cara serupa. Contoh: Contoh petani tadi dengan faktor diskonto α = 0,6. Jika kita menganggap b1 = b2 = b3 = 1, masalah dual dari LP ini dapat ditulis sebagai TIA 310
Pemecahan Pemrograman Linear untuk Masalah Keputusan Markov maksimumkan 5,3w11 + 4,7w12 + 3w21 + 3,1w22 – w31 + 0,4w32 dengan batasan w11 + w12 – 0,6[0,2w11 + 0,3w12 + 0,1w22 + 0,05w32] = 1 w21 + w22 – 0,6[0,5w11 + 0,6w12 + 0,5w21 + 0,6w22 + 0,4w32] = 1 w31 + w32 – 0,6[0,3w11 +0,1w12+0,5w21+ 0,3w22 + w31 + 0,55w32] = 1 wik ≥ 0, untuk semua i dan k Pemecahan optimalnya adalah w12 = w21 = w31 = 0 dan w11 = 1,5678, w22 = 3,3528, dan w32 = 2,8145. Pemecahan ini memperlihatkan bahwa pemecahan optimal adalah {1,2,2}, seperti yang diperoleh pada contoh terdahulu..