馬爾可夫決策過程理論與應用

馬爾可夫決策過程理論與應用 下載 mobi epub pdf 電子書 2024


簡體網頁||繁體網頁
劉剋,曹平 著



點擊這裡下載
    

想要找書就要到 圖書大百科
立刻按 ctrl+D收藏本頁
你會得到大驚喜!!

發表於2024-11-22

類似圖書 點擊查看全場最低價


圖書介紹

齣版社: 科學齣版社
ISBN:9787030431233
版次:1
商品編碼:11663389
包裝:平裝
叢書名: 運籌與管理科學叢書(22)
開本:16開
齣版時間:2015-02-01
用紙:膠版紙
頁數:276
字數:360000
正文語種:中文


相關圖書





圖書描述

內容簡介

《馬爾可夫決策過程理論與應用》從馬氏決策的一般理論齣發,介紹瞭馬氏決策的基本概念,給齣瞭決策過程的錶述方法並介紹瞭不同準則條件下的基本理論,還給齣瞭作者對一些實際問題的研究心得,為讀者提供參考。《馬爾可夫決策過程理論與應用》在《實用馬爾可夫決策過程》一書的基礎上增加瞭Bandit過程、部分可觀察過程、軟件可靠性建模分析以及大規模計算方法等章節,為讀者提供更為寬闊的視野。

目錄

目錄
《運籌與管理科學叢書》序
前言
常用符號錶
第1章 引論 1
1.1 序列決策模型 1
1.2 馬氏決策過程的例子 3
1.3 馬氏決策過程的定義與記號 7
1.3.1 決策時刻與周期 7
1.3.2 狀態與行動集 8
1.3.3 轉移概率和報酬 8
1.3.4 曆史、決策規則與策略 9
1.3.5 誘導過程、效用準則與馬氏策略優勢 10
1.4 馬氏決策過程的起源和發展 14
1.5 問題 16
第2章 有限階段模型 17
2.1 最優準則 17
2.2 有限階段的策略迭代和最優方程 18
2.3 最優策略的存在性和算法 20
2.4 兩個例子 23
2.4.1 序貫分配問題 23
2.4.2 秘書問題 26
2.5 單調策略的最優性 29
2.6 部分可觀察的馬氏決策過程 33
2.6.1 有限狀態和行動空間的部分可觀察馬氏決策過程 34
2.6.2 算法 42
2.7 問題 44
第3章 無限階段摺扣模型 47
3.1 最優準則 47
3.2 最優方程 48
3.3 最優策略的存在性 50
3.4 策略迭代算法 54
3.5 值迭代算法 57
3.6 改進的策略迭代算法 63
3.7 綫性規劃算法 64
3.8 可數狀態與行動的模型 67
3.8.1 無界報酬的情形 67
3.8.2 有限狀態逼近無限狀態的情形 70
3.8.3 設備維修的例子 74
3.8.4 有限狀態可數行動的情形 78
3.9 最優單調策略 80
3.10 最優策略的結構 82
3.1 1多臂賭博機問題 83
3.1 2問題 88
第4章 無限階段平均模型 91
4.1 最優準則 91
4.2 最優平穩策略的存在性 93
4.3 平穩策略一些特徵 94
4.4 最優方程與策略迭代算法 103
4.5 單鏈時的情形 107
4.5.1 最優方程解存在的條件 108
4.5.2 值迭代算法 109
4.5.3 單鏈MDPs的策略迭代算法及其改進 114
4.5.4 單鏈MDPs的綫性規劃算法 116
4.5.5 帶約束模型和方差準則模型 118
4.5.6 可數狀態模型 124
4.5.7 結構化最優策略 127
4.6 多鏈時的情形 130
4.6.1 綫性規劃算法 131
4.6.2 平均準則下的Bellman最優原則 133
4.7 問題 136
第5章 權重準則模型與概率準則模型 138
5.1 摺扣權重模型 138
5.2 摺扣與平均權重模型 145
5.3 MDP的百分比與目標水平 149
5.4 風險概率準則模型 154
5.4.1 終達目標最小風險模型 156
5.4.2 首達目標最小風險模型 163
5.5 問題 164
第6章 連續時間與半馬氏模型 165
6.1 連續時間摺扣MDP 165
6.1.1 模型和策略的定義 165
6.1.2 連續時間MDP的決策過程與摺扣準則 166
6.1.3 最優策略的存在性與結構 168
6.1.4 轉化為離散時間模型 170
6.1.5 適用範圍的推廣 171
6.2 連續時間平均MDP 172
6.3 摺扣半馬氏模型 175
6.4 平均半馬氏模型 180
6.5 服務率受控的一個排隊模型 182
6.6 問題 184
第7章 空集裝箱調配問題 185
7.1 單港口的問題與建模 185
7.2 無限階段摺扣準則 189
7.3 無限階段平均準則 191
7.4 數值例子 193
7.5 多港口空集裝箱的調配問題 194
第8章 人力資源模型 199
8.1 問題 199
8.2 數學模型 200
8.2.1 狀態空間 201
8.2.2 決策時刻與行動集 202
8.2.3 轉移速率寫轉移概率 202
8.2.4 費用與準則 204
8.3 相關參數分析 204
8.4 數例 207
第9章 軟件測試的最優發布問題 209
9.1 模型 210
9.2 結構性質 212
9.2.1 最優函數V*(n,t)的性質 212
9.2.2 最優策略的閡值結構 215
9.3 數值仿真研究 217
9.3.1 連續時間模型的離散逼近 218
9.3.2 數值例子 218
9.4 基本模型的一般化 219
第10章 大規模問題的近似算法 220
10.1 大規模問題的挑戰 220
10.2 嚮前動態規劃方法 222
10.2.1 近似最優決策行為的選擇 222
10.2.2 隨時間嚮前遞推過程 223
10.2.3 隨機變量的抽樣 223
10.2.4 嚮前動態規劃算法 224
10.3 Q-Iearning和SARSA方法 225
10.3.1 Q-Iearning方法 225
10.3.2 SARSA方法 227
10.4 實時動態規劃方法 227
10.5 逼近值迭代方法 228
10.6 決策後狀態方法 230
10.6.1 尋找決策後狀態變量 230
10.6.2 決策後狀態變量的例子 231
10.6.3 決策後狀態變量的最優方程 235
10.6.4 決策後狀態方程的逼近算法 236
10.6.5 決策後狀態與Q-Iearning 237
10.7 探索和利用的問題 238
10.8 近似綫性規劃方法 240
10.9 策略近似算法 243
10.10 總結 245
參考文獻 248
索引 260
習題解答 263
《運籌與管理科學叢書》已齣版書目 277

精彩書摘

  《運籌與管理科學叢書(22):馬爾可夫決策過程理論與應用》:
  第1章 引 論
  做決策是人們在日常生活和生産實踐中經常遇到的問題。 人們也總希望做齣的決策能夠達到最優的效果。 事實上, 人們在做決策的時候需要考慮很多影響決策效果的因素, 如當前決策立即顯現齣的效果?當前決策行為對長遠利益的影響等等。因此, 做決策不是孤立的, 也就是說今天的決策會影響到明天, 而明天的決策會影響到將來。 如果不顧及對將來的影響而隻考慮當前的利益做決策 (即采用近視眼策略), 從長遠的角度來看, 通常效果不會很好。 比如說長跑運動員, 要根據需要跑的距離而閤理分配自己的體力, 以避免尚未跑完全程就筋疲力盡。
  本書描述和研究瞭在不確定環境下的一類序列決策模型, 決策者不僅要考慮決策結果的即時效應, 還要考慮到為將來做決策創造機會。 看上去這個模型比較直觀且不復雜, 但是它的應用極其廣泛, 而且産生瞭豐富的數學理論。 這一章主要通過一些例子來說明做決策過程中的關鍵因素?這些因素之間的關係以及決策過程的動態錶現, 然後給齣馬氏決策過程的一般記號與定義, 最後敘述瞭馬氏決策過程的 發展簡史和一些比較有影響的相關書籍。
  1。1 序列決策模型
  我們用圖 1。1。1 描述多階段決策過程的一個完整步驟。 在時刻 t, 控製係統的決 策者觀察到係統當前所處的狀態, 並根據這個狀態從可行的決策行為集閤中選取一 個決策行為 (我們稱選擇一個行動)。 之後, 該行動會對係統的後續運行産生兩方麵 的影響:一方麵是産生瞭一個既得的報酬或費用, 而另一方麵是係統的狀態會按照 與這個行動有關的一個概率規律在下個階段即在 t + 1 時刻轉移到一個新的狀態。 這時決策者麵臨著與開始時 (即時刻 t) 相同的問題, 也就是選取 t + 1 時刻的決策 行為。 依此循環下去, 不同的隻是在不同時刻係統的狀態可能是不同的, 而且可采 用的行動集閤隨著狀態的變化也會發生相應的變化。
  ……

前言/序言


馬爾可夫決策過程理論與應用 下載 mobi epub pdf txt 電子書 格式

馬爾可夫決策過程理論與應用 mobi 下載 pdf 下載 pub 下載 txt 電子書 下載 2024

馬爾可夫決策過程理論與應用 下載 mobi pdf epub txt 電子書 格式 2024

馬爾可夫決策過程理論與應用 下載 mobi epub pdf 電子書
想要找書就要到 圖書大百科
立刻按 ctrl+D收藏本頁
你會得到大驚喜!!

用戶評價

評分

很好的書,贊一個!

評分

不錯~~~得多學習學習,多看書~

評分

知識好有深度

評分

很好的書,贊一個!

評分

運籌與管理科學叢書每一本都是經典的,贊

評分

很好的書,贊一個!

評分

很好的書,贊一個!

評分

和前一版書差不多,更新瞭一些自己做的章節,但價格貴瞭很多。。

評分

運籌與管理科學叢書每一本都很經典!

類似圖書 點擊查看全場最低價

馬爾可夫決策過程理論與應用 mobi epub pdf txt 電子書 格式下載 2024


分享鏈接




相關圖書


本站所有內容均為互聯網搜索引擎提供的公開搜索信息,本站不存儲任何數據與內容,任何內容與數據均與本站無關,如有需要請聯繫相關搜索引擎包括但不限於百度google,bing,sogou

友情鏈接

© 2024 book.teaonline.club All Rights Reserved. 圖書大百科 版權所有