內容簡介
《大規模強化學習》討論大規模強化學習的理論及方法,介紹強化學習在大狀態空間任務中的應用。該研究已成為近年來計算機科學與技術領域*活躍的研究分支之一。
《大規模強化學習》共分六部分21章。第一部分是強化學習基礎。第二部分是用於強化學習的值函數逼近方法。第三部分是*小二乘策略迭代方法。第四部分是模糊近似強化學習方法。第五部分是並行強化學習方法。第六部分是離策略強化學習方法。
《大規模強化學習》可以作為高等院校計算機專業和自動控製專業研究生的教材,也可以作為相關領域科技工作者和工程技術人員的參考書。
內頁插圖
目錄
前言
第1章 強化學習概述
1.1 簡介
1.2 形式框架
1.2.1 馬爾可夫決策過程
1.2.2 策略
1.2.3 迴報
1.3 值函數
1.4 解決強化學習問題
1.4.1 動態規劃:基於模型的解決技術
1.4.2 強化學習:模型無關的解決技術
1.5 本章小結
參考文獻
第2章 大規模或連續狀態空間的強化學習
2.1 簡介
2.2 近似錶示
2.2.1 帶參數化值函數逼近
2.2.2 非參數化值函數逼近
2.3 值函數逼近求解方法
2.3.1 梯度下降方法
2.3.2 最小二乘迴歸
2.4 本章小結
參考文獻
第3章 梯度下降值函數逼近模型的改進
3.1 改進的梯度下降值函數逼近模型
3.1.1 勢函數塑造奬賞機製
3.1.2 基於勢函數塑造奬賞機製的值函數逼近模型
3.2 NRBF-GD-Sarsa(λ)算法
3.2.1 算法描述
3.2.2 算法收斂性分析
3.3 仿真實驗
3.3.1 實驗描述
3.3.2 實驗設置
3.3.3 實驗分析
3.4 本章小結
參考文獻
第4章 基於LSSVR的Q-值函數分片逼近模型
4.1 LSSVR-Q-值函數分片逼近模型
4.2 在綫稀疏化樣本池構建方法
4.3 LSSVR-Q算法
4.4 仿真實驗
4.4.1 實驗1:MountainCar問題
4.4.2 實驗2:DCMotor問題
4.5 本章小結
參考文獻
第5章 基於ANRBF網絡的Q-V值函數協同逼近模型
5.1 Q-V值函數協同機製
5.2 Q-V值函數協同逼近模型
5.3 Q-V值函數協同逼近算法
5.3.1 QV(λ)算法
5.3.2 算法收斂性分析
5.4 仿真實驗
5.4.1 實驗描述
5.4.2 實驗設置
5.4.3 實驗分析
5.5 本章小結
參考文獻
第6章 基於高斯過程的快速Sarsa算法
6.1 新的值函數概率生成模型
6.2 利用高斯過程對綫性帶參值函數建模
6.3 FL-GPSarsa算法
6.4 仿真實驗
6.4.1 帶風的格子世界問題
6.4.2 MountainCar問題
6.5 本章小結
參考文獻
第7章 基於高斯過程的Q學習算法
7.1 值迭代方法
7.2 用於值迭代的值函數概率生成模型
7.3 GP-QL算法
7.4 仿真實驗
7.4.1 實驗1:帶懸崖的格子世界問題
7.4.2 實驗2:MountainCar問題
7.5 本章小結
參考文獻
第8章 最小二乘策略迭代算法
8.1 馬爾可夫決策過程
8.2 最小二乘策略迭代
8.2.1 投影貝爾曼等式的矩陣形式
8.2.2 最小二乘策略迭代
8.2.3 在綫最小二乘策略迭代
8.3 本章小結
參考文獻
第9章 批量最小二乘策略迭代算法
9.1 批量強化學習算法
9.2 批量最小二乘策略迭代算法
9.3 算法分析
9.3.1 收斂性分析
9.3.2 復雜度分析
9.4 仿真實驗
9.4.1 實驗描述
9.4.2 實驗設置
9.4.3 實驗分析
9.5 本章小結
參考文獻
第10章 自動批量最小二乘策略迭代算法
10.1 定點步長參數評估方法
10.2 自動批量最小二乘策略迭代算法
10.3 仿真實驗
10.3.1 實驗描述
10.3.2 實驗分析
10.4 本章小結
參考文獻
第11章 連續動作空間的批量最小二乘策略迭代算法
11.1 二值動作搜索
11.2 快速特徵選擇
11.3 連續動作空間的快速特徵選擇批量最小二乘策略迭代算法
11.4 仿真實驗
11.4.1 實驗描述
11.4.2 實驗設置
11.4.3 實驗分析
11.5 本章小結
參考文獻
第12章 一種基於雙層模糊推理的Sarsa(λ)算法
12.1 Q-值函數的計算和FIS的參數更新
12.2 DFR-Sarsa(λ)算法
12.2.1 DFR-Sarsa(λ)算法的學習過程
12.2.2 算法收斂性分析
12.3 仿真實驗
12.3.1 MountainCar
12.3.2 平衡杆
12.4 本章小結
參考文獻
第13章 一種基於區間型二型模糊推理的Sarsa(λ)算法
13.1 近似Q-值函數的計算和參數的更新
13.2 IT2FI-Sarsa(λ)算法的學習過程
13.3 算法收斂性分析
13.4 仿真實驗
13.4.1 實驗設置
13.4.2 實驗分析
13.5 本章小結
參考文獻
……
第14章 一種帶有自適應基函數的模糊值迭代算法
第15章 基於狀態空間分解和智能調度的並行強化學習
第16章 基於資格跡的並行時間信度分配強化學習算法
第17章 基於並行采樣和學習經驗復用的E3算法
第18章 基於綫性函數逼近的離策略Q(λ)算法
第19章 基於二階TDError的Q(λ)算法
第20章 基於值函數遷移的快速Q-Learning算法
第21章 離策略帶參貝葉斯強化學習算法
前言/序言
大規模強化學習 下載 mobi epub pdf txt 電子書 格式