大規模強化學習

大規模強化學習 下載 mobi epub pdf 電子書 2024


簡體網頁||繁體網頁
劉全,傅啓明,鍾珊,黃蔚 著



點擊這裡下載
    

想要找書就要到 圖書大百科
立刻按 ctrl+D收藏本頁
你會得到大驚喜!!

發表於2024-09-19

類似圖書 點擊查看全場最低價


圖書介紹

齣版社: 科學齣版社
ISBN:9787030477477
版次:1
商品編碼:11900024
包裝:平裝
開本:16開
齣版時間:2016-03-01
用紙:膠版紙
頁數:277
字數:352000
正文語種:中文


相關圖書





圖書描述

內容簡介

  《大規模強化學習》討論大規模強化學習的理論及方法,介紹強化學習在大狀態空間任務中的應用。該研究已成為近年來計算機科學與技術領域*活躍的研究分支之一。
  《大規模強化學習》共分六部分21章。第一部分是強化學習基礎。第二部分是用於強化學習的值函數逼近方法。第三部分是*小二乘策略迭代方法。第四部分是模糊近似強化學習方法。第五部分是並行強化學習方法。第六部分是離策略強化學習方法。
  《大規模強化學習》可以作為高等院校計算機專業和自動控製專業研究生的教材,也可以作為相關領域科技工作者和工程技術人員的參考書。

內頁插圖

目錄

前言
第1章 強化學習概述
1.1 簡介
1.2 形式框架
1.2.1 馬爾可夫決策過程
1.2.2 策略
1.2.3 迴報
1.3 值函數
1.4 解決強化學習問題
1.4.1 動態規劃:基於模型的解決技術
1.4.2 強化學習:模型無關的解決技術
1.5 本章小結
參考文獻

第2章 大規模或連續狀態空間的強化學習
2.1 簡介
2.2 近似錶示
2.2.1 帶參數化值函數逼近
2.2.2 非參數化值函數逼近
2.3 值函數逼近求解方法
2.3.1 梯度下降方法
2.3.2 最小二乘迴歸
2.4 本章小結
參考文獻

第3章 梯度下降值函數逼近模型的改進
3.1 改進的梯度下降值函數逼近模型
3.1.1 勢函數塑造奬賞機製
3.1.2 基於勢函數塑造奬賞機製的值函數逼近模型
3.2 NRBF-GD-Sarsa(λ)算法
3.2.1 算法描述
3.2.2 算法收斂性分析
3.3 仿真實驗
3.3.1 實驗描述
3.3.2 實驗設置
3.3.3 實驗分析
3.4 本章小結
參考文獻

第4章 基於LSSVR的Q-值函數分片逼近模型
4.1 LSSVR-Q-值函數分片逼近模型
4.2 在綫稀疏化樣本池構建方法
4.3 LSSVR-Q算法
4.4 仿真實驗
4.4.1 實驗1:MountainCar問題
4.4.2 實驗2:DCMotor問題
4.5 本章小結
參考文獻

第5章 基於ANRBF網絡的Q-V值函數協同逼近模型
5.1 Q-V值函數協同機製
5.2 Q-V值函數協同逼近模型
5.3 Q-V值函數協同逼近算法
5.3.1 QV(λ)算法
5.3.2 算法收斂性分析
5.4 仿真實驗
5.4.1 實驗描述
5.4.2 實驗設置
5.4.3 實驗分析
5.5 本章小結
參考文獻

第6章 基於高斯過程的快速Sarsa算法
6.1 新的值函數概率生成模型
6.2 利用高斯過程對綫性帶參值函數建模
6.3 FL-GPSarsa算法
6.4 仿真實驗
6.4.1 帶風的格子世界問題
6.4.2 MountainCar問題
6.5 本章小結
參考文獻

第7章 基於高斯過程的Q學習算法
7.1 值迭代方法
7.2 用於值迭代的值函數概率生成模型
7.3 GP-QL算法
7.4 仿真實驗
7.4.1 實驗1:帶懸崖的格子世界問題
7.4.2 實驗2:MountainCar問題
7.5 本章小結
參考文獻

第8章 最小二乘策略迭代算法
8.1 馬爾可夫決策過程
8.2 最小二乘策略迭代
8.2.1 投影貝爾曼等式的矩陣形式
8.2.2 最小二乘策略迭代
8.2.3 在綫最小二乘策略迭代
8.3 本章小結
參考文獻

第9章 批量最小二乘策略迭代算法
9.1 批量強化學習算法
9.2 批量最小二乘策略迭代算法
9.3 算法分析
9.3.1 收斂性分析
9.3.2 復雜度分析
9.4 仿真實驗
9.4.1 實驗描述
9.4.2 實驗設置
9.4.3 實驗分析
9.5 本章小結
參考文獻

第10章 自動批量最小二乘策略迭代算法
10.1 定點步長參數評估方法
10.2 自動批量最小二乘策略迭代算法
10.3 仿真實驗
10.3.1 實驗描述
10.3.2 實驗分析
10.4 本章小結
參考文獻

第11章 連續動作空間的批量最小二乘策略迭代算法
11.1 二值動作搜索
11.2 快速特徵選擇
11.3 連續動作空間的快速特徵選擇批量最小二乘策略迭代算法
11.4 仿真實驗
11.4.1 實驗描述
11.4.2 實驗設置
11.4.3 實驗分析
11.5 本章小結
參考文獻

第12章 一種基於雙層模糊推理的Sarsa(λ)算法
12.1 Q-值函數的計算和FIS的參數更新
12.2 DFR-Sarsa(λ)算法
12.2.1 DFR-Sarsa(λ)算法的學習過程
12.2.2 算法收斂性分析
12.3 仿真實驗
12.3.1 MountainCar
12.3.2 平衡杆
12.4 本章小結
參考文獻

第13章 一種基於區間型二型模糊推理的Sarsa(λ)算法
13.1 近似Q-值函數的計算和參數的更新
13.2 IT2FI-Sarsa(λ)算法的學習過程
13.3 算法收斂性分析
13.4 仿真實驗
13.4.1 實驗設置
13.4.2 實驗分析
13.5 本章小結
參考文獻
……
第14章 一種帶有自適應基函數的模糊值迭代算法
第15章 基於狀態空間分解和智能調度的並行強化學習
第16章 基於資格跡的並行時間信度分配強化學習算法
第17章 基於並行采樣和學習經驗復用的E3算法
第18章 基於綫性函數逼近的離策略Q(λ)算法
第19章 基於二階TDError的Q(λ)算法
第20章 基於值函數遷移的快速Q-Learning算法
第21章 離策略帶參貝葉斯強化學習算法

前言/序言


大規模強化學習 下載 mobi epub pdf txt 電子書 格式

大規模強化學習 mobi 下載 pdf 下載 pub 下載 txt 電子書 下載 2024

大規模強化學習 下載 mobi pdf epub txt 電子書 格式 2024

大規模強化學習 下載 mobi epub pdf 電子書
想要找書就要到 圖書大百科
立刻按 ctrl+D收藏本頁
你會得到大驚喜!!

用戶評價

評分

感覺還可以吧,感覺還可以吧

評分

劉全老師的團隊近年來齣瞭不少強化學習方麵的文章,這本書算是一個集閤,很不錯。

評分

還可以吧,供參考。

評分

寫的東西不是很清楚

評分

好好好好好好好好好好好好好好好好好好好好

評分

先生買的書,紙張不錯,字體清晰,沒什麼味道,快遞也很快!

評分

還行吧,發票給我寫錯瞭

評分

此用戶未填寫評價內容

評分

啊積分卡離開傢放辣椒兩地分居阿裏接待來訪

類似圖書 點擊查看全場最低價

大規模強化學習 mobi epub pdf txt 電子書 格式下載 2024


分享鏈接




相關圖書


本站所有內容均為互聯網搜索引擎提供的公開搜索信息,本站不存儲任何數據與內容,任何內容與數據均與本站無關,如有需要請聯繫相關搜索引擎包括但不限於百度google,bing,sogou

友情鏈接

© 2024 book.teaonline.club All Rights Reserved. 圖書大百科 版權所有