作者:赵世钰
出版社:清华大学出版社
出版时间:2025年05月
编辑推荐 ·
从零开始到透彻理解,知其然并知其所以然; ·本书在GitHub收获5000 星; ·课程视频全网播放超过100万; ·国内外读者反馈口碑爆棚; ·教材、视频、课件三位一体。
内容简介
本书将从强化学习最基本的概念开始介绍,将介绍基础的分析工具包括贝尔曼公式和贝尔曼最优公式,之后会推广到基于模型的和无模型的强化学习算法,最后会推广到基于函数逼近的强化学习方法。本书强调从数学的角度接引入概念、分析问题、分析算法。并不强调算法的编程实现,因为目前已经有很多这方面的书籍,本书将不再重复造轮子。 本书面向对强化学习感兴趣的本科生、研究生、研究人员和企业研究所从业者。 它不需要读者有任何关于强化学习的背景,因为它会从最基本的概念开始介绍。如果读者已经有一些 强化学习的背景,这本书也可以帮助他们更深入地理解一些问题或者带来新的视角。 本书要求读者具备一定的概率论和线性代数知识。本书的附录中包含了一些必需的数学基础知识。
作者简介
赵世钰目前是西湖大学工学院特聘研究员、博士生导师、智能无人系统实验室主任、国家海外高层次人才引进计划(青年项目)获得者。他本硕毕业于北京航空航天大学,博士毕业于新加坡国立大学。他2019年回国加入西湖大学工学院,回国之前在英国谢菲尔德大学自动控制与系统工程系担任讲师和博士生导师,该系是英国唯一一个专注于自动控制领域的院系。 赵世钰在系统与控制领域具有丰富的理论和实践研究经验,他已在控制与机器人领域的国际期刊和会议发表研究论文50余篇。主要代表性研究成果为多机器人协同控制与估计,特别是方位刚性理论及其在网络系统中的应用,相关成果以综述论文的形式发表在IEEE控制系统学会权威官方杂志IEEE Control Systems Magazine。他是绝大多数控制和机器人领域的国际顶级期刊和会议的审稿人。他是多个国际重要会议的编委(包括IEEE IROS, CDC, ACC, ICCA, ICARCV, ICUAS),IEEE控制系统协会编委会委员,并担任ICCA2018的英国区域主席和ICCA2019的程序委员会主席。此外,他是国际期刊Unmanned Systems的编委。赵世钰曾获得领跑者5000——中国精品科技期刊顶尖论文、2014年第33届中国控制会议关肇直奖。
目 录
第 1章基本概念 1 2.8.2基于动作值的贝尔曼方程 32 . 32 2.10问答 33 1启发示例:如何改进策略?. 36 3. 2最优状态值和最优策略 37 3. 3贝尔曼最优方程 38 3. 3.1方程右侧的优化问题 39 3.3.2矩阵 显示全部信息 前 言 本书旨在成为一本数学但是友好的教材,能帮助读者“从零开始”实现对强化学习原理的“透彻理解”。本书的特点如下所述。 . 第一,从数学的角度讲故事,让读者不仅了解算法的流程,更能理解为什么一个算法最初设计成这个样子、为什么它能有效地工作等基本问题。 本书适合对强化学习感兴趣的高年级本科生、研究生、科研人员和工程技术人员阅读。由于本书会从最基本的概念开始介绍,因此不要求读者有任何强化学习的背景。当然,如果读者已经有一些强化学习的背景,我相信本书可以帮助大家更深入地理解一些问题或者提供不同的视角。此外,本书要求读者具备一些概率论和线性代数的知识,这些知识在本书附录中已经给出。 自 2019年以来,我一直在教授研究生的强化学习课程,我要感谢课程中的学生对我的教学提出的反馈建议。自 2022年 8月把这本书的草稿在线发布在 GitHub,到目前为止我收到了许多读者的宝贵反馈,在此对这些读者表示衷心感谢。此外,我还要感谢我的团队成员吕嘉玲在编辑书稿和课程视频方面所做的大量琐碎但是重要的工作;感谢助教李佳楠和米轶泽在我的教学中的勤恳工作;感谢我的博士生郑灿伦在设计书