《随机系统的滤波与控制》研究生课程教学课件(讲稿)随机最优控制 Stochastic Optimal Control

School ofAutomation,XJTU随机最优控制Stochastic Optimal ControlCCAIYUANLI1
School of Automation, XJTU © CAI YUANLI 1 随 机 最 优 控 制 Stochastic Optimal Control

SchoolofAutomation.XJTUContents最优性原理(principleofoptimality)2确定性最优控制基础32.1连续时间系统402.2离散时间系统492.3最优控制的数值解543随机动态规划技术2CAIYUANLI
School of Automation, XJTU © CAI YUANLI 2 Contents 1 最优性原理(principle of optimality). 1 2 确定性最优控制基础. 3 连续时间系统. 3 离散时间系统. 40 最优控制的数值解 . 49 3 随机动态规划技术. 54

School of Automation.XJTU553.1离散时间系统613.2连续时间系统714连续时间线性二次高斯问题724.1完全状态信息764.2非完全状态信息与分离原理835离散时间线性二次高斯问题875.1完全状态信息3CAIYUANLI
School of Automation, XJTU © CAI YUANLI 3 离散时间系统. 55 连续时间系统. 61 4 连续时间线性二次高斯问题. 71 完全状态信息. 72 非完全状态信息与分离原理 . 76 5 离散时间线性二次高斯问题. 83 完全状态信息. 87

SchoolofAutomation.XJTU915.2非完全状态信息976非线性随机系统次优控制方法986.1摄动法1016.2强迫分离法4CAIYUANLI
School of Automation, XJTU © CAI YUANLI 4 非完全状态信息 . 91 6 非线性随机系统次优控制方法. 97 摄动法. 98 强迫分离法.101

SchoolofAutomation,XJTU1最优性原理(principleofoptimality)An optimal policy has the property that no matter what the previousdecisions (i.e. controls) have been, the remaining decisions must constitutean optimal policy with regards to the state resulting from those previousdecisions.CCAIYUANLI?
School of Automation, XJTU © CAI YUANLI 1 1 最优性原理(principle of optimality) An optimal policy has the property that no matter what the previous decisions (i.e. controls) have been, the remaining decisions must constitute an optimal policy with regards to the state resulting from those previous decisions

School ofAutomation,XJTU最优策略具有这样的性质:不管过去控制策略如何,余下阶段的控制策略必须是关于目前状态的最优策略。(Bellman1957)[例]设C点是由A点到B点的最优路径上的任一点,那么由C点到B点的最优路径仍然是A到B的最优路径上C到B的部分。BA2CCAIYUANLI
School of Automation, XJTU © CAI YUANLI 2 最优策略具有这样的性质:不管过去控制策略如何,余下阶段的 控制策略必须是关于目前状态的最优策略。(Bellman 1957) [例] 设 C 点是由 A 点到 B 点的最优路径上的任一点,那么由 C 点 到 B 点的最优路径仍然是 A 到 B 的最优路径上 C 到 B 的部分。 C A B

School of Automation,XJTU2确定性最优控制基础2.1连续时间系统(2. 1)x(t) = f(x(t),u(t)), x(to) = xoJ(xo,to) = [T, x(T)] + JT L(x, u, t)dt(2.2)问题:求u*(t)E2r,使得J*(xo,to)≤J(xo,to)。CAIYUANLI3
School of Automation, XJTU © CAI YUANLI 3 2 确定性最优控制基础 连续时间系统 𝑥̇(𝑡) = 𝑓(𝑥(𝑡), 𝑢(𝑡)),𝑥(𝑡0 ) = 𝑥0 (2.1) 𝐽(𝑥0 ,𝑡0 ) = 𝜑[𝑇, 𝑥(𝑇)] + ∫ 𝐿(𝑥, 𝑢,𝑡)𝑑𝑡 𝑇 𝑡0 (2.2) 问题:求𝑢 ∗ (𝑡) ∈ 𝔄,使得𝐽 ∗ (𝑥0 ,𝑡0 ) ≤ 𝐽(𝑥0 ,𝑡0 )

School ofAutomation,XJTU一般地J*[x(t),t] = min(Φ[T, x(T)] + f' L[x(t), u(t), t]dt)(2.3)u(Tt≤T≤T根据最优性原理t+4tminL[x(t), u(t), t]dt + J*[x(t + t),t + 4tl)J*[x(t),t] =u(t)tst≤t+4t泰勒级数展开上式右端第2项:J*[x(t + △t),t + △t] = J*[x(t),t] + Jt[x(t),t]4t4CAIYUANLI
School of Automation, XJTU © CAI YUANLI 4 一般地 𝐽 ∗ [𝑥(𝑡),𝑡] = 𝑚𝑖𝑛 𝑢(𝜏) 𝑡≤𝜏≤𝑇 {𝜑[𝑇, 𝑥(𝑇)] + ∫ 𝐿[𝑥(𝜏), 𝑢(𝜏), 𝜏]𝑑𝜏 𝑇 𝑡 } (2.3) 根据最优性原理 𝐽 ∗ [𝑥(𝑡),𝑡] = min 𝑢(𝜏) 𝑡≤𝜏≤𝑡+𝛥𝑡 {∫ 𝐿[𝑥(𝜏), 𝑢(𝜏), 𝜏]𝑑𝜏 + 𝐽 ∗ [𝑥(𝑡 + 𝛥𝑡),𝑡 + 𝛥𝑡] 𝑡+𝛥𝑡 𝑡 } 泰勒级数展开上式右端第 2 项: 𝐽 ∗ [𝑥(𝑡 + 𝛥𝑡),𝑡 + 𝛥𝑡] = 𝐽 ∗ [𝑥(𝑡),𝑡] + 𝐽𝑡 ∗ [𝑥(𝑡),𝑡]𝛥𝑡

School ofAutomation,XJTU+ J*[x(t),t]T f[x(t),u(t),t]4t + o(4t)从而可得:-Jt[x(t),t] = min(L[x(t), u(t),t] + J*[x(t), t]T f[x(t),u(t),t (2.4)u(t)记(Hamilton函数)H[x(t),u(t),Jx, t] = L[x(t), u(t),t] + J*[x(t),t]T f[x(t), u(t),t](2.5)那么(2.6)-Jt[x(t),t] = minH[x(t), u(t), Jx,t]u(t)5CCAIYUANLI
School of Automation, XJTU © CAI YUANLI 5 + 𝐽𝑥 ∗ [𝑥(𝑡),𝑡] 𝑇𝑓[𝑥(𝑡), 𝑢(𝑡),𝑡]𝛥𝑡 + 𝑜(𝛥𝑡) 从而可得: −𝐽𝑡 ∗ [𝑥(𝑡),𝑡] = min 𝑢(𝑡) {𝐿[𝑥(𝑡), 𝑢(𝑡),𝑡] + 𝐽𝑥 ∗ [𝑥(𝑡),𝑡] 𝑇𝑓[𝑥(𝑡), 𝑢(𝑡),𝑡]} (2.4) 记(Hamilton 函数) 𝐻[𝑥(𝑡), 𝑢(𝑡),𝐽𝑥 ∗ ,𝑡] = 𝐿[𝑥(𝑡), 𝑢(𝑡),𝑡] + 𝐽𝑥 ∗ [𝑥(𝑡),𝑡] 𝑇𝑓[𝑥(𝑡), 𝑢(𝑡),𝑡] (2.5) 那么 −𝐽𝑡 ∗ [𝑥(𝑡),𝑡] = min 𝑢(𝑡) 𝐻[𝑥(𝑡), 𝑢(𝑡),𝐽𝑥 ∗ ,𝑡] (2.6)

School ofAutomation,XJTU哈密尔顿-雅可比-贝尔曼(HJB)方程边界条件:(2.7)J*[x(T), T] = [T, x(T)]【庞特里亚金极小值原理](2.8)H[x(t),u(t),a(t),t] = L[x(t), u(t),t] + ^ (t)f[x(t),u(t),t](2.9)u*(t) = arg minH[x(t), u(t), ^(t),t)u(t)CAIYUANLI6
School of Automation, XJTU © CAI YUANLI 6 ——哈密尔顿-雅可比-贝尔曼(HJB)方程 边界条件: 𝐽 ∗ [𝑥(𝑇), 𝑇] = 𝜑[𝑇, 𝑥(𝑇)] (2.7) [庞特里亚金极小值原理] 𝐻[𝑥(𝑡), 𝑢(𝑡), 𝜆(𝑡),𝑡] = 𝐿[𝑥(𝑡), 𝑢(𝑡),𝑡] + 𝜆 𝑇 (𝑡)𝑓[𝑥(𝑡), 𝑢(𝑡),𝑡] (2.8) 𝑢 ∗ (𝑡) = arg min 𝑢(𝑡) 𝐻[𝑥(𝑡), 𝑢(𝑡), 𝜆(𝑡),𝑡] (2.9)
按次数下载不扣除下载券;
注册用户24小时内重复下载只扣除一次;
顺序:VIP每日次数-->可用次数-->下载券;
- 《随机系统的滤波与控制》研究生课程教学课件(讲稿)最小方差控制.pdf
- 《随机系统的滤波与控制》研究生课程教学课件(讲稿)连续时间系统滤波与平滑算法 CTSKF.pdf
- 《随机系统的滤波与控制》研究生课程教学课件(讲稿)非线性系统滤波算法——容积卡尔曼滤波算法及其改进.pdf
- 《随机系统的滤波与控制》研究生课程教学课件(讲稿)非线性系统滤波算法——估计问题中常见的评价指标.pdf
- 《随机系统的滤波与控制》研究生课程教学课件(讲稿)非线性系统滤波算法——Introduction to Particle Filtering.pdf
- 《随机系统的滤波与控制》研究生课程教学课件(讲稿)非线性系统滤波算法——Unscented Kalman Filter(UKF).pdf
- 《随机系统的滤波与控制》研究生课程教学课件(讲稿)非线性系统滤波算法——Nonlinear Filtering.pdf
- 《随机系统的滤波与控制》研究生课程教学课件(讲稿)次优滤波算法与多模型滤波算法 MMAE.pdf
- 《随机系统的滤波与控制》研究生课程教学课件(讲稿)次优滤波算法与多模型滤波算法 Sub Optimal Filtering.pdf
- 《随机系统的滤波与控制》研究生课程教学课件(讲稿)线性最优平滑算法 Optimal Smoother.pdf
- 《随机系统的滤波与控制》研究生课程教学课件(讲稿)线性最优滤波小结.pdf
- 《随机系统的滤波与控制》研究生课程教学课件(讲稿)卡尔曼滤波器性能分析.pdf
- 《随机系统的滤波与控制》研究生课程教学课件(讲稿)相关噪声与成形滤波器.pdf
- 《随机系统的滤波与控制》研究生课程教学课件(讲稿)线性最优滤波理论.pdf
- 《随机系统的滤波与控制》研究生课程教学课件(讲稿)经典参数估计与融合估计算法 Estimation Summary.pdf
- 《随机系统的滤波与控制》研究生课程教学课件(讲稿)静态参数估计理论.pdf
- 《随机系统的滤波与控制》研究生课程教学课件(PPT讲稿)泛函分析基础知识.pptx
- 《随机系统的滤波与控制》研究生课程教学课件(PPT讲稿)随机过程基础.pptx
- 《随机系统的滤波与控制》研究生课程教学课件(PPT讲稿)概率论.pptx
- 《随机系统的滤波与控制》研究生课程教学课件(PPT讲稿)线性系统理论基础.pptx
- 《随机系统的滤波与控制》研究生课程教学课件(讲稿)随机最优控制——连续随机控制补充.pdf
- 《微波设计与综合测量实验》课程教学资源(讲义)在片测量和VNA校准算法.pdf
- 《微波设计与综合测量实验》课程教学资源(讲义)微波测量基础(1)标准与定标.pdf
- 《微波设计与综合测量实验》课程教学资源(讲义)微波测量基础(3)校准与在片测试.pdf
- 《微波设计与综合测量实验》课程教学资源(讲义)微波测量基础(2)S参数与噪声.pdf
- 浪涌抑制NTC热敏电阻的选用指南:大功率设备浪涌抑制NTC热敏电阻选用.pdf
- 大连理工大学:《信号与系统》课程教学大纲 B.pdf
- 大连理工大学:《信号与系统》课程教学大纲 A.pdf
- 大连理工大学:《信号与系统》课程教学课件(讲稿)第01讲 §1.1 绪言 §1.2 信号.pdf
- 大连理工大学:《信号与系统》课程教学课件(讲稿)第02讲 §1.3 信号的基本运算 §1.4 阶跃函数和冲激函数.pdf
- 大连理工大学:《信号与系统》课程教学课件(讲稿)第03讲 §1.4 阶跃函数和冲激函数 §1.5 系统的描述 §1.6 系统的特性和分析方法.pdf
- 大连理工大学:《信号与系统》课程教学课件(讲稿)第04讲 §1.6 系统的特性和分析方法 §2.1 LTI连续系统的响应.pdf
- 大连理工大学:《信号与系统》课程教学课件(讲稿)第05讲 §2.1 LTI连续系统的响应 §2.2 冲激响应和阶跃响应.pdf
- 大连理工大学:《信号与系统》课程教学课件(讲稿)第06讲 §2.2 冲激响应和阶跃响应 §2.3 卷积积分 §2.4 卷积积分的性质.pdf
- 大连理工大学:《信号与系统》课程教学课件(讲稿)第07讲 §2.3 卷积积分 §2.4 卷积积分的性质.pdf
- 大连理工大学:《信号与系统》课程教学课件(讲稿)第08讲 §4.2 傅里叶级数.pdf
- 大连理工大学:《信号与系统》课程教学课件(讲稿)第09讲 §4.2 傅里叶级数 §4.3 周期信号的频谱.pdf
- 大连理工大学:《信号与系统》课程教学课件(讲稿)第10讲 §4.3 周期信号的频谱 §4.4 非周期信号的频谱.pdf
- 大连理工大学:《信号与系统》课程教学课件(讲稿)第11讲 §4.4 非周期信号的频谱 §4.5 傅里叶变换的性质.pdf
- 大连理工大学:《信号与系统》课程教学课件(讲稿)第12讲 §4.5 傅里叶变换的性质 §4.7 周期信号的傅里叶变换.pdf
