《随机系统的滤波与控制》研究生课程教学课件(讲稿)随机最优控制——连续随机控制补充

最优控制理论补充连续时间系统西安交通大学电子与信息学部蔡远利教授
最优控制理论补充 连续时间系统 西安交通大学电子与信息学部 蔡远利 教授

随机最优控制问题假设f:R"×U一Rn,O表示引起随机波动的“白噪声”项:(x(s) = f(X(s),U(s)) +o(s)(t<s<T) (1)(x(0)=Xo【定义】控制U是[t,T]到U的一个映射,对每一个时间t<s<T,U(s仅依赖于s以及t<t<T区间的X(T)【定义】收益函数r(x(s),U(s)ds + g(x(T))J[U(O;x,t] = E数学期望是关于随机微分方程(1)解的所有样本轨迹上的平均值。r)表示运行过程收益,9)表示终端收益
随机最优控制问题 假设𝒇: ℝ × 𝑈 ⟶ ℝ,𝝃(⋅)表示引起随机波动的“白噪声”项; ൝𝑿̇ 𝑠 = 𝒇 𝑿 𝑠 , 𝑼(𝑠) + 𝜎𝝃(𝑠) 𝑡 < 𝑠 < 𝑇 𝑿 0 = 𝒙 (1) 【定义】控制𝑼(⋅)是[𝑡, 𝑇]到𝑈的一个映射,对每一个时间𝑡 < 𝑠 < 𝑇,𝑼(𝑠)仅依赖于𝑠以及𝑡 < 𝜏 < 𝑇区 间的𝑿 𝜏 . 【定义】收益函数 𝐽 𝑼 ⋅ ; 𝑥,𝑡 = 𝐸 න 𝑟 𝑿 𝑠 , 𝑼 𝑠 𝑑𝑠 + 𝑔 𝑿 𝑇 ் ௧ 数学期望是关于随机微分方程(1)解的所有样本轨迹上的平均值。𝑟(⋅,⋅)表示运行过程收益, 𝑔(⋅)表示 终端收益

任务与目标找到一个最优控制U*(),使得J[U*(O;x,t] = max/[U(O;x,t]U.【定义】价值函数v(x,t):= supJ[U();x,t]UO求解最优控制U*()的总体思路1,找到v()满足的Hamilton-Jacobi-Bellman偏微分方程2利用该偏微分方程的解设计设计U*
任务与目标 找到一个最优控制𝑼 ∗ (⋅),使得 𝐽 𝑼 ∗ ⋅ ; 𝑥,𝑡 = max 𝑼 ⋅ 𝐽 𝑼 ⋅ ; 𝑥,𝑡 【定义】价值函数 𝑣 𝑥,𝑡 : = sup 𝑼 ⋅ 𝐽 𝑼 ⋅ ; 𝑥,𝑡 求解最优控制𝑼 ∗ (⋅)的总体思路: 1. 找到𝑣(⋅,⋅)满足的Hamilton-Jacobi-Bellman偏微分方程; 2. 利用该偏微分方程的解设计设计𝑼 ∗

布朗运动【定义】实值随机过程W(t)称为维纳过程或布朗运动,如果① W(0)= 0:2每个样本轨迹是连续的1W(t)是高斯分布的,且μ=0,α2=t(也就是说,W(t)~N(0,t):34对于所有可能的时间0<ti<t2<<tm,随机变量W(ti),W(t2)-W(ti),",W(tm)-W(tm-1)是相互独立的随机变量。上述定义中(4)表明W具有独立增量"。我们可以将一维"白噪声"5()解释为等于aW()然而,这只是形式上的,因为对于几乎所有的の,样本dt轨迹t→W(t,)实际上是不可微的
布朗运动 【定义】实值随机过程𝑊(𝑡)称为维纳过程或布朗运动,如果 ① 𝑊 0 = 0; ② 每个样本轨迹是连续的; ③ 𝑊(𝑡)是高斯分布的,且𝜇 = 0, 𝜎 ଶ = 𝑡(也就是说,𝑊 𝑡 ~𝑁(0,𝑡); ④ 对于所有可能的时间0 < 𝑡ଵ < 𝑡ଶ < ⋯ < 𝑡,随机变量 𝑊 𝑡ଵ , 𝑊 𝑡ଶ − 𝑊 𝑡ଵ , ⋯ , 𝑊 𝑡 − 𝑊(𝑡ିଵ) 是相互独立的随机变量。 上述定义中(4)表明𝑊具有“独立增量”。 我们可以将一维“白噪声”𝜉(·)解释为等于ௗௐ(௧) ௗ௧ 。然而,这只是形式上的,因为对于几乎所有的𝜔,样本 轨迹𝑡 → 𝑊(𝑡, 𝜔)实际上是不可微的

n维布朗运动【定义】n维布朗运动是指W(t) = (w1(t),w?(t),., Wwn(t)其中Wi(t)是独立的一维布朗运动
n维布朗运动 【定义】 维布朗运动是指 ଵ ଶ ் 其中 是独立的一维布朗运动

随机微分方程考虑由“白噪声”驱动的随机微分方程(x(t) = f(x(t)) +(t)(t > 0) (2)X(0) = xo这里,我们非正式地认为=W。【定义】如果随机过程X是方程(2)的解(t≥0.我们有X(t) = xo + / f(x(s))ds +ow(t)(3)可以用逐次逼近法求解(3)式。为此,设置X°()三x,归纳定义Xk+1(t):= xo + / f(xk(s)) ds + ow(t)(4)对于所有t≥0.x(t)收敛到极限X(t)且x()是积分恒等式(3)的解
随机微分方程 考虑由“白噪声”驱动的随机微分方程: ൝𝑿̇ 𝑡 = 𝒇 𝑿 𝑡 + 𝜎𝝃(𝑡) 𝑡 > 0 𝑿 0 = 𝒙 2 这里,我们非正式地认为𝝃 = 𝑾̇ 。 【定义】如果随机过程𝑋(·)是方程(2)的解(𝑡 ≥ 0),我们有 𝑿 𝑡 = 𝑥 + න 𝒇 𝑿 𝑠 𝑑𝑠 ௧ + 𝜎𝑾 𝑡 3 可以用逐次逼近法求解(3)式。为此,设置𝑿 (·) ≡ 𝑥,归纳定义 𝑿 ାଵ 𝑡 : = 𝑥 + න 𝒇 𝑿 𝑠 𝑑𝑠 ௧ + 𝜎𝑾 𝑡 4 对于所有𝑡 ≥ 0,𝑿(𝑡)收敛到极限𝑿 𝑡 且𝑿 ⋅ 是积分恒等式(3)的解

伊藤随机微分方程考虑更一般的随机微分方程X(t) = f(x(t)) + H(X(t))(t)(t > 0)(5)我们将其正式改写为dx(t)= f(x() + H(X(t) W()(t > 0)(6)dtdt于是有dx(t) =f(x(t)dt + H(x(t)dw(t)(t > 0)(7)这是一个伊藤随机微分方程。我们说X()是一个解,具有初始条件X(O)=xo,如果X(t) = Xo +/ f(x(s)ds + / H(x(s)dw(s)(t ≥ 0)式中JH(X(s))dW(s)称为伊藤积分
伊藤随机微分方程 考虑更一般的随机微分方程 𝑿̇ 𝑡 = 𝒇 𝑿 𝑡 + 𝑯 𝑿 𝑡 𝝃 𝑡 𝑡 > 0 5 我们将其正式改写为 𝑑𝑿 𝑡 𝑑𝑡 = 𝒇 𝑿 𝑡 + 𝑯 𝑿 𝑡 𝑑𝑾 𝑡 𝑑𝑡 𝑡 > 0 6 于是有 𝑑𝑿 𝑡 = 𝒇 𝑿 𝑡 𝑑𝑡 + 𝑯 𝑿 𝑡 𝑑𝑾 𝑡 𝑡 > 0 7 这是一个伊藤随机微分方程。我们说𝑿 ⋅ 是一个解,具有初始条件𝑿 0 = 𝑥,如果 𝑿 𝑡 = 𝑥 + න 𝒇 𝑿 𝑠 𝑑𝑠 ௧ + න 𝑯 𝑿 𝑠 𝑑𝑾 𝑠 ௧ 𝑡 ≥ 0 式中∫ 𝑯 𝑿 𝑠 𝑑𝑾 𝑠 ௧ 称为伊藤积分

非预测(nonanticipating)过程给定布朗运动W,如果对于任意时间段0≤s≤t,随机过程YO具备非预测"性质Y(s)依赖于0≤T≤s区间的W(t).而不依赖于s≤t区间的W(t)。那么,可以为随机过程Y定义伊如下藤随机积分:Y(s)dw(s)这样的随机过程Y()被称为"非预测(nonanticipating)"过程。这里我们不解释伊藤积分的构造,只给出它的一个容易理解的性质(6)Y(s)dW(s)=00
非预测(nonanticipating)过程 给定布朗运动𝑾 ⋅ ,如果对于任意时间段 0 ≤ 𝑠 ≤ 𝑡,随机过程𝒀(⋅)具备“非预测”性质—— “𝒀 𝑠 依赖于 0 ≤ 𝜏 ≤ 𝑠区间的𝑾 𝜏 ,而不依赖于𝑠 ≤ 𝜏区间的𝑾 𝜏 ”。那么,可以为随机过程𝒀(⋅)定义 伊如下藤随机积分: න 𝒀 𝑠 𝑑𝑾 𝑠 ௧ 这样的随机过程𝒀(⋅)被称为“非预测(nonanticipating)”过程。 这里我们不解释伊藤积分的构造,只给出它的一个容易理解的性质: 𝐸 න 𝒀 𝑠 𝑑𝑾 𝑠 ௧ = 0 6

随机微积分一维情况假设n=1,且dx(t)=A(t)dt+B(t)dW(t)(t> 0)(7)X(0) = xo上式意味着L(vt ≥0)X(t)=xo+A(s)ds +B(s)dW(s)0令u:R一R,并定义Y (t):=u(X(t))问题:支配Y随时间演化的运动规律是什么?或者,换句话说,dY(t)是什么?需要注意的是,如下想当然的计算是错误的!dY(t)=d(u(X(t))=u(X(t))dx(t)=u(X(t))(A(t)dt+B(t)dW(t))
随机微积分 一维情况 假设n=1,且 ቊ𝑑𝑋 𝑡 = 𝐴 𝑡 𝑑𝑡 + 𝐵(𝑡)𝑑𝑊(𝑡) 𝑡 > 0 𝑋 0 = 𝑥 7 上式意味着 𝑋 𝑡 = 𝑥 + න 𝐴 𝑠 𝑑𝑠 ௧ + න 𝐵 𝑠 𝑑𝑊(𝑠) ௧ (∀𝑡 ≥ 0) 令𝑢: ℝ ⟶ ℝ,并定义 𝑌 (𝑡) ∶= 𝑢(𝑋(𝑡)) 问题:支配𝑌随时间演化的运动规律是什么?或者,换句话说,𝑑𝑌(𝑡)是什么? 需要注意的是,如下想当然的计算是错误的! 𝑑𝑌 (𝑡) = 𝑑(𝑢(𝑋(𝑡)) = 𝑢′(𝑋(𝑡))𝑑𝑋(𝑡) = 𝑢′(𝑋(𝑡))(𝐴(𝑡)𝑑𝑡 + 𝐵(𝑡)𝑑𝑊(𝑡))

伊藤链式法则把u展开成泰勒级数,于是dY (t) = d (u(x(t)) = u(x(t)dx(t) + ≥u"(x(t)dx(t)2 + 含u"(x(t)dx(t)3 +..= u(x(t)[A(t)dt + B(t)dw(t)] + =u"(x(t)[A(t)dt + B(t)dw(t)2 + ...利用直观准则"dW=(dt)1/2"[A(t)dt +B(t)dW(t))2=A(t)?dt?+2A(t)B(t)dtdW(t)+B2(t)dW(t)2=B?(t)dt + o(dt)忽略高次o(dt)项,我们推导出一维伊藤链式法则如下:dy (t)= d (u(x(t) =[u(X(t)A(t)+u"(x(t)B2(t)]dt + B(t)dw(t)(8)这表明,对Vt>0,有u(X(t) =Y(t) =Y(0)+ [ Ju(X(s)A(s) +u"(X(s)B2(s) ds + J B(s)dw(s)
伊藤链式法则 把𝑢展开成泰勒级数,于是 𝑑𝑌 𝑡 = 𝑑 𝑢 𝑋 𝑡 = 𝑢 ᇱ 𝑋 𝑡 𝑑𝑋 𝑡 + 1 2 𝑢 ᇱᇱ 𝑋 𝑡 𝑑𝑋 𝑡 ଶ + 1 6 𝑢 ᇱᇱᇱ 𝑋 𝑡 𝑑𝑋 𝑡 ଷ + ⋯ = 𝑢′ 𝑋 𝑡 𝐴 𝑡 𝑑𝑡 + 𝐵 𝑡 𝑑𝑊 𝑡 + 1 2 𝑢 ᇱᇱ 𝑋 𝑡 𝐴 𝑡 𝑑𝑡 + 𝐵 𝑡 𝑑𝑊 𝑡 ଶ + ⋯ 利用直观准则“𝑑𝑊 = 𝑑𝑡 ଵ/ଶ ”: 𝐴 𝑡 𝑑𝑡 + 𝐵 𝑡 𝑑𝑊 𝑡 ଶ = 𝐴 𝑡 ଶ𝑑𝑡ଶ + 2𝐴(𝑡)𝐵(𝑡)𝑑𝑡𝑑𝑊(𝑡) + 𝐵 ଶ 𝑡 𝑑𝑊 𝑡 ଶ = 𝐵 ଶ (𝑡)𝑑𝑡 + 𝑜(𝑑𝑡) 忽略高次𝑜(𝑑𝑡)项,我们推导出一维伊藤链式法则如下: 𝑑𝑌 𝑡 = 𝑑 𝑢 𝑋 𝑡 = 𝑢 ᇱ(𝑋(𝑡))𝐴 𝑡 + 1 2 𝑢 ᇱᇱ 𝑋 𝑡 𝐵ଶ 𝑡 𝑑𝑡 + 𝐵 𝑡 𝑑𝑊 𝑡 8 这表明,对∀𝑡 > 0,有 𝑢 𝑋 𝑡 = 𝑌 𝑡 = 𝑌 0 + න 𝑢 ᇱ 𝑋 𝑠 𝐴 𝑠 + 1 2 𝑢 ᇱᇱ 𝑋 𝑠 𝐵ଶ 𝑠 𝑑𝑠 + න 𝐵 𝑠 𝑑𝑊 𝑠 ௧ ௧
按次数下载不扣除下载券;
注册用户24小时内重复下载只扣除一次;
顺序:VIP每日次数-->可用次数-->下载券;
- 《随机系统的滤波与控制》研究生课程教学课件(讲稿)随机最优控制 Stochastic Optimal Control.pdf
- 《随机系统的滤波与控制》研究生课程教学课件(讲稿)最小方差控制.pdf
- 《随机系统的滤波与控制》研究生课程教学课件(讲稿)连续时间系统滤波与平滑算法 CTSKF.pdf
- 《随机系统的滤波与控制》研究生课程教学课件(讲稿)非线性系统滤波算法——容积卡尔曼滤波算法及其改进.pdf
- 《随机系统的滤波与控制》研究生课程教学课件(讲稿)非线性系统滤波算法——估计问题中常见的评价指标.pdf
- 《随机系统的滤波与控制》研究生课程教学课件(讲稿)非线性系统滤波算法——Introduction to Particle Filtering.pdf
- 《随机系统的滤波与控制》研究生课程教学课件(讲稿)非线性系统滤波算法——Unscented Kalman Filter(UKF).pdf
- 《随机系统的滤波与控制》研究生课程教学课件(讲稿)非线性系统滤波算法——Nonlinear Filtering.pdf
- 《随机系统的滤波与控制》研究生课程教学课件(讲稿)次优滤波算法与多模型滤波算法 MMAE.pdf
- 《随机系统的滤波与控制》研究生课程教学课件(讲稿)次优滤波算法与多模型滤波算法 Sub Optimal Filtering.pdf
- 《随机系统的滤波与控制》研究生课程教学课件(讲稿)线性最优平滑算法 Optimal Smoother.pdf
- 《随机系统的滤波与控制》研究生课程教学课件(讲稿)线性最优滤波小结.pdf
- 《随机系统的滤波与控制》研究生课程教学课件(讲稿)卡尔曼滤波器性能分析.pdf
- 《随机系统的滤波与控制》研究生课程教学课件(讲稿)相关噪声与成形滤波器.pdf
- 《随机系统的滤波与控制》研究生课程教学课件(讲稿)线性最优滤波理论.pdf
- 《随机系统的滤波与控制》研究生课程教学课件(讲稿)经典参数估计与融合估计算法 Estimation Summary.pdf
- 《随机系统的滤波与控制》研究生课程教学课件(讲稿)静态参数估计理论.pdf
- 《随机系统的滤波与控制》研究生课程教学课件(PPT讲稿)泛函分析基础知识.pptx
- 《随机系统的滤波与控制》研究生课程教学课件(PPT讲稿)随机过程基础.pptx
- 《随机系统的滤波与控制》研究生课程教学课件(PPT讲稿)概率论.pptx
- 《微波设计与综合测量实验》课程教学资源(讲义)在片测量和VNA校准算法.pdf
- 《微波设计与综合测量实验》课程教学资源(讲义)微波测量基础(1)标准与定标.pdf
- 《微波设计与综合测量实验》课程教学资源(讲义)微波测量基础(3)校准与在片测试.pdf
- 《微波设计与综合测量实验》课程教学资源(讲义)微波测量基础(2)S参数与噪声.pdf
- 浪涌抑制NTC热敏电阻的选用指南:大功率设备浪涌抑制NTC热敏电阻选用.pdf
- 大连理工大学:《信号与系统》课程教学大纲 B.pdf
- 大连理工大学:《信号与系统》课程教学大纲 A.pdf
- 大连理工大学:《信号与系统》课程教学课件(讲稿)第01讲 §1.1 绪言 §1.2 信号.pdf
- 大连理工大学:《信号与系统》课程教学课件(讲稿)第02讲 §1.3 信号的基本运算 §1.4 阶跃函数和冲激函数.pdf
- 大连理工大学:《信号与系统》课程教学课件(讲稿)第03讲 §1.4 阶跃函数和冲激函数 §1.5 系统的描述 §1.6 系统的特性和分析方法.pdf
- 大连理工大学:《信号与系统》课程教学课件(讲稿)第04讲 §1.6 系统的特性和分析方法 §2.1 LTI连续系统的响应.pdf
- 大连理工大学:《信号与系统》课程教学课件(讲稿)第05讲 §2.1 LTI连续系统的响应 §2.2 冲激响应和阶跃响应.pdf
- 大连理工大学:《信号与系统》课程教学课件(讲稿)第06讲 §2.2 冲激响应和阶跃响应 §2.3 卷积积分 §2.4 卷积积分的性质.pdf
- 大连理工大学:《信号与系统》课程教学课件(讲稿)第07讲 §2.3 卷积积分 §2.4 卷积积分的性质.pdf
- 大连理工大学:《信号与系统》课程教学课件(讲稿)第08讲 §4.2 傅里叶级数.pdf
- 大连理工大学:《信号与系统》课程教学课件(讲稿)第09讲 §4.2 傅里叶级数 §4.3 周期信号的频谱.pdf
- 大连理工大学:《信号与系统》课程教学课件(讲稿)第10讲 §4.3 周期信号的频谱 §4.4 非周期信号的频谱.pdf
- 大连理工大学:《信号与系统》课程教学课件(讲稿)第11讲 §4.4 非周期信号的频谱 §4.5 傅里叶变换的性质.pdf
- 大连理工大学:《信号与系统》课程教学课件(讲稿)第12讲 §4.5 傅里叶变换的性质 §4.7 周期信号的傅里叶变换.pdf
- 大连理工大学:《信号与系统》课程教学课件(讲稿)第13讲 §4.8 LTI系统的频域分析 §4.9 取样定理.pdf
