《随机系统的滤波与控制》研究生课程教学课件（讲稿）随机最优控制——连续随机控制补充

点击下载完整版文档（PDF）

文档信息

资源类别：文库
文档格式：PDF
文档页数：17
文件大小：921.88KB
团购合买：点击进入团购

内容简介

《随机系统的滤波与控制》研究生课程教学课件（讲稿）随机最优控制——连续随机控制补充

刷新页面文档预览

最优控制理论补充连续时间系统西安交通大学电子与信息学部蔡远利教授

随机最优控制问题假设f：R"×U一Rn，O表示引起随机波动的“白噪声”项：(x(s) = f(X(s),U(s)) +o(s)(t<s<T) (1)(x(0)=Xo【定义】控制U是[t,T]到U的一个映射，对每一个时间t<s<T，U(s仅依赖于s以及t<t<T区间的X(T)【定义】收益函数r(x(s),U(s)ds + g(x(T))J[U(O;x,t] = E数学期望是关于随机微分方程（1）解的所有样本轨迹上的平均值。r)表示运行过程收益，9)表示终端收益

随机最优控制问题假设𝒇: ℝ௡ × 𝑈 ⟶ ℝ௡，𝝃(⋅)表示引起随机波动的“白噪声”项； ൝𝑿̇ 𝑠 = 𝒇 𝑿 𝑠 , 𝑼(𝑠) + 𝜎𝝃(𝑠) 𝑡 < 𝑠 < 𝑇 𝑿 0 = 𝒙଴ (1) 【定义】控制𝑼(⋅)是[𝑡, 𝑇]到𝑈的一个映射，对每一个时间𝑡 < 𝑠 < 𝑇，𝑼(𝑠)仅依赖于𝑠以及𝑡 < 𝜏 < 𝑇区间的𝑿 𝜏 . 【定义】收益函数 𝐽 𝑼 ⋅ ; 𝑥,𝑡 = 𝐸 න 𝑟 𝑿 𝑠 , 𝑼 𝑠 𝑑𝑠 + 𝑔 𝑿 𝑇 ் ௧ 数学期望是关于随机微分方程（1）解的所有样本轨迹上的平均值。𝑟(⋅,⋅)表示运行过程收益, 𝑔(⋅)表示终端收益

任务与目标找到一个最优控制U*（），使得J[U*(O;x,t] = max/[U(O;x,t]U.【定义】价值函数v(x,t):= supJ[U();x,t]UO求解最优控制U*(）的总体思路1，找到v()满足的Hamilton-Jacobi-Bellman偏微分方程2利用该偏微分方程的解设计设计U*

任务与目标找到一个最优控制𝑼 ∗ (⋅)，使得 𝐽 𝑼 ∗ ⋅ ; 𝑥,𝑡 = max 𝑼 ⋅ 𝐽 𝑼 ⋅ ; 𝑥,𝑡 【定义】价值函数 𝑣 𝑥,𝑡 : = sup 𝑼 ⋅ 𝐽 𝑼 ⋅ ; 𝑥,𝑡 求解最优控制𝑼 ∗ (⋅)的总体思路： 1. 找到𝑣(⋅,⋅)满足的Hamilton-Jacobi-Bellman偏微分方程； 2. 利用该偏微分方程的解设计设计𝑼 ∗

布朗运动【定义】实值随机过程W(t)称为维纳过程或布朗运动，如果① W(0)= 0:2每个样本轨迹是连续的1W(t)是高斯分布的，且μ=0,α2=t(也就是说，W(t)~N(0,t):34对于所有可能的时间0<ti<t2<<tm，随机变量W(ti),W(t2)-W(ti),",W(tm)-W(tm-1)是相互独立的随机变量。上述定义中（4）表明W具有独立增量"。我们可以将一维"白噪声"5()解释为等于aW()然而，这只是形式上的，因为对于几乎所有的の，样本dt轨迹t→W（t，）实际上是不可微的

布朗运动【定义】实值随机过程𝑊(𝑡)称为维纳过程或布朗运动，如果 ① 𝑊 0 = 0; ② 每个样本轨迹是连续的； ③ 𝑊(𝑡)是高斯分布的，且𝜇 = 0, 𝜎 ଶ = 𝑡（也就是说，𝑊 𝑡 ~𝑁(0,𝑡); ④ 对于所有可能的时间0 < 𝑡ଵ < 𝑡ଶ < ⋯ < 𝑡௠，随机变量 𝑊 𝑡ଵ , 𝑊 𝑡ଶ − 𝑊 𝑡ଵ , ⋯ , 𝑊 𝑡௠ − 𝑊(𝑡௠ିଵ) 是相互独立的随机变量。 上述定义中（4）表明𝑊具有“独立增量”。 我们可以将一维“白噪声”𝜉(·)解释为等于ௗௐ(௧) ௗ௧ 。然而，这只是形式上的，因为对于几乎所有的𝜔，样本轨迹𝑡 → 𝑊(𝑡, 𝜔)实际上是不可微的

n维布朗运动【定义】n维布朗运动是指W(t) = (w1(t),w?(t),., Wwn(t)其中Wi(t)是独立的一维布朗运动

n维布朗运动【定义】维布朗运动是指 ଵ ଶ ௡ ் 其中 ௜ 是独立的一维布朗运动

随机微分方程考虑由“白噪声”驱动的随机微分方程(x(t) = f(x(t)) +(t)(t > 0) (2)X(0) = xo这里，我们非正式地认为=W。【定义】如果随机过程X是方程（2）的解（t≥0.我们有X(t) = xo + / f(x(s))ds +ow(t)(3)可以用逐次逼近法求解（3）式。为此，设置X°()三x，归纳定义Xk+1(t):= xo + / f(xk(s)) ds + ow(t)(4)对于所有t≥0.x(t)收敛到极限X(t)且x()是积分恒等式(3）的解

随机微分方程考虑由“白噪声”驱动的随机微分方程： ൝𝑿̇ 𝑡 = 𝒇 𝑿 𝑡 + 𝜎𝝃(𝑡) 𝑡 > 0 𝑿 0 = 𝒙଴ 2 这里，我们非正式地认为𝝃 = 𝑾̇ 。【定义】如果随机过程𝑋(·)是方程（2）的解(𝑡 ≥ 0)，我们有 𝑿 𝑡 = 𝑥଴ + න 𝒇 𝑿 𝑠 𝑑𝑠 ௧଴ + 𝜎𝑾 𝑡 3 可以用逐次逼近法求解（3）式。为此，设置𝑿଴ (·) ≡ 𝑥，归纳定义 𝑿 ௞ାଵ 𝑡 : = 𝑥଴ + න 𝒇 𝑿௞ 𝑠 𝑑𝑠 ௧଴ + 𝜎𝑾 𝑡 4 对于所有𝑡 ≥ 0，𝑿௞(𝑡)收敛到极限𝑿 𝑡 且𝑿 ⋅ 是积分恒等式（3）的解

伊藤随机微分方程考虑更一般的随机微分方程X(t) = f(x(t)) + H(X(t))(t)(t > 0)(5)我们将其正式改写为dx(t)= f(x() + H(X(t) W()(t > 0)(6)dtdt于是有dx(t) =f(x(t)dt + H(x(t)dw(t)(t > 0)(7)这是一个伊藤随机微分方程。我们说X()是一个解，具有初始条件X(O）=xo，如果X(t) = Xo +/ f(x(s)ds + / H(x(s)dw(s)(t ≥ 0)式中JH(X(s))dW(s)称为伊藤积分

伊藤随机微分方程考虑更一般的随机微分方程 𝑿̇ 𝑡 = 𝒇 𝑿 𝑡 + 𝑯 𝑿 𝑡 𝝃 𝑡 𝑡 > 0 5 我们将其正式改写为 𝑑𝑿 𝑡 𝑑𝑡 = 𝒇 𝑿 𝑡 + 𝑯 𝑿 𝑡 𝑑𝑾 𝑡 𝑑𝑡 𝑡 > 0 6 于是有 𝑑𝑿 𝑡 = 𝒇 𝑿 𝑡 𝑑𝑡 + 𝑯 𝑿 𝑡 𝑑𝑾 𝑡 𝑡 > 0 7 这是一个伊藤随机微分方程。我们说𝑿 ⋅ 是一个解，具有初始条件𝑿 0 = 𝑥଴，如果 𝑿 𝑡 = 𝑥଴ + න 𝒇 𝑿 𝑠 𝑑𝑠 ௧ ଴ + න 𝑯 𝑿 𝑠 𝑑𝑾 𝑠 ௧ ଴ 𝑡 ≥ 0 式中∫ 𝑯 𝑿 𝑠 𝑑𝑾 𝑠 ௧ ଴ 称为伊藤积分

非预测(nonanticipating)过程给定布朗运动W，如果对于任意时间段0≤s≤t，随机过程YO具备非预测"性质Y(s)依赖于0≤T≤s区间的W(t）.而不依赖于s≤t区间的W(t）。那么，可以为随机过程Y定义伊如下藤随机积分：Y(s)dw(s)这样的随机过程Y()被称为"非预测（nonanticipating)"过程。这里我们不解释伊藤积分的构造，只给出它的一个容易理解的性质(6)Y(s)dW(s)=00

非预测(nonanticipating)过程给定布朗运动𝑾 ⋅ ，如果对于任意时间段 0 ≤ 𝑠 ≤ 𝑡，随机过程𝒀(⋅)具备“非预测”性质—— “𝒀 𝑠 依赖于 0 ≤ 𝜏 ≤ 𝑠区间的𝑾 𝜏 ，而不依赖于𝑠 ≤ 𝜏区间的𝑾 𝜏 ”。那么，可以为随机过程𝒀(⋅)定义伊如下藤随机积分： න 𝒀 𝑠 𝑑𝑾 𝑠 ௧ ଴ 这样的随机过程𝒀(⋅)被称为“非预测(nonanticipating)”过程。这里我们不解释伊藤积分的构造，只给出它的一个容易理解的性质： 𝐸 න 𝒀 𝑠 𝑑𝑾 𝑠 ௧ ଴ = 0 6

随机微积分一维情况假设n=1，且dx(t)=A(t)dt+B(t)dW(t)(t> 0)(7)X(0) = xo上式意味着L(vt ≥0)X(t)=xo+A(s)ds +B(s)dW(s)0令u:R一R，并定义Y (t):=u(X(t))问题：支配Y随时间演化的运动规律是什么？或者，换句话说，dY(t)是什么？需要注意的是，如下想当然的计算是错误的！dY(t)=d(u(X(t))=u(X(t))dx(t)=u(X(t))(A(t)dt+B(t)dW(t))

随机微积分一维情况假设n=1，且 ቊ𝑑𝑋 𝑡 = 𝐴 𝑡 𝑑𝑡 + 𝐵(𝑡)𝑑𝑊(𝑡) 𝑡 > 0 𝑋 0 = 𝑥଴ 7 上式意味着 𝑋 𝑡 = 𝑥଴ + න 𝐴 𝑠 𝑑𝑠 ௧ ଴ + න 𝐵 𝑠 𝑑𝑊(𝑠) ௧ ଴ (∀𝑡 ≥ 0) 令𝑢: ℝ ⟶ ℝ，并定义 𝑌 (𝑡) ∶= 𝑢(𝑋(𝑡)) 问题：支配𝑌随时间演化的运动规律是什么？或者，换句话说，𝑑𝑌(𝑡)是什么？需要注意的是，如下想当然的计算是错误的！ 𝑑𝑌 (𝑡) = 𝑑(𝑢(𝑋(𝑡)) = 𝑢′(𝑋(𝑡))𝑑𝑋(𝑡) = 𝑢′(𝑋(𝑡))(𝐴(𝑡)𝑑𝑡 + 𝐵(𝑡)𝑑𝑊(𝑡))

伊藤链式法则把u展开成泰勒级数，于是dY (t) = d (u(x(t)) = u(x(t)dx(t) + ≥u"(x(t)dx(t)2 + 含u"(x(t)dx(t)3 +..= u(x(t)[A(t)dt + B(t)dw(t)] + =u"(x(t)[A(t)dt + B(t)dw(t)2 + ...利用直观准则"dW=（dt)1/2"[A(t)dt +B(t)dW(t))2=A(t)?dt?+2A(t)B(t)dtdW(t)+B2(t)dW(t)2=B?(t)dt + o(dt)忽略高次o(dt）项，我们推导出一维伊藤链式法则如下：dy (t)= d (u(x(t) =[u(X(t)A(t)+u"(x(t)B2(t)]dt + B(t)dw(t)(8)这表明，对Vt>0，有u(X(t) =Y(t) =Y(0)+ [ Ju(X(s)A(s) +u"(X(s)B2(s) ds + J B(s)dw(s)

伊藤链式法则把𝑢展开成泰勒级数，于是 𝑑𝑌 𝑡 = 𝑑 𝑢 𝑋 𝑡 = 𝑢 ᇱ 𝑋 𝑡 𝑑𝑋 𝑡 + 1 2 𝑢 ᇱᇱ 𝑋 𝑡 𝑑𝑋 𝑡 ଶ + 1 6 𝑢 ᇱᇱᇱ 𝑋 𝑡 𝑑𝑋 𝑡 ଷ + ⋯ = 𝑢′ 𝑋 𝑡 𝐴 𝑡 𝑑𝑡 + 𝐵 𝑡 𝑑𝑊 𝑡 + 1 2 𝑢 ᇱᇱ 𝑋 𝑡 𝐴 𝑡 𝑑𝑡 + 𝐵 𝑡 𝑑𝑊 𝑡 ଶ + ⋯ 利用直观准则“𝑑𝑊 = 𝑑𝑡 ଵ/ଶ ”： 𝐴 𝑡 𝑑𝑡 + 𝐵 𝑡 𝑑𝑊 𝑡 ଶ = 𝐴 𝑡 ଶ𝑑𝑡ଶ + 2𝐴(𝑡)𝐵(𝑡)𝑑𝑡𝑑𝑊(𝑡) + 𝐵 ଶ 𝑡 𝑑𝑊 𝑡 ଶ = 𝐵 ଶ (𝑡)𝑑𝑡 + 𝑜(𝑑𝑡) 忽略高次𝑜(𝑑𝑡)项，我们推导出一维伊藤链式法则如下： 𝑑𝑌 𝑡 = 𝑑 𝑢 𝑋 𝑡 = 𝑢 ᇱ(𝑋(𝑡))𝐴 𝑡 + 1 2 𝑢 ᇱᇱ 𝑋 𝑡 𝐵ଶ 𝑡 𝑑𝑡 + 𝐵 𝑡 𝑑𝑊 𝑡 8 这表明，对∀𝑡 > 0，有 𝑢 𝑋 𝑡 = 𝑌 𝑡 = 𝑌 0 + න 𝑢 ᇱ 𝑋 𝑠 𝐴 𝑠 + 1 2 𝑢 ᇱᇱ 𝑋 𝑠 𝐵ଶ 𝑠 𝑑𝑠 + න 𝐵 𝑠 𝑑𝑊 𝑠 ௧ ଴ ௧ ଴

共17页，试读已结束，阅读完整版请下载

刷新页面下载完整文档

VIP每日下载上限内不扣除下载券和下载次数；
按次数下载不扣除下载券；
注册用户24小时内重复下载只扣除一次；
顺序：VIP每日次数-->可用次数-->下载券；

点击下载完整版文档（PDF）