《机器学习》演示文稿(15)

A(high)=search, wait A(low)=search, wait, recharge 1,R wait 1-,-3 search β,R wait 1.0 recharge high search ●wait 1. Rait R search 1-α, R search

Agent State Reward Action Environment S Goal: Learn to choose actions that maximize o+yr,+y-n2+…, where 0≤y<1

Markov Decision processes Assume ● finite set of states s ● set of actions4 at each discrete time agent observes state st E S and chooses action at EA o then receives immediate reward rt and state changes to St+1 Markov assumption: St+1= d(St, at)and t =r(St,at i.e., rt and st+1 depend only on current state and action functions d and r may be nondeterministic - functions o and r not necessarily known to agent

Value function To begin, consider deterministic worlds For each possible policy the agent might adopt we can define an evaluation function over states V(s)=r+7r+1+y2r+2+ r Tt+i where rt, rt+1,.. are generated by following policy T starting at state s Restated, the task is to learn the optimal policy T 丌*≡ argmax v(s),(Vs)

What to learn We might try to have agent learn the evaluation function Vm(which we write as V*) It could then do a lookahead search to choose best action from any state s because T"(s)=argmax[r( s, a)+?V*(8(s, a problem · This works well if agent knows6:S×A→S, andr:S×A4→犹 . But when it doesnt it cant choose actions this way

Q Function Define new function very similar to V Q(s,a)=r(s,a)+yV(8(s, a If agent learns Q, it can choose optimal action even without knowing 8! T(s)=argmax[r(s,a)+yV(8(s, a)) 丌*(s)= argmax Q(s,a) Q is the evaluation function the agent will learn

Training Rule to Learn Q Note Q and v closely related: V(s)=max Q(s, a) Which allows us to write Q recursively as Q(St, at)=r(St, at)+V(S(st, at)) r(St, at)+y max Q(st+1, a') Nice! Let Q denote learners current approximation to Q. Consider training rule Q(s,a)←r+maxQ(s,a’) where s is the state resulting from applying action a in state s

Q Learning for Deterministic Worlds For each s, a initialize table entry Q(s, a)<0 Observe current state s Do forever Select an action a and execute it Receive immediate reward r Observe the new state s Update the table entry for Q(s, a)as follows Q(s,a)←r+ r max q(s,a) ●s←S

Updating Q 100 10 R R 81 81 righr initial state: S, next state: s Q(s1, aright)< r+y max Q(s2, a) 0+0.9max{63,81,100} 90 notice if rewards non-negative, then (√s,a,m)qn+1(s,a)≥qn(s,a) an Qn(s,a)≤Q(s,a)

1 r(s, a)(immediate reward) values. 100 90 100 81 81 9 0 10o Q(s, a) values V*(s values One optimal policy
按次数下载不扣除下载券;
注册用户24小时内重复下载只扣除一次;
顺序:VIP每日次数-->可用次数-->下载券;
- 《机器学习》教材.ppt
- 《机器学习》推导.ppt
- 《机器学习》学习规则.ppt
- 《机器学习》case-based.ppt
- 中国水利水电出版社:《动画专业导论》教材电子教案(PPT教学课件)第六章 制作变形动画效果.ppt
- 中国水利水电出版社:《动画专业导论》教材电子教案(PPT教学课件)第五章 制作文字动画效果.ppt
- 中国水利水电出版社:《动画专业导论》教材电子教案(PPT教学课件)第四章 制作简单的逐帧动画.ppt
- 中国水利水电出版社:《动画专业导论》教材电子教案(PPT教学课件)第八章 制作三维动画效果.ppt
- 中国水利水电出版社:《动画专业导论》教材电子教案(PPT教学课件)第七章 制作三维人物动画效果.ppt
- 中国水利水电出版社:《动画专业导论》教材电子教案(PPT教学课件)第三章 制作简单的位移型动画.ppt
- 中国水利水电出版社:《动画专业导论》教材电子教案(PPT教学课件)第二章 动画的制作流程.ppt
- 中国水利水电出版社:《动画专业导论》教材电子教案(PPT教学课件)第一章 动画的基础知识.ppt
- 《中文AutoCAD 2006基础培训教程》第18课 全面应用AutoCAD绘图.ppt
- 《中文AutoCAD 2006基础培训教程》第17课 将AutoCAD图形输出到图纸.ppt
- 《中文AutoCAD 2006基础培训教程》第16课 绘制和编辑三维实体.ppt
- 《中文AutoCAD 2006基础培训教程》第15课 初识三维绘图.ppt
- 《中文AutoCAD 2006基础培训教程》第14课 为对象创建尺寸标注.ppt
- 《中文AutoCAD 2006基础培训教程》第13课 为对象创建文本标注.ppt
- 《中文AutoCAD 2006基础培训教程》第12课 快速绘制特殊图形.ppt
- 《中文AutoCAD 2006基础培训教程》第11课 快速编辑图形对象.ppt
- 《机器学习》第二章 示例学习(1/2).ppt
- 《机器学习》第二章 示例学习(2/2).ppt
- 《机器学习》第三章 学习的计算理论.ppt
- 《机器学习》(英文版)Table 1. The explanation-based generalization problem Given.ppt
- 《机器学习》(英文版)Table 1. The explanation-based generalization problem Given.ppt
- 《机器学习》(英文版)Given:E-a set of data events k-the number of clusters.ppt
- 《机器学习》第一章 关于机器学习的一般论题.ppt
- 《机器学习》(英文版)Choose initial “seed” events from.ppt
- 《机器学习》第三章 规则学习算法.ppt
- 《机器学习》Star生成:Induce方法.ppt
- 《机器学习》扩张矩阵算法.ppt
- 《机器学习》第三章 概念学习和一般到特殊序.ppt
- 《机器学习》第三章 概念学习和一般到特殊序.ppt
- 《机器学习》怎样使用不完全学习概念.ppt
- 《机器学习》第四章 示例学习的实用化.ppt
- 《机器学习》Overfitting(过适合).ppt
- 《机器学习》(英文版)ExampleⅤ ersion Space.ppt
- 《机器学习》第三章 规则学习算法.ppt
- 《机器学习》第三章 规则学习算法.ppt
- 《机器学习》扩张矩阵算法.ppt