电子科技大学:《统计学习理论及应用 Statistical Learning Theory and Applications》课程教学资源(课件讲稿)第三讲 回归模型

统计学习理论及应用 第三讲回归模型 编写:文泉、陈娟 电子科技大学计算机科学与工程学院
统计学习理论及应用 第三讲 回归模型 编写:文泉、陈娟 电子科技大学 计算机科学与工程学院

目录 ①一个例子 ②最小二乘法 ③从线性到非线性:用线性模型 ④概率解释 。最大似然估计 。最大后验概率估计 。正则化效果 ⑤偏置-方差困境 。损失函数的第一步分解 。损失函数的第二步分解 。对多个数据集的简单总结 1/51
目录 1 一个例子 2 最小二乘法 3 从线性到非线性:用线性模型 4 概率解释 最大似然估计 最大后验概率估计 正则化效果 5 偏置-方差困境 损失函数的第一步分解 损失函数的第二步分解 对多个数据集的简单总结 1 / 51

知识点: ·回归分析的基本理论概念、性质、计算 ·最小二乘法的推导和计算 。回归分析的概率解释 。非线性函数的回归分析 ·回归分析的偏置-方差困境 重点与难点: ·重点:回归分析推导和计算 。难点:回归分析概率解释 2/51
知识点: 回归分析的基本理论概念、性质、计算 最小二乘法的推导和计算 回归分析的概率解释 非线性函数的回归分析 回归分析的偏置-方差困境 重点与难点: 重点:回归分析推导和计算 难点:回归分析概率解释 2 / 51

3.1.一个例子 。考察房价走势,有如下数据: 年份 平方米价格(万) 1999 70 6 2000 60 6 2001 120 20 2002 125 26 ·通常希望通过这些数据,预测未来房价走势。 3/51
3.1. 一个例子 考察房价走势,有如下数据: 年份 平方米 价格 (万) 1999 70 6 2000 60 6 2001 120 20 2002 125 26 . . . . . . . . . 通常希望通过这些数据,预测未来房价走势。 3 / 51

假定x=[x1,x2,·,x,各个分量代表各个特征输入, 构成一个回归量;d对应于x的一个输出。它们的依赖关 系可以由如下一个线性回归模型表达。 M d=∑wx+e i=1 公式中w1,w2,·,wM定义的是一组固定但未知的参数, ε表示模型的期望误差,“固定的”表示我们假定环境是稳 定的,静态的(stationary),写为向量矩阵形式: d=wx+8 4/51
▶ 假定 x = [x1, x2, · · · , xM] T ,各个分量代表各个特征输入, 构成一个回归量; d 对应于 x 的一个输出。它们的依赖关 系可以由如下一个线性回归模型表达。 d = X M i=1 wixi + ε 公式中 w1,w2, · · · ,wM 定义的是一组固定但未知的参数, ε 表示模型的期望误差,“固定的”表示我们假定环境是稳 定的,静态的 (stationary) ,写为向量矩阵形式: d = w T x + ε 4 / 51

3.2.最小二乘法 假定有训练集2={(x2,d),(x2,),…,(x,d)},定义 如下cost function(代价或能量函数): h(m)=2∑)=专∑d-wx 通过梯度下降算法,我们可以得到w w+1=W-六h(w) )称为step size,.机器学习中叫做学习速率。 5/51
3.2. 最小二乘法 ▶ 假定有训练集 Ω = {(x 1 , d 1 ),(x 2 , d 2 ), · · · ,(x N , d N )}, 定义 如下 cost function(代价或能量函数): JΩ(w) = 1 2 X N i=1 ε 2 i (w) = 1 2 X N i=1 (d i − w T x i ) 2 ▶ 通过梯度下降算法,我们可以得到 w : wt+1 = wt − η ∂ ∂w JΩ(wt) η 称为step size,机器学习中叫做学习速率。 5 / 51

·梯度下降算法,基于这样的观察: 如果实值函数F(x)在点a处可微并且有定义,那么函 数F(x)在点a沿着梯度相反的方向-又F(x)下降最快 对2仅一个样本有: 是am)=×{品w-d}×2xw-0 =x(wx-d) =(wx-d)x scalar 采用了denominator layout/Hessian formulation求导 6/51
▶ 梯度下降算法,基于这样的观察: 如果实值函数 F (x) 在点 a 处可微并且有定义,那么函 数 F (x) 在点 a 沿着梯度相反的方向 − ▽F (x) 下降最快 ▶ 对 Ω 仅一个样本有: ∂ ∂w JΩ(w) = 1 2 × ∂ ∂w (w T x − d) × 2 × (w T x − d) = x(w T x − d) = (w T x − d) | {z } scalar x 采用了denominator layout/Hessian formulation求导 6 / 51

·因此计算参数w的算法是 W+1=W:+n(d-w.x)x 这个算法也称为Widrow-Hoff学习规则,这只针对仅有 一个样本的情况。 ·对N个样本情形,可改造算法如下: w+1=w+n∑d-wx)x =1 注意到算法每次迭代都是把整个训练集用来更新参数,这 种形式称为batch gradient descent(BGD)批量梯度下降。 7/51
▶ 因此计算参数 w 的算法是 wt+1 = wt + η(d − w T t x)x 这个算法也称为 Widrow-Hoff 学习规则,这只针对 Ω 仅有 一个样本的情况。 ▶ 对N 个样本情形,可改造算法如下: wt+1 = wt + η X N i=1 (d i − w T t x i )x i 注意到算法每次迭代都是把整个训练集用来更新参数,这 种形式称为 batch gradient descent(BGD) 批量梯度下降。 7 / 51

梯度下降的原理 Minimize the cost function C(x1,x2),and following Calculus,C changes as follows: Ax+0x2 △C≈0x x2 Define△r=(r,△x2)',VC=(S,)',and get:: △C≈VC·△x To make△C negative,set△xr=-nVC,and get: △C≈-nVC.7C=-ll7C2≤0 Then fromx+1-x,=Ax =-nVC,get: X1+1=xI-nVC Gradient is fastest descent direction only,as △C≈7C·△x=C△cos(0)≤=0,π/2≤9≤π3/2 8/51
梯度下降的原理 ▶ Minimize the cost function C(x1, x2),and following Calculus, C changes as follows: ∆C ≈ ∂C ∂x1 ∆x1 + ∂C ∂x2 ∆x2 ▶ Define ∆x = (∆x1, ∆x2) T , ∇C = ( ∂C ∂x1 , ∂C ∂x2 ) T , and get: ∆C ≈ ∇C · ∆x ▶To make ∆C negative, set ∆x = −η∇C, and get: ∆C ≈ −η∇C · ∇C = −η∥∇C∥ 2 ≤ 0 ▶Then from xt+1 − xt = ∆x = −η∇C, get: xt+1 = xt − η∇C ▶ Gradient is fastest descent direction only, as ∆C ≈ ∇C · ∆x = ∥∇C∥∥∆x∥ cos(θ) ≤= 0, π/2 ≤ θ ≤ π3/2 8 / 51

随机梯度下降算法 for i =1 to N W+1=W+n(d-wix')x 这种方法称为随机梯度下降算法(stochastic gradient desent(SGD)). 在比较大的训练集的情况下,BGD算法计算量大。 虽然SGD算法在最小值的周边震荡,但可以较快收敛,可 仍然选择该算法。 9/51
随机梯度下降算法 for i = 1 to N { wt+1 = wt + η(d i − w T t x i )x i } 这种方法称为随机梯度下降算法(stochastic gradient desent(SGD))。 在比较大的训练集的情况下,BGD 算法计算量大。 虽然 SGD 算法在最小值的周边震荡,但可以较快收敛,可 仍然选择该算法。 9 / 51
按次数下载不扣除下载券;
注册用户24小时内重复下载只扣除一次;
顺序:VIP每日次数-->可用次数-->下载券;
- 电子科技大学:《统计学习理论及应用 Statistical Learning Theory and Applications》课程教学资源(课件讲稿)第二讲 概率与线性代数回顾.pdf
- 电子科技大学:《统计学习理论及应用 Statistical Learning Theory and Applications》课程教学资源(课件讲稿)第一讲 概述(文泉、陈娟).pdf
- 电子科技大学:《统计学习理论及应用 Statistical Learning Theory and Applications》课程教学资源(课件讲稿,英文版)Lecture 10 Unsupervised Learning.pdf
- 电子科技大学:《统计学习理论及应用 Statistical Learning Theory and Applications》课程教学资源(课件讲稿,英文版)Lecture 09 Data Representation — Non-Parametric Model.pdf
- 电子科技大学:《统计学习理论及应用 Statistical Learning Theory and Applications》课程教学资源(课件讲稿,英文版)Lecture 08 Data Representation - Parametric Model.pdf
- 电子科技大学:《统计学习理论及应用 Statistical Learning Theory and Applications》课程教学资源(课件讲稿,英文版)Lecture 07 Non-Linear Classification Model - Ensemble Methods.pdf
- 电子科技大学:《统计学习理论及应用 Statistical Learning Theory and Applications》课程教学资源(课件讲稿,英文版)Lecture 06 Multilayer Perceptron.pdf
- 电子科技大学:《统计学习理论及应用 Statistical Learning Theory and Applications》课程教学资源(课件讲稿,英文版)Lecture 05 Support Vector Machine.pdf
- 电子科技大学:《统计学习理论及应用 Statistical Learning Theory and Applications》课程教学资源(课件讲稿,英文版)Lecture 04 Perceptron.pdf
- 电子科技大学:《统计学习理论及应用 Statistical Learning Theory and Applications》课程教学资源(课件讲稿,英文版)Lecture 03 Regression Models.pdf
- 电子科技大学:《统计学习理论及应用 Statistical Learning Theory and Applications》课程教学资源(课件讲稿,英文版)Lecture 02 Review of Linear Algebra and Probability Theory.pdf
- 电子科技大学:《统计学习理论及应用 Statistical Learning Theory and Applications》课程教学资源(课件讲稿,英文版)Lecture 01 Introduction.pdf
- 安顺学院:《经济统计学》专业新增学士学位授予权评审汇报PPT(吴永武).ppt
- 对外经济贸易大学:《应用统计 Applied Statistics》课程教学资源(教案讲稿).pdf
- 对外经济贸易大学:《应用统计 Applied Statistics》课程教学资源(教学大纲).pdf
- 上海交通大学:《统计原理 Principal of statistics》课程教学资源_大脑衰老与吃兴奋功能食品关系研究(调查问卷).doc
- 上海交通大学:《统计原理 Principal of statistics》课程教学资源_课后作业答案.doc
- 上海交通大学:《统计原理 Principal of statistics》课程教学资源_课后习题解答.doc
- 《统计原理 Principal of statistics》课程教学资源(统计软件教程)北京大学《统计软件SAS教程》(李东风).pdf
- 《统计原理 Principal of statistics》课程教学资源(统计软件教程)数据分析与EVIEWS应用(易丹辉).pdf
- 电子科技大学:《统计学习理论及应用 Statistical Learning Theory and Applications》课程教学资源(课件讲稿)第四讲 感知机.pdf
- 电子科技大学:《统计学习理论及应用 Statistical Learning Theory and Applications》课程教学资源(课件讲稿)第五讲 支持向量机.pdf
- 电子科技大学:《统计学习理论及应用 Statistical Learning Theory and Applications》课程教学资源(课件讲稿)第六讲 非线性分类模型——多层感知机.pdf
- 电子科技大学:《统计学习理论及应用 Statistical Learning Theory and Applications》课程教学资源(课件讲稿)第七讲 非线性分类模型——集成方法.pdf
- 电子科技大学:《统计学习理论及应用 Statistical Learning Theory and Applications》课程教学资源(课件讲稿)第八讲 数据表示——含参模型.pdf
- 电子科技大学:《统计学习理论及应用 Statistical Learning Theory and Applications》课程教学资源(课件讲稿)第九讲 数据表示——不含参模型.pdf
- 电子科技大学:《统计学习理论及应用 Statistical Learning Theory and Applications》课程教学资源(课件讲稿)第十讲 非监督学习.pdf
- 中国人民大学:《应用随机过程 Applied Stochastic Processes》课程教学资源(课件讲稿)第10章 随机过程在保险精算中的应用.pdf
- 中国人民大学:《应用随机过程 Applied Stochastic Processes》课程教学资源(课件讲稿)第11章 Markov链Monte Carlo方法.pdf
- 中国人民大学:《应用随机过程 Applied Stochastic Processes》课程教学资源(课件讲稿)第1章 预备知识(张波、商豪、邓军).pdf
- 中国人民大学:《应用随机过程 Applied Stochastic Processes》课程教学资源(课件讲稿)第2章 随机过程的基本概念和类型.pdf
- 中国人民大学:《应用随机过程 Applied Stochastic Processes》课程教学资源(课件讲稿)第3章 Poisson过程.pdf
- 中国人民大学:《应用随机过程 Applied Stochastic Processes》课程教学资源(课件讲稿)第4章 更新过程.pdf
- 中国人民大学:《应用随机过程 Applied Stochastic Processes》课程教学资源(课件讲稿)第5章 Markov链.pdf
- 中国人民大学:《应用随机过程 Applied Stochastic Processes》课程教学资源(课件讲稿)第6章 鞅.pdf
- 中国人民大学:《应用随机过程 Applied Stochastic Processes》课程教学资源(课件讲稿)第7章 Brown运动.pdf
- 中国人民大学:《应用随机过程 Applied Stochastic Processes》课程教学资源(课件讲稿)第8章 随机积分.pdf
- 中国人民大学:《应用随机过程 Applied Stochastic Processes》课程教学资源(课件讲稿)第9章 随机过程在金融中的应用.pdf
- 贵州医科大学:《医学统计学 Medical Statistics》课程教学资源(教学大纲,打印版).pdf
- 贵州医科大学:《医学统计学 Medical Statistics》课程教学资源(习题,打印版).pdf