机器学习(四):批量梯度下降法(BGD)、随机梯度下降法(SGD)和小批量梯度下降法(MBGD)_批量梯度下降要对batch的损失求均值-程序员宅基地

技术标签: 机器学习  梯度下降  

本文基于吴恩达老师的机器学习课程。看了吴恩达老师的机器学习课程,收获很多,想把课上学做的笔记结合自己的理解以及找到的一些资料综合起来做一个总结。大家感兴趣也可以自己去看一看吴恩达老师的课,这套课程,被公认为最好的机器学习的入门教程,下面是课程视频链接:

斯坦福大学公开课 :机器学习课程

上一篇博客机器学习(三):线性回归:梯度下降算法讲了用最小二乘法求得损失函数,再用梯度下降算法最小化损失函数,使得和原数据拟合。这篇博客接着讲梯度下降的三种方式。


梯度下降算法需要对损失函数求梯度,也就是求导,上篇博客中我们求得损失函数为:

J(\Theta )=\frac{1}{2}\sum_{i=1}^{m}(H_{\Theta }(X^{(i)})-Y^{(i)})^{2}

\Theta_{i}的更新表达式为:

\Theta_{i} :=\Theta_{i}-\alpha (H_{\Theta }(X)-Y)*X_{i}

一、批量梯度下降(Batch Gradient Descent)

批量梯度下降法是最原始的形式,它的具体思路是在更新每一参数时都使用所有的样本来进行梯度的更新。我们把上篇博客得到的表达式递推到具有m个训练样本,然后对损失函数求导得到(这里j表示特征数,求导步骤就不写了,很容易可以求出来):

\frac{\partial J(\Theta_{0},\Theta _{1} )}{\partial \Theta _{j}}=\frac{1}{m}\sum_{i=1}^{m}(H_{\Theta }(X^{(i)})-Y^{(i)})X^{(i)}_{j}

相应的\Theta_{i}的更新表达式为:

\Theta _{j}=\Theta_{i}-\alpha \frac{1}{m}\sum_{i=1}^{m}(H_{\Theta }(X^{(i)})-Y^{(i)})X^{(i)}_{j}

我们要不断重复这一步直到算法收敛,也就是对\Theta_{j}参数不断更新,直到梯度为0。但是,我们的每次迭代更新,都要对所有的m个样本数据进行求和。

那么我们如何检测\Theta是否已经收敛了呢?一种是检验两次迭代,如果两次迭代中,\Theta是否改变了很多,如果在两次迭代中没怎么改变,我们或许就可以说算法有可能收敛了。另一种,更常用的方法是,检验\Theta的值,如果你试图最小化的量不再发生很大的改变时,你也许就可以认为它收敛了。

优点:
  (1)一次迭代是对所有样本进行计算,此时利用矩阵进行运算实现了并行
  (2)由全数据集确定的方向能够更好地代表样本总体,从而更准确地朝向极值所在的方向。当目标函数为凸函数时,批量梯度下降一定能够得到全局最优解

缺点:
  (1)有时我们会遇到样本数目 m 很大的训练集合,如果有几十上百万,甚至上亿的训练样本。这意味着我们每执行一次批梯度下降算法,都要对m个样本进行求和。我们的程序也就需要检测这上百万的样本,甚至我们完成值下降的第一步都十分困难。这样会导致,训练过程很慢花费很长的时间

那么,当我们遇到这样非常大的数据集的时候怎么办呢?我们应该使用另一种梯度下降算法——随机梯度算法。


二、随机梯度下降(Stochastic Gradient Descent)

有时也称为增量梯度下降(incremental gradient descent),它的具体思路是:算法中对\Theta的每次更新不需要再全部遍历一次整个样本,只需要查看一个训练样本进行更新,之后再用下一个样本进行下一次更新,像批梯度下降一样不断迭代更新。这样,如果样本量很大的情况(例如几十万),那么可能只用其中几万条或者几千条的样本,就可以迭代完了。如果我们一定需要一个大规模的训练集,我们可以尝试使用随机梯度下降法来代替批量梯度下降法。

随机梯度下降算法调整参数的速度会快很多,在批梯度下降法还没有完成一次迭代的时候,随机梯度下降法便已经走了好远了。但是随机梯度下降存在一定的问题,噪音比批梯度下降要多,使得它并不是每次迭代都向着整体最优化方向迈出的,因此算法虽然会逐渐走向全局最小值的位置,但是可能无法站到那个最小值得那一点,而是在最小值的附近徘徊。

注意点:随机梯度下降法的外层我们一般认为1-10都是合理的,当然如果m非常的大,即是内层循环非常的大,那么我们外层这时候可以设置为1为合理的。

优点:
  (1)由于不是在全部训练数据上的损失函数,而是在每轮迭代中,随机优化某一条训练数据上的损失函数,这样每一轮参数的更新速度大大加快

缺点:
  (1)准确度下降。由于即使在目标函数为强凸函数的情况下,SGD仍旧无法做到线性收敛。
  (2)可能会收敛到局部最优,由于单个样本并不能代表全体样本的趋势。
  (3)不易于并行实现

从迭代的次数上来看,随机梯度下降算法迭代的次数较多,在解空间的搜索过程看起来很盲目。


三、小批量梯度下降(Mini-Batch Gradient Descent)

小批量梯度下降,是对批量梯度下降以及随机梯度下降的一个折中办法。其具体思路是:每次迭代使用 ** batch_size** 个样本来对参数进行更新。它克服上面两种方法的缺点,又同时兼顾两种方法的优点。

优点:
  (1)通过矩阵运算,每次在一个batch上优化神经网络参数并不会比单个数据慢太多。
  (2)每次使用一个batch可以大大减小收敛所需要的迭代次数,同时可以使收敛到的结果更加接近梯度下降的效果。(比如上例中的30W,设置batch_size=100时,需要迭代3000次,远小于随机梯度下降的30W次)
  (3)可实现并行化。

缺点:
  (1)batch_size的不当选择可能会带来一些问题。

小批量的梯度下降可以利用矩阵和向量计算进行加速,还可以减少参数更新的方差,得到更稳定的收敛。在小批梯度下降中,学习速率一般设置的比较大,也就是\Theta_{i}的更新表达式中的\alpha。随着训练不断进行,可以动态的减小学习速率,这样可以保证一开始算法收敛速度较快。实际中如果目标函数平面是局部凹面,传统的随机梯度下降往往会在此震荡,因为一个负梯度会使其指向一个陡峭的方向,目标函数的局部最优值附近会出现这种情况,导致收敛很慢,这时候需要给梯度一个动量(momentum),使其能够跳出局部最小值,继续沿着梯度下降的方向优化,使得模型更容易收敛到全局最优值

batcha_size的选择带来的影响:
  (1)在合理地范围内,增大batch_size的好处:
    a. 内存利用率提高了,大矩阵乘法的并行化效率提高。
    b. 跑完一次 epoch(全数据集)所需的迭代次数减少,对于相同数据量的处理速度进一步加快。
    c. 在一定范围内,一般来说 Batch_Size 越大,其确定的下降方向越准,引起训练震荡越小。
  (2)盲目增大batch_size的坏处:
    a. 内存利用率提高了,但是内存容量可能撑不住了。
    b. 跑完一次 epoch(全数据集)所需的迭代次数减少,要想达到相同的精度,其所花费的时间大大增加了,从而对参数的修正也就显得更加缓慢。
    c. Batch_Size 增大到一定程度,其确定的下降方向已经基本不再变化。
 下图显示了三种梯度下降算法的收敛过程:


四、梯度下降算法的调优方法(目的:加快收敛速度)

对比我们上面列出来的三种算法的优缺点,做个总结:如果样本量比较小,采用批量梯度下降算法。如果样本太大,或者在线算法,使用随机梯度下降算法。在实际的一般情况下,采用小批量梯度下降算法。

当选择好了使用BGD、SGD、MBGD其中一个梯度下降方式后,对下降梯度算法需要进行调优,那么应该从哪些方面进行调优?

4.1 学习速率(Learning Rate)\alpha调优

\Theta迭代结算公式中,其中的偏导数的系数\alpha是学习速率(Learning Rate),且\alpha>0。

1)固定的\alpha\alpha太大的话,导致迭代次数变少(因为\Theta增量变大),学习速率变快,训练快。但是\alpha不是越大越好,如果\alpha太大的话,会导致梯度下降算法在图形的上坡和下坡上面来回震荡计算,严重的结果可能无法收敛;

2)固定的\alpha\alpha太小的话,导致迭代次数变多(因为\Theta增量变小),学习速率变慢,训练慢。但是\alpha不是越小越好,如果\alpha太小的话,会导致梯度下降算法在图形迭代到最优点处整个过程需要训练很长时间,导致训练太慢,虽然可以取得最优\Theta

3)变化的\alpha,当梯度大的时候,学习速率变大,梯度小的时候,学习速率变小。则学习速率和梯度是一个正相关,可以提高下降算法的收敛速度。\alpha和梯度的正相关有一个比例系数,称为Fixed Learning Rate。Fixed Learning Rate一般取0.1或者0.1附件的值,可能不是最好但是一定不会太差

4.2选取最优的初始值\Theta

首先,初始值\Theta不同,获得的代价函数的最小值也可能不同,因为每一步梯度下降求得的只是当前局部最小而已。所以需要多次进行梯度下降算法训练,每次初始值θ都不同,然后选取代价函数取得的最小值最小的那组初始值\Theta

4.3特征数据归一化处理

样本不相同,特征值的取值范围也一定不同。特征值的取值范围可能会导致迭代很慢。所以就要采取措施减少特征值取值范围对迭代的影响,这个措施就是对特征数据归一化。

数据归一化方法有:1)线性归一化,2)均值归一化。一般图像处理时使用线性归一化方法,比如将灰度图像的灰度数据由[0,255]范围归一化到[0,1]范围。如果原始数据集的分布近似为正态分布(也叫高斯分布),那么可以使用均值归一化对数据集进行归一化,归一化为:均值为0,方差为1的数据集。这里面采用均值归一化,均值归一化的公式如下所示:

Z=\frac{X-\mu }{\sigma }

其中\mu是原始数据集的均值,\sigma是原始数据的标准差,求出来的归一化数据的特点是:均值为0,方差为1的数据集。

经过特征数据归一化后,梯度下降算法会在期望值为0,标准差为1的归一化特征数据上进行迭代计算\Theta,这样迭代次数会大大加快


五、不使用迭代算法对最小值的快速推导

上面我们都是在使用梯度下降算法通过迭代来最小化求\Theta的值,如果不使用梯度下降有没有别的方法呢?当然有,有一种被称为正规方程法(normal equation method),其中要用到矩阵进行计算。现在我们就来说一下如何使用这种方法,这里需要一点线性代数的基础。

会用到的一些定义:

(1)对矩阵求导:如果有一个关于参数数组\Theta的函数Y(\Theta ),其中\Theta为n+1维向量\Theta =(\Theta _{0},\Theta _{1},.....\Theta_{n})^{T},我们定义这个倒三角\bigtriangledown来表示求梯度,\bigtriangledown _{\Theta }Y表示Y的梯度关于\Theta的导数(\bigtriangledown _{\Theta }Y\in \mathbb{R}^{n+1}),\bigtriangledown _{\Theta }Y属于n+1维向量。

\bigtriangledown _{\Theta }Y=\begin{bmatrix} \frac{\partial Y}{\partial \Theta _{0}}\\ .......\\ .......\\ \frac{\partial Y}{\partial \Theta _{n}}\end{bmatrix}

(2)矩阵的迹:如果矩阵A\in \mathbb{R}^{n*n},我们称tr(A)为矩阵A的迹,那么tr(A)= \sum_{i=1}^{n}A_{ii}

下面是一些关于迹和导数的结论:

(1)tr(AB)=tr(BA)

         tr(ABC)=tr(CAB)=tr(BCA)

(2)如果f(A)=tr(AB),也就是函数f()以矩阵A为输入,输出实数tr(AB),那么\triangledown_{A} tr(AB)=B^{T}

(3)tr(A)=tr(A^{T})

(4)如果a是一个实数,那么tr(a)=a

(5)\bigtriangledown _{A}tr(ABA^{T}C)=CAB+C^{T}AB^{T}

上面的结论我们一会会用到,现在我们开始推导,定义一个矩阵X,它被称为设计矩阵,将它定义成包含了训练集中所有输入的矩阵。

X=\begin{bmatrix} ...(X^{(1)})^{T}...\\ .............\\ .............\\ ...(X^{(m)})^{T}...\end{bmatrix}

 \therefore X\Theta =\begin{bmatrix} ...(X^{(1)})^{T} ...\\ .............\\ .............\\ ...(X^{(m)})^{T} ...\end{bmatrix}*\begin{bmatrix} \Theta _{0}\\ ...\\ ...\\ \Theta_{n}\end{bmatrix}=\begin{bmatrix} ...(X^{(1)})^{T}\Theta ...\\ .............\\ .............\\ ...(X^{(m)})^{T}\Theta ...\end{bmatrix}=\begin{bmatrix} ...H_{\Theta}(X^{(1)}) ...\\ .............\\ .............\\ ...H_{\Theta}(X^{(m)}) ...\end{bmatrix}

同样,我们将向量Y定义为所有训练集合中的数据的目标值,从Y^{(1)}Y^{(m)}

Y=\begin{bmatrix} Y^{(1)}\\ ...\\ ...\\ Y^{(m)}\end{bmatrix}

\therefore X\Theta -Y=\begin{bmatrix} H(X^{(1)})-Y^{(1)}\\ ......\\ ......\\ H(X^{(1)})-Y^{(m)}\end{bmatrix}

所以,现在X\Theta -Y是一个对应着m个训练样本的m维向量,我们要用最小二乘法求损失函数,所以接着把这向量和自己做内积,还要乘以\frac{1}{2}

\frac{1}{2}(X\Theta-Y)^{T}(X\Theta-Y)=\sum_{i=1}^{m}H(X^{(i)}-Y^{(i)})^{2}=J(\Theta)

因为要求最小值,最小值处导数为0,我们把J(\Theta)的导数设为0:

\bigtriangledown _{\Theta}J(\Theta)=0

\therefore\bigtriangledown _{\Theta}J(\Theta)= \bigtriangledown _{\Theta}\frac{1}{2}(X\Theta-Y)^{T}(X\Theta-Y)=\frac{1}{2}\bigtriangledown _{\Theta}(X\Theta-Y)^{T}(X\Theta-Y)

=\frac{1}{2}\bigtriangledown _{\Theta}(\Theta^{T}X^{T}X\Theta-\Theta^{T}X^{T}Y-Y^{T}X\Theta+Y^{T}Y)

因为这两个向量的内积是一个实数,根据上面的结论(4),一个实数的迹还是它本身,所以我们在前面加上一个求迹的运算符,而不会有任何影响:

=\frac{1}{2}\bigtriangledown _{\Theta}tr(\Theta^{T}X^{T}X\Theta-\Theta^{T}X^{T}Y-Y^{T}X\Theta+Y^{T}Y)

=\frac{1}{2}\left [ \bigtriangledown _{\Theta}tr(\Theta^{T}X^{T}X\Theta)-\bigtriangledown _{\Theta}tr(\Theta^{T}X^{T}Y)-\bigtriangledown _{\Theta}tr(Y^{T}X\Theta)+\bigtriangledown _{\Theta}tr(Y^{T}Y)\right ]

=\frac{1}{2}\left [ \bigtriangledown _{\Theta}tr(\Theta\Theta^{T}X^{T}X)-\bigtriangledown _{\Theta}tr(Y^{T}X\Theta)-\bigtriangledown _{\Theta}tr(Y^{T}X\Theta)\right ]

这一步中,用了结论(2)把第一项的\Theta调到了前面。然后用了结论(3),把第二项转置后在求迹是一样的。最后一项因为其中并不依赖于\Theta,所以求导后为0,可以直接舍弃。

然后对第一项我们使用结论(5),\Theta为结论中的A,单位矩阵I为结论中的BX^{T}X为结论中的C

tr(\Theta\Theta^{T}X^{T}X)=X^{T}X\Theta*I+X^{T}X\Theta*I

对第二项使用结论(2)

\bigtriangledown _{\Theta}tr(Y^{T}X\Theta)=X^{T}Y

最后全带入\bigtriangledown _{\Theta}J(\Theta)=0

\frac{1}{2}\left [ X^{T}X\Theta+X^{T}X\Theta-X^{T}Y-X^{T}Y \right ]=0

X^{T}X\Theta-X^{T}Y=0

X^{T}X\Theta=X^{T}Y

\Theta=(X^{T}X)^{-1}X^{T}Y

这就是我们最后得到的\Theta的解析表达式了,这就是我们的另一种正规方程法来求解最小二乘拟合,使得我们不再需要使用类似于梯度下降这样的迭代算法。如果我们使用梯度下降算法迭代求解,绝对不可能像这样快就求出解。

写的若有错误之处,欢迎大家批评指正!

机器学习(五):欠拟合、过拟合与局部加权回归算法

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/Sakuya__/article/details/88240422

智能推荐

874计算机科学基础综合,2018年四川大学874计算机科学专业基础综合之计算机操作系统考研仿真模拟五套题...-程序员宅基地

文章浏览阅读1.1k次。一、选择题1. 串行接口是指( )。A. 接口与系统总线之间串行传送,接口与I/0设备之间串行传送B. 接口与系统总线之间串行传送,接口与1/0设备之间并行传送C. 接口与系统总线之间并行传送,接口与I/0设备之间串行传送D. 接口与系统总线之间并行传送,接口与I/0设备之间并行传送【答案】C2. 最容易造成很多小碎片的可变分区分配算法是( )。A. 首次适应算法B. 最佳适应算法..._874 计算机科学专业基础综合题型

XShell连接失败:Could not connect to '192.168.191.128' (port 22): Connection failed._could not connect to '192.168.17.128' (port 22): c-程序员宅基地

文章浏览阅读9.7k次,点赞5次,收藏15次。连接xshell失败,报错如下图,怎么解决呢。1、通过ps -e|grep ssh命令判断是否安装ssh服务2、如果只有客户端安装了,服务器没有安装,则需要安装ssh服务器,命令:apt-get install openssh-server3、安装成功之后,启动ssh服务,命令:/etc/init.d/ssh start4、通过ps -e|grep ssh命令再次判断是否正确启动..._could not connect to '192.168.17.128' (port 22): connection failed.

杰理之KeyPage【篇】_杰理 空白芯片 烧入key文件-程序员宅基地

文章浏览阅读209次。00000000_杰理 空白芯片 烧入key文件

一文读懂ChatGPT,满足你对chatGPT的好奇心_引发对chatgpt兴趣的表述-程序员宅基地

文章浏览阅读475次。2023年初,“ChatGPT”一词在社交媒体上引起了热议,人们纷纷探讨它的本质和对社会的影响。就连央视新闻也对此进行了报道。作为新传专业的前沿人士,我们当然不能忽视这一热点。本文将全面解析ChatGPT,打开“技术黑箱”,探讨它对新闻与传播领域的影响。_引发对chatgpt兴趣的表述

中文字符频率统计python_用Python数据分析方法进行汉字声调频率统计分析-程序员宅基地

文章浏览阅读259次。用Python数据分析方法进行汉字声调频率统计分析木合塔尔·沙地克;布合力齐姑丽·瓦斯力【期刊名称】《电脑知识与技术》【年(卷),期】2017(013)035【摘要】该文首先用Python程序,自动获取基本汉字字符集中的所有汉字,然后用汉字拼音转换工具pypinyin把所有汉字转换成拼音,最后根据所有汉字的拼音声调,统计并可视化拼音声调的占比.【总页数】2页(13-14)【关键词】数据分析;数据可..._汉字声调频率统计

linux输出信息调试信息重定向-程序员宅基地

文章浏览阅读64次。最近在做一个android系统移植的项目,所使用的开发板com1是调试串口,就是说会有uboot和kernel的调试信息打印在com1上(ttySAC0)。因为后期要使用ttySAC0作为上层应用通信串口,所以要把所有的调试信息都给去掉。参考网上的几篇文章,自己做了如下修改,终于把调试信息重定向到ttySAC1上了,在这做下记录。参考文章有:http://blog.csdn.net/longt..._嵌入式rootfs 输出重定向到/dev/console

随便推点

uniapp 引入iconfont图标库彩色symbol教程_uniapp symbol图标-程序员宅基地

文章浏览阅读1.2k次,点赞4次,收藏12次。1,先去iconfont登录,然后选择图标加入购物车 2,点击又上角车车添加进入项目我的项目中就会出现选择的图标 3,点击下载至本地,然后解压文件夹,然后切换到uniapp打开终端运行注:要保证自己电脑有安装node(没有安装node可以去官网下载Node.js 中文网)npm i -g iconfont-tools(mac用户失败的话在前面加个sudo,password就是自己的开机密码吧)4,终端切换到上面解压的文件夹里面,运行iconfont-tools 这些可以默认也可以自己命名(我是自己命名的_uniapp symbol图标

C、C++ 对于char*和char[]的理解_c++ char*-程序员宅基地

文章浏览阅读1.2w次,点赞25次,收藏192次。char*和char[]都是指针,指向第一个字符所在的地址,但char*是常量的指针,char[]是指针的常量_c++ char*

Sublime Text2 使用教程-程序员宅基地

文章浏览阅读930次。代码编辑器或者文本编辑器,对于程序员来说,就像剑与战士一样,谁都想拥有一把可以随心驾驭且锋利无比的宝剑,而每一位程序员,同样会去追求最适合自己的强大、灵活的编辑器,相信你和我一样,都不会例外。我用过的编辑器不少,真不少~ 但却没有哪款让我特别心仪的,直到我遇到了 Sublime Text 2 !如果说“神器”是我能给予一款软件最高的评价,那么我很乐意为它封上这么一个称号。它小巧绿色且速度非

对10个整数进行按照从小到大的顺序排序用选择法和冒泡排序_对十个数进行大小排序java-程序员宅基地

文章浏览阅读4.1k次。一、选择法这是每一个数出来跟后面所有的进行比较。2.冒泡排序法,是两个相邻的进行对比。_对十个数进行大小排序java

物联网开发笔记——使用网络调试助手连接阿里云物联网平台(基于MQTT协议)_网络调试助手连接阿里云连不上-程序员宅基地

文章浏览阅读2.9k次。物联网开发笔记——使用网络调试助手连接阿里云物联网平台(基于MQTT协议)其实作者本意是使用4G模块来实现与阿里云物联网平台的连接过程,但是由于自己用的4G模块自身的限制,使得阿里云连接总是无法建立,已经联系客服返厂检修了,于是我在此使用网络调试助手来演示如何与阿里云物联网平台建立连接。一.准备工作1.MQTT协议说明文档(3.1.1版本)2.网络调试助手(可使用域名与服务器建立连接)PS:与阿里云建立连解释,最好使用域名来完成连接过程,而不是使用IP号。这里我跟阿里云的售后工程师咨询过,表示对应_网络调试助手连接阿里云连不上

<<<零基础C++速成>>>_无c语言基础c++期末速成-程序员宅基地

文章浏览阅读544次,点赞5次,收藏6次。运算符与表达式任何高级程序设计语言中,表达式都是最基本的组成部分,可以说C++中的大部分语句都是由表达式构成的。_无c语言基础c++期末速成