详解梯度下降算法_梯度下降法-程序员宅基地

技术标签: python  爬山算法  机器学习  

一、 什么是梯度下降算法

梯度下降法(Gradient descent )是一个一阶最优化算法,通常也称为最陡下降法 ,要使用梯度下降法找到一个函数的局部极小值 ,必须向函数上当前点对应梯度(或者是近似梯度)的反方向的规定步长距离点进行迭代搜索。 如果相反地向梯度正方向迭代进行搜索,则会接近函数的局部极大值点;这个过程则被称为梯度上升法 ,相反则称之为梯度下降法。

1.1 形象理解

梯度下降可以理解为你站在山的某处,想要下山,此时最快的下山方式就是你环顾四周,哪里最陡峭,朝哪里下山,一直执行这个策略,在第N个循环后,你就到达了山的最低处
在这里插入图片描述
如上图,假如为山的纵切面,那每次下山一小步,经过N次后你便可以到达山底。
在这里插入图片描述
对于3维图像,也存在类似步骤,使得在N步之后到达山脚下。

1.2 数学理解——微分

在明确何为梯度下降算法后,就要对其转化为数学公式或方法,以便借助计算机求解,进而获取符合我们想要的算法模型,对于单个变量的函数,如 y = x^2 利用初中二次函数的知识,你很快就能理解其存在最小值,且最小值为(0,0),而为了能够应对复杂函数,或者多变量函数,如 y(x,y)=x^2+y^2,甚至神经网络中数千维的函数,利用公式求解相当复杂,而对其进行微分,其微分反映的是增量,这恰恰是梯度下降算法中我们所需下山最快的方向。
如: d ( x 2 ) d ( x ) = 2 x \frac{d(x^2) }{d(x)}=2x d(x)d(x2)=2x
而对于复杂函数,如下图y=sin(x)+cos(y),此时由于双变量x,y的存在,仍对其求微,此时所求导数为该函数的向量(x一个导数,y一个导数,合起来就是向量),如果说单变量函数是指明哪里下山最快,那么多变量函数对其微分则是指明哪个方向上下山最快(注意:此时不再用求导而是用微分是因为导数表示的是比值,斜率;而微分表示的是增量)
在这里插入图片描述
以二元函数 z = f ( x , y ) ​ z=f\left ( x,y \right )​ z=f(x,y)为例,假设其对每个变量都具有连续的一阶偏导数 ∂ z ∂ x ​ \frac{\partial z} {\partial x}​ xz ∂ z ∂ y ​ \frac{\partial z} {\partial y}​ yz,则这两个偏导数构成的向量 [ ∂ z ∂ x , ∂ z ∂ y ] \left [ \frac{\partial z} {\partial x},\frac{\partial z} {\partial y} \right ] [xz,yz]​即为该二元函数的梯度向量,一般记作 ∇ f ( x , y ) ​ \nabla f\left ( x,y \right )​ f(x,y)
因此:单变量函数中,梯度代表的是图像斜率的变化,多变量函数中,梯度代表的是向量,变化最快的地方,即最陡峭的方向

1.3 步长(学习率) —— a a a

前面一直讨论如何下山最快和如何用数学方法来解决下山最快和下山的方向,那么还忽视了一个问题,就是下山的步子。当然,步子太大容易扯着蛋,步子太小下山太慢,可能下山都太阳落山了,因此需要确定一个步长 a a a,使得经过合适的步子后能够顺利最快的下山。可能你也能想到,最好的方式便是先大步子下山,在山的最低处小步,不断逼近最低处。但如果在最低处无限逼近那最后的0.000001,此时在实际意义来说是无意义的,因此同时也需确定某个值,使得迭代到某次后判断与设定值的大小,若小于则停止循环。
不同步长的比较
小步长
在这里插入图片描述小步长表现为计算量大,耗时长,但比较精准。

大步长
在这里插入图片描述大步长,即较大的 a a a,表现为震荡,容易错过最低点,计算量相对较小。
注意:由于函数凹凸性,对于凸函数能够无限逼近其最优解,对于非凸函数,只能获取局部最优解
在这里插入图片描述
如上图所示,对于不同的学习率或步长 α \alpha α,其有不同的路径下山(路径A和路径B),因此存在不同的解,这种称之为局部最优解。

1.4 梯度下降算法实现

确定了下降方向和大小后,就可以实现梯度下降算法了,同样,下山前我们假设在一个任意点上A(x,y,方便解释,本文统统使用2维坐标,更高维的同理),那么只需要
A − a Δ ​ A-a\Delta ​ AaΔ
表示每次向下走一小步,前面我们已经讨论,对于函数而言,此时 Δ ​ \Delta ​ Δ不能代表方向,应该用梯度来表示,即 ∇ \nabla ,即:
A − a ∇ ​ A-a\nabla ​ Aa
计算完一个梯度后,需要进行更新点A的坐标,A(x,y),循环往复,即可求得最优解,所以,梯度下降的公式为:
θ = θ − α ∗ ∇ J ( θ ) θ=θ−\alpha∗\nabla J(θ) θ=θαJ(θ)
在明确公式后,所以一般的梯度下降算法的步骤为:

1、给定待优化连续可微分的函数J(θ),学习率或步长a,以及一组初始值(真实值)
2、计算待优化函数梯度
3、更新迭代
4、再次计算新的梯度
5、计算向量的模来判断是否需要终止循环

在python中,需要将一维的数字和公式转化为矩阵的形式,这能显著提升算法的运行效率和计算时间
假设我们要对简单线性回归进行拟合,从高中知识或大学知识我们可得,简单线性回归其实就是找出一条直线y=kx+b,使得尽可能的穿过多的点,如下图:
在这里插入图片描述
明显,直线C为最优的拟合直线,则其公式为:
J ( Θ ) = 1 2 m ∑ i = 1 n ( h θ ( x ( i ) ) − y ( i ) ) 2 ​ J\left ( \Theta \right )=\frac{1}{2m}\sum_{i=1}^{n}\left ( h_{\theta } \left ( x^{\left ( i \right )}\right )-y^{\left ( i \right )} \right )^{2}​ J(Θ)=2m1i=1n(hθ(x(i))y(i))2
其中 1 2 m \frac{1}{2m} 2m1是方便求微分,对其结果没有影响,梯度计算公式:
∂ J ( Θ ) ∂ θ j = 1 n ∑ i = 1 n ( h θ ( x ( i ) ) − y ( i ) ) x j ( i ) \frac{ \partial J\left ( \Theta \right )}{\partial \theta _{j}}=\frac{1}{n}\sum_{i=1}^{n}\left ( h_{\theta } \left ( x^{\left ( i \right )}\right )-y^{\left ( i \right )} \right )x_{j}^{\left (i \right )} θjJ(Θ)=n1i=1n(hθ(x(i))y(i))xj(i)
迭代公式:
θ = θ − α ∗ ∇ J ( θ ) θ=θ−\alpha∗\nabla J(θ) θ=θαJ(θ)

1.5 梯度下降算法类型

1.5.1 批量梯度下降算法

前面所讨论中使用的梯度下降算法公式为:
∂ J ( Θ ) ∂ θ j = 1 n ∑ i = 1 n ( h θ ( x ( i ) ) − y ( i ) ) x j ( i ) \frac{ \partial J\left ( \Theta \right )}{\partial \theta _{j}}=\frac{1}{n}\sum_{i=1}^{n}\left ( h_{\theta } \left ( x^{\left ( i \right )}\right )-y^{\left ( i \right )} \right )x_{j}^{\left (i \right )} θjJ(Θ)=n1i=1n(hθ(x(i))y(i))xj(i)
可以看出,计算机会每次从所有数据中计算梯度,然后求平均值,作为一次迭代的梯度,对于高维数据,计算量相当大,因此,把这种梯度下降算法称之为批量梯度下降算法

1.5.2 随机梯度下降算法

随机梯度下降算法是利用批量梯度下降算法每次计算所有数据的缺点,随机抽取某个数据来计算梯度作为该次迭代的梯度,梯度计算公式:
∂ J ( Θ ) ∂ θ j = ( h θ ( x ( i ) ) − y ( i ) ) x j ( i ) \frac{\partial J\left ( \Theta \right )}{\partial \theta _{j}}=\left ( h_{\theta }\left ( x^{\left ( i \right )} \right )-y^{\left ( i \right )} \right )x_{j}^{\left ( i \right )} θjJ(Θ)=(hθ(x(i))y(i))xj(i)
迭代公式:
θ = θ − α ⋅ ▽ θ J ( θ ; x ( i ) ; y ( i ) ) \theta =\theta -\alpha \cdot \triangledown _{\theta }J\left ( \theta;x^{\left ( i \right )} ;y^{\left ( i \right )} \right ) θ=θαθJ(θ;x(i);y(i))
由于随机选取某个点,省略了求和和求平均的过程,降低了计算复杂度,提升了计算速度,但由于随机选取的原因,存在较大的震荡性。

1.5.3 小批量梯度下降算法

小批量梯度下降算法是综合了批量梯度下降算法和随机梯度下降算法的优缺点,随机选取样本中的一部分数据,梯度计算公式:
∂ J ( Θ ) ∂ θ j = 1 k ∑ i i + k ( h θ ( x ( i ) ) − y ( i ) ) x j ( i ) \frac{\partial J\left ( \Theta \right ) }{\partial \theta _{j}}=\frac{1}{k}\sum_{i}^{i+k}\left ( h_{\theta } \left ( x^{\left ( i \right )}\right )-y^{\left ( i \right )} \right )x_{j}^{\left (i \right )} θjJ(Θ)=k1ii+k(hθ(x(i))y(i))xj(i)
迭代公式:
θ = θ − α ⋅ ▽ θ J ( θ ; x ( i : i + k ) ; y ( i : i + k ) ) \theta =\theta -\alpha \cdot \triangledown _{\theta }J\left ( \theta ;x^{\left ( i:i+k \right )};y^{\left ( i:i+k \right )} \right ) θ=θαθJ(θ;x(i:i+k);y(i:i+k))
通常最常用的也是小批量梯度下降算法,计算速度快,收敛稳定。

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/JaysonWong/article/details/119818497

智能推荐

已知num为无符号十进制整数,请写一非递归算法,该算法输出num对应的r进制的各位数字。要求算法中用到的栈采用线性链表存储结构(1<r<10)。-程序员宅基地

文章浏览阅读74次。思路:num%r得到末位r进制数,num/r得到num去掉末位r进制数后的数字。得到的末位r进制数采用头插法插入链表中,更新num的值,循环计算,直到num为0,最后输出链表。//重置,s指针与头指针指向同一处。//更新num的值,至num为0退出循环。//末位r进制数存入s数据域中。//头插法插入链表中(无头结点)//定义头指针为空,s指针。= NULL) //s不为空,输出链表,栈先入后出。

开始报名!CW32开发者扶持计划正式进行,将助力中国的大学教育及人才培养_cw32开发者扶持计划申请-程序员宅基地

文章浏览阅读176次。武汉芯源半导体积极参与推动中国的大学教育改革以及注重电子行业的人才培养,建立以企业为主体、市场为导向、产学研深度融合的技术创新体系。2023年3月,武汉芯源半导体开发者扶持计划正式开始进行,以打造更为丰富的CW32生态社区。_cw32开发者扶持计划申请

希捷硬盘开机不识别,进入系统后自动扫描硬件以识别显示_st2000dm001不认盘-程序员宅基地

文章浏览阅读5.7k次。2014年底买的一块2TB希捷机械硬盘ST2000DM001-1ER164,用了两年更换了主板、CPU等,后来出现开机不识别的情况,具体表现为:关机后开机,找不到硬盘,就进入BIOS了,只要在BIOS状态下待机半分钟左右再重启,硬盘就会出现。进入系统后,重启(这个过程中主板对硬盘始终处于供电状态),也不会出现不识别硬盘的现象。就好像是硬盘或主板上某个电容坏了一样,刚开始给硬盘通电的N秒钟内电容未能..._st2000dm001不认盘

ADO.NET包含主要对象以及其作用-程序员宅基地

文章浏览阅读1.5k次。ADO.NET的数据源不单单是DB,也可以是XML、ExcelADO.NET连接数据源有两种交互模式:连接模式和断开模式两个对应的组件:数据提供程序(数据提供者)&DataSetSqlConnectionStringBuilder——连接字符串Connection对象用于开启程序和数据库之间的连接public SqlConnection c..._列举ado.net在操作数据库时,常用的对象及作用

Android 自定义对话框不能铺满全屏_android dialog宽度不铺满-程序员宅基地

文章浏览阅读113次。【代码】Android 自定义对话框不能铺满全屏。_android dialog宽度不铺满

Redis的主从集群与哨兵模式_redis的主从和哨兵集群-程序员宅基地

文章浏览阅读331次。Redis的主从集群与哨兵模式Redis的主从模式全量同步增量同步Redis主从同步策略流程redis主从部署环境哨兵模式原理哨兵模式概述哨兵模式的作用哨兵模式项目部署Redis的主从模式1、Redis虽然读取写入的速度都特别快,但是也会产生读压力特别大的情况。2、为了分担读压力,Redis支持主从复制,保证主数据库的数据内容和从数据库的内容完全一致。3、Redis的主从结构可以采用一主多从或者级联结构,Redis主从复制可以根据是否是全量分为全量同步和增量同步。全量同步Redis全量复制一般发_redis的主从和哨兵集群

随便推点

mysql utf-8的作用_为什么不建议在MySQL中使用UTF-8-程序员宅基地

文章浏览阅读116次。作者:brightwang原文:https://www.jianshu.com/p/ab9aa8d4df7d最近我遇到了一个bug,我试着通过Rails在以“utf8”编码的MariaDB中保存一个UTF-8字符串,然后出现了一个离奇的错误:Incorrect string value: ‘😃 我用的是UTF-8编码的客户端,服务器也是UTF-8编码的,数据库也是,就连要保存的这个字符串“????..._mysql utf8的作用

MATLAB中对多张图片进行对比画图操作(包括RGB直方图、高斯+USM锐化后的图、HSV空间分量图及均衡化后的图)_matlab图像比较-程序员宅基地

文章浏览阅读278次。毕业这么久了,最近闲来准备把毕设过程中的代码整理公开一下,所有代码其实都是网上找的,但都是经过调试能跑通的,希望对需要的人有用。PS:里边很多注释不讲什么意思了,能看懂的自然能看懂。_matlab图像比较

16.libgdx根据配置文件生成布局(未完)-程序员宅基地

文章浏览阅读73次。思路:  screen分为普通和复杂两种,普通的功能大部分是页面跳转以及简单的crud数据,复杂的单独弄出来  跳转普通的screen,直接根据配置文件调整设置<layouts> <loyout screenId="0" bg="bg_start" name="start" defaultWinId="" bgm="" remark=""> ..._libgdx ui 布局

playwright-python 处理Text input、Checkboxs 和 radio buttons(三)_playwright checkbox-程序员宅基地

文章浏览阅读3k次,点赞2次,收藏13次。playwright-python 处理Text input和Checkboxs 和 radio buttonsText input输入框输入元素,直接用fill方法即可,支持 ,,[contenteditable] 和<label>这些标签,如下代码:page.fill('#name', 'Peter');# 日期输入page.fill('#date', '2020-02-02')# 时间输入page.fill('#time', '13-15')# 本地日期时间输入p_playwright checkbox

windows10使用Cygwin64安装PHP Swoole扩展_win10 php 安装swoole-程序员宅基地

文章浏览阅读596次,点赞5次,收藏6次。这是我看到最最详细的安装说明文章了,必须要给赞!学习了,也配置了,成功的一批!真不知道还有什么可补充的了,在此做个推广,喜欢的小伙伴,走起!_win10 php 安装swoole

angular2里引入flexible.js(rem的布局)_angular 使用rem-程序员宅基地

文章浏览阅读1k次。今天想实现页面的自适应,本来用的是栅格,但效果不理想,就想起了rem布局。以前使用rem布局,都是在原生html里,还没在框架里使用过,百度没百度出来,就自己琢磨,不知道方法规范不规范,反正成功了,操作如下:1、下载flexible.js2、引入到angular项目里3、根据自己的需要修改细节3.1、在flexible.js里修改每份的像素,3.2、引入cssrem插件,在设置里设..._angular 使用rem

推荐文章

热门文章

相关标签