正则化的作用以及L1和L2正则化的区别_l1l2正则化原理和区别-程序员宅基地

0 正则化的作用

正则化的主要作用是防止过拟合，对模型添加正则化项可以限制模型的复杂度，使得模型在复杂度和性能达到平衡。
常用的正则化方法有L1正则化和L2正则化。L1正则化和L2正则化可以看做是损失函数的惩罚项。所谓『惩罚』是指对损失函数中的某些参数做一些限制。 L1正则化的模型建叫做Lasso回归，使用L2正则化的模型叫做Ridge回归（岭回归。但是使用正则化来防止过拟合的原理是什么？L1和L2正则化有什么区别呢？

1 L1正则化与L2正则化

L1正则化的表达如下，其中 $\alpha||w||_1$ 为L1正则化项,L1正则化是指权值向量w 中各个元素的绝对值之和。
在这里插入图片描述
L2正则化项表达式如下，其中 $\alpha||w||_2^2$ 为L2正则化项，L2正则化是指权值向量w 中各个元素的平方和然后再求平方根。

L1和L2正则化的作用：

L1正则化可以产生稀疏权值矩阵，即产生一个稀疏模型，可以用于特征选择，一定程度上，L1也可以防止过拟合
L2正则化可以防止模型过拟合（overfitting）

下面看李飞飞在CS2312中给的更为详细的解释：

L2正则化可以直观理解为它对于大数值的权重向量进行严厉惩罚，倾向于更加分散的权重向量。由于输入和权重之间的乘法操作，这样就有了一个优良的特性：使网络更倾向于使用所有输入特征，而不是严重依赖输入特征中某些小部分特征。 L2惩罚倾向于更小更分散的权重向量，这就会鼓励分类器最终将所有维度上的特征都用起来，而不是强烈依赖其中少数几个维度。。这样做可以提高模型的泛化能力，降低过拟合的风险。
L1正则化有一个有趣的性质，它会让权重向量在最优化的过程中变得稀疏（即非常接近0）。也就是说，使用L1正则化的神经元最后使用的是它们最重要的输入数据的稀疏子集，同时对于噪音输入则几乎是不变的了。相较L1正则化，L2正则化中的权重向量大多是分散的小数字。
在实践中，如果不是特别关注某些明确的特征选择，一般说来L2正则化都会比L1正则化效果好。

2 L1和L2正则化的原理

上面讲到L1倾向于学得稀疏的权重矩阵，L2倾向于学得更小更分散的权重？但是L1和L2是怎样起到这样的作用的呢？背后的数学原理是什么呢？
模型的学习优化的目标是最小化损失函数，学习的结果是模型参数。在原始目标函数的基础上添加正则化相当于，在参数原始的解空间添加了额外的约束。
L1正则化对解空间添加的约束是：
$\sum||w||_1 <= C$
L2正则化对解空间添加的约束是：
$\sum||w||_2^2 <= C$
为了形象化的说明以假设有两个空间，以二维参数空间为例，假设有两个参数W1和W2。
则L1正则化对解空间的约束为：
$∣ w 1 ∣ + ∣ w 2 ∣ < = C$
L2对解空间的约束为：
$w1^2 + w2^2 <= C$
在二维平面上绘制以上两个式子的图像，可得L1约束的范围是一个顶点在坐标轴上的菱形，L2约束的范围是一个圆形。
在这里插入图片描述
上面的图，左面是L2约束下解空间的图像，右面是L1约束下解空间的图像。
蓝色的圆圈表示损失函数的等值线。同一个圆上的损失函数值相等的，圆的半径越大表示损失值越大，由外到内，损失函数值越来越小，中间最小。
如果没有L1和L2正则化约束的话，w1和w2是可以任意取值的，损失函数可以优化到中心的最小值的，此时中心对应的w1和w2的取值就是模型最终求得的参数。
但是填了L1和L2正则化约束就把解空间约束在了黄色的平面内。黄色图像的边缘与损失函数等值线的交点，便是满足约束条件的损失函数最小化的模型的参数的解。 由于L1正则化约束的解空间是一个菱形，所以等值线与菱形端点相交的概率比与线的中间相交的概率要大很多，端点在坐标轴上，一些参数的取值便为0。L2正则化约束的解空间是圆形，所以等值线与圆的任何部分相交的概率都是一样的，所以也就不会产生稀疏的参数。
但是L2为什么倾向于产生分散而小的参数呢？那是因为求解模型的时候要求，在约束条件满足的情况下最小化损失函数， $\sum||w||_2^2$ 也应该尽可能的小。
看这样一个例子：
设输入向量x=[1,1,1,1]，两个权重向量w_1=[1,0,0,0]，w_2=[0.25,0.25,0.25,0.25]。那么 $w^T_1x=w^T_2x=1$ ，两个权重向量都得到同样的内积，但是 $w_1$ 的L2惩罚是1.0，而 $w_2$ 的L2惩罚是0.25。因此，根据L2惩罚来看， $w_2$ 更好，因为它的正则化损失更小。从直观上来看，这是因为 $w_2$ 的权重值更小且更分散。所以L2正则化倾向于是特征分散，更小。

3 正则化参数 λ

我们一般会为正则项参数添加一个超参数λ或者α，用来平衡经验风险和结构风险(正则项表示结构风险)。
在这里插入图片描述以 L2 为例，若 λ 很小，就是说我们考虑经验风险更多一些，对于结构风险没有那么重视，约束条件更为宽松。对应上文中的 C 值就很大。这时候，圆形区域很大，能够让 w 更接近中心最优解的位置。若 λ 近似为 0，相当于圆形区域覆盖了最优解位置，这时候，正则化失效，容易造成过拟合。
相反，若 λ 很大，约束条件更为严格，对应上文中的 C 值就很小。这时候，圆形区域很小，w 离中心最优解的位置较远。w 被限制在一个很小的区域内变化，w 普遍较小且接近 0，起到了正则化的效果。但是，λ 过大容易造成欠拟合。欠拟合和过拟合是两种对立的状态。

4 总结

添加正则化相当于参数的解空间添加了约束，限制了模型的复杂度
L1正则化的形式是添加参数的绝对值之和作为结构风险项，L2正则化的形式添加参数的平方和作为结构风险项
L1正则化鼓励产生稀疏的权重，即使得一部分权重为0，用于特征选择；L2鼓励产生小而分散的权重，鼓励让模型做决策的时候考虑更多的特征，而不是仅仅依赖强依赖某几个特征，可以增强模型的泛化能力，防止过拟合。
正则化参数 λ越大，约束越严格，太大容易产生欠拟合。正则化参数 λ越小，约束宽松，太小起不到约束作用，容易产生过拟合。
如果不是为了进行特征选择，一般使用L2正则化模型效果更好。

参考文章：
1.【通俗易懂】机器学习中 L1 和 L2 正则化的直观解释
2. 机器学习中正则化项L1和L2的直观理解

本文链接：https://blog.csdn.net/liuweiyuxiang/article/details/99984288

原作者删帖不实内容删帖广告或垃圾文章投诉

智能推荐

音频分离Spleeter的安装_2stems.tar.gz-程序员宅基地

文章浏览阅读3.5k次，点赞5次，收藏13次。音频分离Spleeter的安装1.环境依赖及建立（需要已安装anaconda）1.0 项目源地址（github地址）1.1 创建虚拟环境1.2 激活虚拟环境1.3 conda 安装spleeter1.4 下载一个示例音乐1.5 将该音乐分离为两部分1.5.1 报错：No module named numba.decorators1.5.2 解决方案：1.6 下载分类模型1.6.1报错ValueError:Can't load save_path when it is None.1.6.2 解决方案：1.6._2stems.tar.gz

让你的软件飞起来:RGB转为YUV-程序员宅基地

文章浏览阅读64次。朋友曾经给我推荐了一个有关代码优化的pdf文档《让你的软件飞起来》，看完之后，感受颇深。为了推广其，同时也为了自己加深印象，故将其总结为word文档。下面就是其的详细内容总结，希望能于己于人都有所帮助。速度取决于算法同样的事情，方法不一样，效果也不一样。比如，汽车引擎，可以让你的速度超越马车，却无法超越音速；涡轮引擎，可以轻松超越音障，却无法飞出地球；如果有火箭发动机，就可以到达火..._bao.yuv

PX4装机教程（五）无人船（车）_在px4固体中如何设置差速船-程序员宅基地

文章浏览阅读2.5k次，点赞3次，收藏33次。文章目录前言一、载具设置二、电机接线三、PWM输出设置四、航点设置前言一个人可以走的更快，一群人才能走的更远，交流学习加qq:2096723956更多保姆级PX4+ROS学习视频：https://b23.tv/ZeUDKqy分享知识，传递正能量，如有疏漏或不当之处，恳请指出．PX4固件版本：1.10.0硬件:淘宝竞速船或者打窝船实验录屏https://www.bilibili.com/video/BV1wA411c7p3?spm_id_from=333.999.0.0一、载具设置单电机_在px4固体中如何设置差速船

一键批量查询快递单号，一键批量查询，共享备份物流，快递物流尽在掌控_批量快递查询-程序员宅基地

文章浏览阅读370次。每天都有大量的快递单号需要查询，如果一个个手动查询，不仅费时费力，还容易出错。为了解决这个问题，我们教您如何批量查询快递单号，并将快递物流信息进行备份并共享，实现高效管理。弹出一个对话框，文件名和保存类型不变，直接点“保存”，会提示备份成功，那么这个数据库就备份在电脑上了，也可以用第三方工具发送到其他电脑上。第四步，查询速度很快，我们就可以在主页面看到该批单号的运件信息了，比如：发出时间，状态，最后更新的物流时间，等等。第二步，在弹出来的文件框里，将需要查询的德邦快递单号都一一导入，并点击保存。_批量快递查询

敏捷开发（scrum）简介-程序员宅基地

文章浏览阅读7.7k次，点赞6次，收藏61次。敏捷开发（scrum）是一种软件开发的流程，强调快速反应、快速迭代、价值驱动。Scrum的英文意思是橄榄球运动的一个专业术语，表示“争球”的动作；运用该流程，你就能看到你团队高效的工作。一、四大价值观（特点）敏捷开发的特点就是下面4句话：「个体与交互」胜过「过程与工具」「可以工作的软件」胜过「面面俱到的文挡」「客户协作」胜过「合同谈判」「响应变化」胜过「遵循计划」说明：（1）敏捷开发（scrum）适用于竞争激烈，快速变化的市场。敏捷的客户协作观念，快速迭代能帮助团队以最小成本，最快速_敏捷开发

string.h头文件和strings.h的区别-程序员宅基地

文章浏览阅读3.5k次。首先我们看一下man string 里面的内容：可见，strings 头文件中包含了部分函数，没有在 string.h 中出现的。上图的环境是 macOS Sierra 版本号为：10.12.6包括; index, rindex, strcasecmp, strncasecmp 这四个函数。为了一探这个头文件是不是只有macos 这种 Unix-like 系统中才出现。我在Linu..._strings.h

随便推点

Qt 22 布局管理器1 - QLayout，QBoxLayout，布局管理器的相互嵌套_qt layout可以嵌套layout吗-程序员宅基地

文章浏览阅读464次。布局管理器提供相关的类对界面组件进行布局管理能够自动排布窗口中的界面组件窗口变化后自动更新界面组件的大小QLayoutQLayout 是Qt 中布局管理器的抽象基类通过继承QLayout实现了功能各异且互补的布局管理器Qt中可以根据需要自定义布局管理器布局管理器不是界面部件，而是界面部件的定位策略QBoxLayout 布局管理器以水平或者垂直的方式管理界面组件水平：QHBoxLayout 水平布局管理器垂直：QVBoxLayout 垂直布局管理器sizePolicy:QSize_qt layout可以嵌套layout吗

error MSB6006 rc exe 已退出，代码为 5_vs2010报警 error msb6006: “rc.exe”已退出,代码为 5。-程序员宅基地

文章浏览阅读2.6k次。error MSB6006 rc exe 已退出，代码为 5_vs2010报警 error msb6006: “rc.exe”已退出,代码为 5。

如何用NAS打造私有协同办公系统？-程序员宅基地

文章浏览阅读6.2k次。对于人数不多的小型初创企业、工作室、SOHO人群来说，能够拥有自有的协同办公系统无疑是提高工作效率的好方法，同时将文件放在自己的服务器中，显然会更加安心，不用担心重要内容的泄露问题。因此，大家有没有这样想过，自己动手搭一套私有的、云端化的协同办公系统，搞定文件异地同步的同时，实现云端化的办公软件，并提升数据安全性。理想虽好，不过要亲手搞定这样的协同办公系统一定很困难吧？如果你真这样

假设你们的社团要精选社长，有两名候选人分别是A和B，社团每名同学必须并且只能投一票，最终的票多的人为社长。-程序员宅基地

文章浏览阅读33次。输出描述：一行，一个字符，A或B或E，输出A表示A得票数多，输出B表示B得票数多，输出E表示二人得票数相等。输入描述：一行，字符序列，包含A或B，输入以字符0结束。

BeanFactory和ApplicationContext有什么区别？_beanfactory和applicationcontext是干什么的-程序员宅基地

文章浏览阅读2.2k次，点赞2次，收藏2次。BeanFactory和ApplicationContext有什么区别？ BeanFactory和ApplicationContext是Spring的两大核心接口，都可以当做Spring的容器。其中ApplicationContext是BeanFactory的子接口。（1）BeanFactory：是Spring里面最底层的接口，包含了各种Bean的定义，读取bean配置文档，管理..._beanfactory和applicationcontext是干什么的

java 项目管理 maven2.0学习笔记 _apt fml fr-程序员宅基地

文章浏览阅读4.5k次。转贴:http://blog.csdn.net/shiqiang1234/archive/2006/10/12/1331725.aspxMaven简介Maven最初的目的是在Jakarta Turbine项目中使构建处理简单化。几个项目之间使用到的Ant build文件差异很小，各个JAR都存入CVS。因此希望有一个标准的方法构建各个工程，清晰的定义一个工程的组成，一个容易的方法去发布项目_apt fml fr