你想看的集成学习之bagging和boosting区别特征及例子_blank_tju的博客-程序员信息网

技术标签: 集成学习  机器学习  boosting  adaboost  bagging  

这篇文章主要讲述集成学习的bagging和boosting。

首先bagging和boosting是集成学习的两个大家族,每个家族也包括很多成员,例如boosting包括adaboost、xgboost,bagging也有RandomForest等方法。既然bagging和boosting是这些算法的基础,那他们的思想是什么呢?

Bagging和Boosting的理解与思想

简单总结Bagging:对数据集进行多次有放回抽样,每次的抽样进行分类计算生成弱分类器,分类问题就是把每一次的计算结果进行投票,看哪一种情况票数多即为最后结果。回归问题就是把所有生成的弱分类器结果进行取平均。

简单总结Boosting:初始对每个样本分配相同的权重,每次经过分类,把对的结果的权重降低,错的结果权重增高,如此往复,直到阈值或者循环次数。

Bagging和Boosting的区别

(1) bagging的训练集是随机的,各训练集是独立的;而boosting训练集的选择不是独立的,每一次选择的训练集都依赖于上一次学习的结果;
(2) bagging的每个预测函数都没有权重;而boosting根据每一次训练的训练误差得到该次预测函数的权重;
(3) bagging的各个预测函数可以并行生成;而boosting只能顺序生成。(对于神经网络这样极为耗时的学习方法,bagging可通过并行训练节省大量时间开销)。

Bagging和Boosting的例子

Bagging:

参数介绍:
x:输入的数据
y:输入数据对应的类别
k:阈值
绿色框真实的类别
蓝色框算法计算的类别
这里写图片描述

经过了5轮计算,并把5轮的计算综合得出结果:

这里写图片描述

可以看到准确率有90%。每次循环生成的弱分类器得到的结果的集成是一个强分类器。

adaboosting:
这里写图片描述
图中,“+”和“-”分别表示两种类别,在这个过程中,我们使用水平或者垂直的直线作为分类器,来进行分类。
第一步:
 这里写图片描述
根据分类的正确率,得到一个新的样本分布 D2 D 2 ­,一个子分类器 h1 h 1
其中划圈的样本表示被分错的。在右边的图中,比较大的“+”表示对该样本做了加权。
第二步:
这里写图片描述
根据分类的正确率,得到一个新的样本分布 D3 D 3 ,一个子分类器 h2 h 2
第三步:
这里写图片描述
得到一个子分类器 h3 h 3
整合所有子分类器:
这里写图片描述
因此可以得到整合的结果,从结果中看,及时简单的分类器,组合起来也能获得很好的分类效果,在例子中所有的。

Adaboost算法的某些特性是非常好的,在我们的报告中,主要介绍adaboost的两个特性。一是训练的错误率上界,随着迭代次数的增加,会逐渐下降;二是adaboost算法即使训练次数很多,也不会出现过拟合的问题。

adaboost特点:
  1)每次迭代改变的是样本的分布,而不是重复采样

  2)样本分布的改变取决于样本是否被正确分类
总是分类正确的样本权值低
总是分类错误的样本权值高(通常是边界附近的样本)

  3)最终的结果是弱分类器的加权组合
权值表示该弱分类器的性能

adaboost优点:
1)adaboost是一种有很高精度的分类器
  2)可以使用各种方法构建子分类器,adaboost算法提供的是框架
  3)当使用简单分类器时,计算出的结果是可以理解的。而且弱分类器构造极其简单
  4)简单,不用做特征筛选
  5)不用担心overfitting!

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/blank_tj/article/details/82229322

智能推荐

实型变量(浮点型变量)、字符型数据、字符串常量(变量)、字符常量(变量)_weixin_43671182的博客-程序员信息网_实型变量

实型变量1、实型变量的舍入误差因为内存分配给实型变量的空间是有限的,所以当存储数据时,就会遇到舍入的问题,我们举个例子void main(){float a,b;a=123456.789e5;b=a+20;printf("%f\n",a);printf("%f\n",b);}这个时候出现的结果就是这样,又因为a本身已经溢出了,加上20之后也是没产生变化的。字符型数据...

【笔记】COA课内实验-MMX指令集_Little_Fall的博客-程序员信息网

前言参考资料关于BMP文件格式的详解原理学习1. BMP-DIB位图编码什么是BMPBMP(全称Bitmap,位图)是Windows中的标准图像文件格式,其中有一类叫做设备无关位图(DIB)。BMP文件存储数据时,图像的扫描方式是按从下到上,从左到右的顺序。BMP文件按深度分为多类,如16色,256色,24位,32位,以下均按32位位图。BMP文件编码依次为:位图文件头+位图信...

这可能是史上最全、最强的Java线程池学习总结_Java_supermanNO1的博客-程序员信息网

本文转载自:这可能是史上最全、最强的Java线程池学习总结一、使用线程池的好处池化技术相比大家已经屡见不鲜了,线程池、数据库连接池、Http 连接池等等都是对这个思想的应用。池化技术的思想主要是为了减少每次获取资源的消耗,提高对资源的利用率。线程池提供了一种限制和管理资源(包括执行一个任务)。 每个线程池还维护一些基本统计信息,例如已完成任务的数量。这里借用《Java 并发编程的艺术...

【转】嵌入式系统关键技术分析与开发应用_adqk62684的博客-程序员信息网

嵌入式系统关键技术分析与开发应用 来自http://www.chinavideo.org/index.php?option=com_content&task=view&sectionid=2&catid=25&id=251&Itemid=5 东南大学 夏玮玮 沈连丰 200...

Ubuntu18下安装MATLAB2018a_QiujieDong的博客-程序员信息网

参考:https://jingyan.baidu.com/article/d45ad148a78cbe69552b8089.html   https://blog.csdn.net/u014696921/article/details/70053059在linux下安装MATLAB2018a我的系统为Ubuntu18,安装MATLAB2018a(网上有很多资源,请自行下载,贴一个地址h...

随便推点

ask信号调制matlab,基于Matlab的ASK数字调制系统仿真_薛志荣的博客-程序员信息网

基于Matlab的ASK数字调制系统仿真摘要:“幅移键控”又称为“振幅键控”,记为ASK。也有称为“开关键控”(通断键控)的,所以又记作OOK信号。ASK是一种相对简单的调制方式。幅移键控(ASK)相当于模拟信号中的调幅,只不过与载频信号相乘的是二进制数码而已。幅移就是把频率、相位作为常量,而把振幅作为变量,信息比特是通过载波的幅度来传递的。二进制振幅键控(2ASK),由于调制信号只有0或1两个电...

c++const关键字_h595636059的博客-程序员信息网

看到const 关键字,C++程序员首先想到的可能是const 常量。这可不是良好的条件反射。如果只知道用const 定义常量,那么相当于把火药仅用于制作鞭炮。const 更大的魅力是它可以修饰函数的参数、返回值,甚至函数的定义体。const 是constant 的缩写,“恒定不变”的意思。被const 修饰的东西都受到强制保护,可以预防意外的变动,能提高程序的健壮性。

自动驾驶芯片之——FPGA和ASIC介绍_喜欢打酱油的老鸟的博客-程序员信息网

https://www.toutiao.com/a6630584455218070019/ 2018-12-03 10:14:06当前阶段,GPU 配合 CPU 仍然是 AI 芯片的主流,而后随着视觉、语音、深度学习的算法在 FPGA以及 ASIC芯片上的不断优化,此两者也将逐步占有更多的市场份额,从而与GPU达成长期共存的局面。从长远看,人工智能类脑神经芯片是发展的路径和方向。本文主...

UI设计入门:五种基本APP界面类型【萧蕊冰】_萧蕊冰冰的博客-程序员信息网_ui有哪些界面

今天这篇是一个UI设计入门:五种基本APP界面类型的欣赏。随着互联网的发展和智能手机的普及,移动应用成了大家最热爱的宠儿,许多移动APP也会根据用户的需求来随时替换本身的UI设计。本篇UI设计入门分享的是app界面的设计赏析。界面作为我们认识APP的第一道门槛,是APP的“面子”,更是不可忽视的一项重点设计,为了建立有效的UI,设计师需要根据移动端APP本身的特性和当下趋势,作出不一样的改变。但当今设计趋势瞬息万变,在没有统一标准的设计规则之下,紧跟设计趋势,才能保证UI对用户的吸引力常在。下面介绍

Stateful Works发布EIP-1559纪念NFT以奖励开发人员_xiaolou1的博客-程序员信息网

据http://www.btc48.com/Stateful Works是一个旨在鼓励在以太坊区块链上创建和维护公共物品的项目和发行方,该项目发布即将到来的备受期待EIP-1559纪念NFT。EIP-1559 NFT的设计师是_kitteh,以动图的形式呈现,每件售价0.1559 ETH,其中一件起售价为15.59ETH,这些NFT永远作为对EIP-1559开发者的支持,鼓励开发者们继续进行工作。开发者能够获得的收益在1%至14%之间。例如,一直与核心开发者协调网络升级的Beiko将获得6%的收益。而NFT

复选框、单行文本框、组合框_IMBeGooD的博客-程序员信息网

一、复选框复选框的操作函数bool   isChecked()  const  //判断这个复选框是否被选中void     setChecked(bool)   //设置这个复选框的选中情况复选框的信号void    stateChanged(int state)   //状态改变信号例1创建一个是否同意协议的复选框选中后下一步按钮能用不选中下一步按钮不能用#ifnd

推荐文章

热门文章

相关标签