计算机视觉学习--目标检测算法分类_基于深度学习的目标分类用什么-程序员宅基地

技术标签: 计算机视觉  

基于深度学习的目标检测算法主要分为两类:

1 two stage:

先进行区域生成(一个可能包含待检测物体的预选框),在通过卷积神经网络进行样本分类。

常见的算法:R-CNN SPP-Net Fast R-CNN R-FCN Faster R-CNN等

2 one stage:

不用RP,直接在网络中提取特征来预测物体的分类和位置

常见的算法:YOLOv1 YOLOV2 YOLOV3 SSD 等

 

R-CNN介绍:

创新点:使用CNN 对region proposal 计算feature vectors 。从经验驱动特征(SIFT,HOG),到数据驱动特征

               大样本下有监督训练,和小样本微调的方法,解决过拟合问题

 

后来因为这个算法过于冗杂(每个候选区域都要进行卷积),又提出了fast Rcnn,其创新点在于:

1 只对整副图像进行一次特征提取(称作 shared feature map),避免rcnn的冗余

2 用ROl pooling 层替换掉maxpooling ,巧妙的解决了尺度缩放的问题

3 末尾采用的是并行不通的全连接层,可同时输出分类结果

4 输出是多个batch vector,其中batch的值等个roi的个数,vector 大小为 channel*w*h ,ROL pooling 作用就是讲一个个大小不用的box框,映射成大小固定的

不足之处:

候选区域提取仍然采用selective search,整个检测流程大多消耗在这上面。之后的faster rcnn的改进之处便是针对这一点。

它用深层网络代替了候选框的方法,新的网络在生成ROI效率更高。

 两者的对比,RPN将第一个卷积网络的输出特征图作为输入,它在特征图上滑动一个3*3的卷积核,构建与类别无关的候选区域,如下图所示:

 这个网络最后会输出256个值,并送入两个单独的全连接层,以预测边界框和两个objectness分数,这个两个分数度量了边界框是否包含目标。

one stage 目标检测算法:

这里介绍代表性的一个YOLO(you only look once )系列算法:

其创新点在于:

1:将整张图作为输入,直接在输出层回归bounding box的位置和所属类别

2:速度快,one stage detection的开山之作

 之前的物体检测方法都是首先需要产生大量可能包含带检测物体的先验框,然后用分类器判断每个先验框对应的边界框是否包含待检测物体,以及物体的类别和可致信度,还要修理边界框,最后基于一些准则,过滤掉置信度不高的框,这种基于先产生候选区在检测的方法,虽然有较高的检测率。但是运行速度较慢。

YOLO创造性的将物体检测任务当做回归任务,将候选区和检测两个阶段合二为一,事实上,YOLO也并没有真正的去掉候选区,而是直接将输入图片划分成7x7=49个网格,每个网格预测两个边界框,一共预测49x2=98个边界框。可以近似理解为在输入图片上粗略的选取98个候选区,这98个候选区覆盖了图片的整个区域,进而用回归预测这98个候选框对应的边界框。

网络结构如图所示:

卷积层提取图像特征,两个全连接层,预测图像位置和类别概率值。

特点:

1 有全连接层,所以要求输入图像尺寸固定

2 采用非极大值抑制算法

3 定位不准确

改进算法:目前流行的算法YOLOV3,

1 使用残差模型(最好的是Darknet-53),进一步加深了网络结构,另一个使用FPN,架构,实现多尺度的检测。

这种one stage 的检测器。对类别不均衡的问题比较敏感,因为没有RPN阶段。但是优点是速度快

 

人脸检测是目标检测分支中一个比较特殊的领域,虽然通用的目标检测算法也可以应用在人脸检测领域,但是和专门的人脸检测算法还是有些差别的,比如 基于级联卷积神经网络,基于多任务卷积神经网络,很大程度上提高了检测的鲁棒性。

常用的目标检测数据集

PASCAL VOC

MS COCO

IMAGENET

 

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/Colin_xuan/article/details/90726301

智能推荐

java 实现 数据库备份_java数据备份-程序员宅基地

文章浏览阅读1k次。数据库备份的方法第一种:使用mysqldump结合exec函数进行数据库备份操作。第二种:使用php+mysql+header函数进行数据库备份和下载操作。下面 java 实现数据库备份的方法就是第一种首先我们得知道一些mysqldump的数据库备份语句备份一个数据库格式:mysqldump -h主机名 -P端口 -u用户名 -p密码 --database 数据库名 ..._java数据备份

window10_ffmpeg调试环境搭建-编译64位_win10如何使用mingw64编译ffmpeg-程序员宅基地

文章浏览阅读3.4k次,点赞2次,收藏14次。window10_ffmpeg调试环境搭建_win10如何使用mingw64编译ffmpeg

《考试脑科学》_考试脑科学pdf百度网盘下载-程序员宅基地

文章浏览阅读6.3k次,点赞9次,收藏14次。给大家推荐《考试脑科学》这本书。作者介绍:池谷裕二,日本东京大学药学系研究科教授,脑科学研究者。1970年生于日本静冈县,1998年取得日本东京大学药学博士学位,2002年起担任美国哥伦比亚大学客座研究员。专业为神经科学与药理学,研究领域为人脑海马体与大脑皮质层的可塑性。现为东京大学药学研究所教授,同时担任日本脑信息通信融合研究中心研究主任,日本药理学会学术评议员、ERATO人脑与AI融合项目负责人。2008年获得日本文部大臣表彰青年科学家奖,2013年获得日本学士院学术奖励奖。这本书作者用非常通俗易懂_考试脑科学pdf百度网盘下载

今天给大家介绍一下华为智选手机与华为手机的区别_华为智选手机和华为手机的区别-程序员宅基地

文章浏览阅读1.4k次。其中,成都鼎桥通信技术有限公司是一家专业从事移动通讯终端产品研发和生产的高科技企业,其发布的TD Tech M40也是华为智选手机系列中的重要代表之一。华为智选手机是由华为品牌方与其他公司合作推出的手机产品,虽然其机身上没有“华为”标识,但是其品质和技术水平都是由华为来保证的。总之,华为智选手机是由华为品牌方和其他公司合作推出的手机产品,虽然外观上没有“华为”标识,但其品质和技术水平都是由华为来保证的。华为智选手机采用了多种处理器品牌,以满足不同用户的需求,同时也可以享受到华为全国联保的服务。_华为智选手机和华为手机的区别

c++求n个数中的最大值_n个数中最大的那个数在哪里?输出其位置,若有多个最大数则都要输出。-程序员宅基地

文章浏览阅读7.6k次,点赞6次,收藏17次。目录题目描述输入输出代码打擂法数组排序任意输入n个整数,把它们的最大值求出来.输入只有一行,包括一个整数n(1_n个数中最大的那个数在哪里?输出其位置,若有多个最大数则都要输出。

python overflowerror_python – 是否真的引发了OverflowError?-程序员宅基地

文章浏览阅读520次。Python 2.7.2 (v2.7.2:8527427914a2, Jun 11 2011, 15:22:34)[GCC 4.2.1 (Apple Inc. build 5666) (dot 3)] on darwinType "help", "copyright", "credits" or "license" for more information.>>> float(1...

随便推点

Android面试官,面试时总喜欢挖基础坑,整理了26道面试题牢固你基础!(3)-程序员宅基地

文章浏览阅读795次,点赞20次,收藏15次。AIDL是使用bind机制来工作。java原生参数Stringparcelablelist & map 元素 需要支持AIDL其实Android开发的知识点就那么多,面试问来问去还是那么点东西。所以面试没有其他的诀窍,只看你对这些知识点准备的充分程度。so,出去面试时先看看自己复习到了哪个阶段就好。下图是我进阶学习所积累的历年腾讯、头条、阿里、美团、字节跳动等公司2019-2021年的高频面试题,博主还把这些技术点整理成了视频和PDF(实际上比预期多花了不少精力),包含知识脉络 + 诸多细节。

机器学习-数学基础02补充_李孟_新浪博客-程序员宅基地

文章浏览阅读248次。承接:数据基础02

短沟道效应 & 窄宽度效应 short channel effects & narrow width effects-程序员宅基地

文章浏览阅读2.8w次,点赞14次,收藏88次。文章目录1. 概念:Narrow Width Effect: 窄宽度效应Short Channel effects:短沟道效应阈值电压 (Threshold voltage)2. 阈值电压与沟道长和沟道宽的关系:Narrow channel 窄沟的分析Short channel 短沟的分析1. 概念:Narrow Width Effect: 窄宽度效应在CMOS器件工艺中,器件的阈值电压Vth 随着沟道宽度的变窄而增大,即窄宽度效应;目前,由于浅沟道隔离工艺的应用,器件的阈值电压 Vth 随着沟道宽度_短沟道效应

小米组织架构再调整,王川调职,雷军自任中国区总裁_小米更换硬件负责人-程序员宅基地

文章浏览阅读335次。5月17日,小米集团再发组织架构调整及任命通知。新通知主要内容为前小米中国区负责人王川调职,雷军自任中国区总裁。小米频繁调整背后,雷军有些着急了中国区手机业务持续下滑。根据IDC最近公布的数据,小米一季度全球出货量为2750万台,相比去年同期的2780万台,小幅下降。参考Canalys、Counterpoint的统计,小米一季度出货量也都录得1%的同比下滑。作为对比,IDC数据显示,华为同期出..._小米更换硬件负责人

JAVA基础学习大全(笔记)_java学习笔记word-程序员宅基地

文章浏览阅读9.1w次。JAVASE和JAVAEE的区别JDK的安装路径[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-perPRPgq-1608641067105)(C:\Users\王东梁\AppData\Roaming\Typora\typora-user-images\image-20201222001641906.png)]卸载和安装JDK[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-SYnXvbAn-1608641067107)(C:\Users_java学习笔记word

vue-echarts饼图/柱状图点击事件_echarts 饼图点击事件-程序员宅基地

文章浏览阅读7.8k次,点赞2次,收藏17次。在实际的项目开发中,我们通常会用到Echarts来对数据进行展示,有时候需要用到Echarts的点击事件,增加系统的交互性,一般是点击Echarts图像的具体项来跳转路由并携带参数,当然也可以根据具体需求来做其他的业务逻辑。下面就Echarts图表的点击事件进行实现,文章省略了Echarts图的html代码,构建过程,option,适用的表格有饼图、柱状图、折线图。如果在实现过程中,遇到困难或者有说明好的建议,欢迎留言提问。_echarts 饼图点击事件