车位检测算法-Context-Based Parking Slot Detection With a Realistic Dataset-程序员宅基地

技术标签: 算法  ML&DL  计算机视觉  深度学习  目标检测  

停车位检测算法总结

Context-Based Parking Slot Detection With a Realistic Dataset

摘要

这篇文章提出了一种基于上下文的两阶段的停车位检测方法,其灵感来自于人类司机寻找停车位的过程。由两个深度网络模块组成:一个停车位的上下文识别器停车位检测器。识别器识别停车环境,包含车位类型、角度和车位的可用性;车位检测器通过多个基于类型的具有旋转anchor box和旋转非最大抑制的微调检测器来定位停车位的确切位置。此外,作者还发布了一个真实的停车位数据集,其中包含22817张停车位图像,车位类型和环境比较丰富。还提出了一种新的停车位检测评估指标,反映车辆是否可以停在检测到的停车位内。
github
代码环境搭建测试:to do!
本文提出的数据集地址https://aistudio.baidu.com/aistudio/datasetdetail/146884

一、方法

在这里插入图片描述
从上图可以看出,整个模型由一个分类回归模型(基于 mobienet V2) + 检测模型组成(基于 yolov 3)

A. Overvier

总体方案如图所示。将车辆左右两侧的鱼眼相机捕获的图像转换为鸟瞰视图图像,并作为输入,这里没有用到多个鱼眼相机拼接的俯视图,而是只用到单个相机,给出的观点是拼接会造成计算量的增加而且拼接会造成一定的图像失真。停车位的检测使用一个两阶段的深度学习模型,由一个**停车上下文识别器(PCR)和一个停车位检测器(PSD)**组成。

在PCR中,估计了类型和方向,这是停车位的粗略信息,
类型 :平行、垂直、倾斜、非停车位
方向 :一个角度值(−90和90度之间的角值)
但是对每一张图片只预测一个类型各一个角度值
In most cases, since the adjacent parking slots will have the same orientation and type, the PCR outputs one parking slot type and one angular value per input image containing multiple slots.

在PSD中,根据PCR提供的检测信息,估计停车位的准确坐标。作者解释从直观的角度来看,方法类似于人类操作者驾驶和停车的过程。司机粗略地寻找一个停车的地方,然后估计出停车位的确切位置,是有那么点道理。
在PSD中有三个检测器,根据PCR推断的停车位类型,只有一个可以进行检测。首先使用所有类型的数据来训练一个检测器,然后将其复制到三个检测器中。最后,这三个检测器中的每一个都用特定类型的数据进行微调。当图像被归类为非停车位时,PSD不会被激活,因为在该空间中没有停车位。

B. PARKING CONTEXT RECOGNIZER

当应用于实际的停车系统时,PCR始终工作识别车辆附近是否存在停车位。在实际情况下,当没有停车时,无需估计停车位的准确位置。因此,只有当PCR识别到周围空间是可用的停车类型时,PCR才能为PSD提供类型和角度,以估计停车位的确切位置。这样,PCR作为一种过滤器,可以减少停车系统中的计算量。使用MobileNetV2作为backbone。
在这里插入图片描述

输入的图像为 64×192 的RGB图像。主干网络后接两个分支;一个用于类型分类,另一个用于方向角度回归。

  • 分类分支
    分类分支由两个全连接的层组成:一个128个神经元和ReLU激活的隐藏层和一个4个输出单元的Softmax激活层。分类分支中的4个输出单元分别表示其中一种停车位类型:平行、垂直、倾斜和非停车位。
  • 回归分支
    回归分支由两个全连接的层组成:一个128个神经元和relu激活的隐藏层和一个具有 Sigmoid激活的输出单元层。输出单元产生停车位的角度,GT值怎么算呢(是根据停车位的分隔线计算出来的)使直线垂直于车辆行驶方向的角度为0度,将顺时针方向旋转的直线的角度设置为正角,而将逆时针方向旋转的直线的角度设置为负角。因此,该角度的值在−90和+90度之间的范围内,它被归一化到0到1之间的范围。
    其实就是一个目标检测问题,box 的角点可以计算出角度值。labelme 就可以标注吧
    在这里插入图片描述
  • PCR LOSS
    在这里插入图片描述
    式中, P ^ c \hat P_c P^c为分类分支的第c个输出值, θ ^ \hat{\theta} θ^为回归分支的输出值,而 P c P_c Pc θ \theta θ分别为停车位类型和方向的真值。 λ \lambda λ是平衡多任务损失的参数

C. PARKING SLOT DETECTOR

PSD
PSD是基于YOLOv3的结构构建的,并估计了紧密包含停车位的四边形的四个顶点的坐标。常见的目标检测器,包括YOLOv3,可以估计宽度、高度和中心坐标,因为它们的目标是找到一个包围目标的水平边界框。停车场是四边形,但有时不是矩形的,可以旋转或一些区域可能被截断。本文的车位检测器即使在上述情况下,也要估计停车位的四个顶点的坐标,以准确地描述停车位的位置。本文检测器的输出设计如图3a所示。在(b)中,黑色虚线表示旋转的锚框,蓝色实线表示停车位。
在这里插入图片描述
在普通的目标检测器中,水平边界框使用水平锚框进行估计。相比之下,本文通过旋转锚框来更准确地检测旋转后的停车位。锚框的旋转角度用PCR估计的结果,用 θ ^ \hat{\theta} θ^表示。旋转后的锚框分别用 ( b x 、 b y ) (b_x、b_y) (bxby) ( b x i 、 b y i ) (b_{xi}、b_{yi}) (bxibyi)表示,它们分别表示停车位的中心点坐标和第i个顶点的坐标。
这些坐标的计算方法为:
在这里插入图片描述
其中, t x 、 t y t_x、t_y txty为估计停车位中心坐标; x i 、 y i x_i、y_i xiyi为估计停车位顶点坐标; c x 、 c y c_x、c_y cxcy为网格的坐标; A w 、 A h A_w、A_h AwAh分别为锚框的宽度和高度。这些符号如图3b所示。通过旋转锚框,各种停车位的外观变得相似,如图4所示。
三种类型的停车场都使用了Fine-tuned,当停车类型被归类为非停车位时,检测器不工作。每个检测器对每种停车位类型都有独特的权重,只有当相应的停车位类型被PCR激活时才可以操作。

rNMS
在这里插入图片描述

评估指标

IoU是目标检测最普遍的评价指标,但是不太适用于停车位检测问题。即使预测的停车位具有相同的IoU值,车辆在停车位上的停放也可能不同,如图6所示。
在这里插入图片描述

为了缓解这个问题,提出了一个新的评估指标,称为停车分数,它反映了车辆是否可以停在停车位内。
一个停车位的停车分数 S S S是通过将两个分数相乘来计算的:面积分数 S A r e a S_{Area} SArea(估计停车位面积的准确性)和位置分数 S L o c S_Loc SLoc(估计位置的准确性)。利用gt的停车位G和预测的停车位P的 坐标来估计这两个分数。
在这里插入图片描述
这两个区域大小越接近,分数就越接近值1。位置分数用来衡量P的面积在G的面积内,计算为
在这里插入图片描述
where P 1 P^1 P1 is a scale-downed location of P P P so that P 1 ⊂ G P^1 ⊂ G P1G。如果 P P P完全包含在 G G G中,则 S L o c S_{Loc} SLoc的最大值为1。如果停车分数 S S S超过阈值,则判定预测为真,否则为假。然后根据真判断和错误判断计算整个测试集的精度、召回率和平均精度。
在这里插入图片描述

实验

MobileNetV2、YOLOv3 architecture using darknet-53 as the backbone.
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

总结

本文的方法虽然是一个二阶段的方法,但是整体架构和使用的模型比较简单,从实验效果看也不错,用的MobileNetV2、和基础的YOLOv3,感觉有很大的改进空间。

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/qq_33728095/article/details/124748153

智能推荐

EasyDarwin开源流媒体云平台之EasyRMS录播服务器功能设计_开源录播系统-程序员宅基地

文章浏览阅读3.6k次。需求背景EasyDarwin开发团队维护EasyDarwin开源流媒体服务器也已经很多年了,之前也陆陆续续尝试过很多种服务端录像的方案,有:在EasyDarwin中直接解析收到的RTP包,重新组包录像;也有:在EasyDarwin中新增一个RecordModule,再以RTSPClient的方式请求127.0.0.1自己的直播流录像,但这些始终都没有成气候;我们的想法是能够让整套EasyDarwin_开源录播系统

oracle Plsql 执行update或者delete时卡死问题解决办法_oracle delete update 锁表问题-程序员宅基地

文章浏览阅读1.1w次。今天碰到一个执行语句等了半天没有执行:delete table XXX where ......,但是在select 的时候没问题。后来发现是在执行select * from XXX for update 的时候没有commit,oracle将该记录锁住了。可以通过以下办法解决: 先查询锁定记录 Sql代码 SELECT s.sid, s.seri_oracle delete update 锁表问题

Xcode Undefined symbols 错误_xcode undefined symbols:-程序员宅基地

文章浏览阅读3.4k次。报错信息error:Undefined symbol: typeinfo for sdk::IConfigUndefined symbol: vtable for sdk::IConfig具体信息:Undefined symbols for architecture x86_64: "typeinfo for sdk::IConfig", referenced from: typeinfo for sdk::ConfigImpl in sdk.a(config_impl.o) _xcode undefined symbols:

项目05(Mysql升级07Mysql5.7.32升级到Mysql8.0.22)_mysql8.0.26 升级32-程序员宅基地

文章浏览阅读249次。背景《承接上文,项目05(Mysql升级06Mysql5.6.51升级到Mysql5.7.32)》,写在前面需要(考虑)检查和测试的层面很多,不限于以下内容。参考文档https://dev.mysql.com/doc/refman/8.0/en/upgrade-prerequisites.htmllink推荐阅读以上链接,因为对应以下问题,有详细的建议。官方文档:不得存在以下问题:0.不得有使用过时数据类型或功能的表。不支持就地升级到MySQL 8.0,如果表包含在预5.6.4格_mysql8.0.26 升级32

高通编译8155源码环境搭建_高通8155 qnx 源码-程序员宅基地

文章浏览阅读3.7k次。一.安装基本环境工具:1.安装git工具sudo apt install wget g++ git2.检查并安装java等环境工具2.1、执行下面安装命令#!/bin/bashsudoapt-get-yinstall--upgraderarunrarsudoapt-get-yinstall--upgradepython-pippython3-pip#aliyunsudoapt-get-yinstall--upgradeopenjdk..._高通8155 qnx 源码

firebase 与谷歌_Firebase的好与不好-程序员宅基地

文章浏览阅读461次。firebase 与谷歌 大多数开发人员都听说过Google的Firebase产品。 这就是Google所说的“ 移动平台,可帮助您快速开发高质量的应用程序并发展业务。 ”。 它基本上是大多数开发人员在构建应用程序时所需的一组工具。 在本文中,我将介绍这些工具,并指出您选择使用Firebase时需要了解的所有内容。 在开始之前,我需要说的是,我不会详细介绍Firebase提供的所有工具。 我..._firsebase 与 google

随便推点

k8s挂载目录_kubernetes(k8s)的pod使用统一的配置文件configmap挂载-程序员宅基地

文章浏览阅读1.2k次。在容器化应用中,每个环境都要独立的打一个镜像再给镜像一个特有的tag,这很麻烦,这就要用到k8s原生的配置中心configMap就是用解决这个问题的。使用configMap部署应用。这里使用nginx来做示例,简单粗暴。直接用vim常见nginx的配置文件,用命令导入进去kubectl create cm nginx.conf --from-file=/home/nginx.conf然后查看kub..._pod mount目录会自动创建吗

java计算机毕业设计springcloud+vue基于微服务的分布式新生报到系统_关于spring cloud的参考文献有啥-程序员宅基地

文章浏览阅读169次。随着互联网技术的发发展,计算机技术广泛应用在人们的生活中,逐渐成为日常工作、生活不可或缺的工具,高校各种管理系统层出不穷。高校作为学习知识和技术的高等学府,信息技术更加的成熟,为新生报到管理开发必要的系统,能够有效的提升管理效率。一直以来,新生报到一直没有进行系统化的管理,学生无法准确查询学院信息,高校也无法记录新生报名情况,由此提出开发基于微服务的分布式新生报到系统,管理报名信息,学生可以在线查询报名状态,节省时间,提高效率。_关于spring cloud的参考文献有啥

VB.net学习笔记(十五)继承与多接口练习_vb.net 继承多个接口-程序员宅基地

文章浏览阅读3.2k次。Public MustInherit Class Contact '只能作基类且不能实例化 Private mID As Guid = Guid.NewGuid Private mName As String Public Property ID() As Guid Get Return mID End Get_vb.net 继承多个接口

【Nexus3】使用-Nexus3批量上传jar包 artifact upload_nexus3 批量上传jar包 java代码-程序员宅基地

文章浏览阅读1.7k次。1.美图# 2.概述因为要上传我的所有仓库的包,希望nexus中已有的包,我不覆盖,没有的添加。所以想批量上传jar。3.方案1-脚本批量上传PS:nexus3.x版本只能通过脚本上传3.1 批量放入jar在mac目录下,新建一个文件夹repo,批量放入我们需要的本地库文件夹,并对文件夹授权(base) lcc@lcc nexus-3.22.0-02$ mkdir repo2..._nexus3 批量上传jar包 java代码

关于去隔行的一些概念_mipi去隔行-程序员宅基地

文章浏览阅读6.6k次,点赞6次,收藏30次。本文转自http://blog.csdn.net/charleslei/article/details/486519531、什么是场在介绍Deinterlacer去隔行处理的方法之前,我们有必要提一下关于交错场和去隔行处理的基本知识。那么什么是场呢,场存在于隔行扫描记录的视频中,隔行扫描视频的每帧画面均包含两个场,每一个场又分别含有该帧画面的奇数行扫描线或偶数行扫描线信息,_mipi去隔行

ABAP自定义Search help_abap 自定义 search help-程序员宅基地

文章浏览阅读1.7k次。DATA L_ENDDA TYPE SY-DATUM. IF P_DATE IS INITIAL. CONCATENATE SY-DATUM(4) '1231' INTO L_ENDDA. ELSE. CONCATENATE P_DATE(4) '1231' INTO L_ENDDA. ENDIF. DATA: LV_RESET(1) TY_abap 自定义 search help