来自武汉大学的论文,根据单目图片进行3D检测。这似乎又是一个用单目尝试3D检测的例子。
先来看看文中效果图:

e0bc2ccc-e23a-409c-884b-279867904605-image.png

通过2D检测的框,映射到根据深度估计的3D点云图之中,但是它是如何估计边框姿态的呢?这里的3D边框的回归是如何实现的?

这篇文章比较有用的东西是提出了一个多任务的loss,以及尝试了多特征通道作为网络输入的方式来回归3D坐标。
显然这个方向值得尝试。
论文地址:http://openaccess.thecvf.com/content_cvpr_2018/papers/Xu_Multi-Level_Fusion_Based_CVPR_2018_paper.pdf