本文首发来自于奇点AI社区, 最新论文速递模块: http://talk.strangeai.pro/compose?p=/category/16/

Pyramid Mask Text Detector

来自商汤科技, 论文目的是提出了一种文本检测方法.

摘要

场景文本检测, 最重要的一部就是把文本的位置区域拿到. 最近有一些方法采用了mask-rcnn类的方法,将文本检测当做是instance segmentation的任务, 取得了非常好的效果. (maskrcnn对文本区域分割, 可以回归出来不规则的文本区域框). 在这篇文章中, 我们提出了一种基于MaskRCNN的文本检测方法, 叫做 PMTD (金字塔掩码的文本检测器), 该方法回归文本区域的每一个像素点位置, 在定位的指导之下 (其实就是maskrcnn检测+实例分割的思路). 在生成文本框的阶段, 我们将拿到的2D mask在3D空间重构, 并且提出了一种全新的聚类算法在3D形状基础之上, 得到一个更加合理的2D检测框. 我们的方法在ICDAR2017 MLT数据集上, 得到了80.13%的准确率.

架构

总体来说, 这个方法似乎代表了文本检测的一个SOTA, 或者说是一个全新的方向, 在这个方向上似乎可以做很多东西.

59c975f9-f841-4ac1-b9a4-c484a312ecec-image.png

上图是PMTD的整体网络流程架构图. 从图中可以看出, 基本上还是MaskRCNN的套路, 在2D定位分支网络的指导下得到2D的mask, 然后将这个mask映射到3D空间, 通过聚类之后, 拿到一个合理的修正后的2D框.

这里笔者思考的是, 通过mask直接回归框, 可能回归不精准, 为什么呢? 因此mask最多你生成一个凸包 (convex hull), 这个在很多点云目标检测的回归里面经常用到, 但是这个凸包可能具有10多条边, 你想一下, 这样检测出来的文本区域是不太行的. 因为我们现实的文本通常是正正方方的.

这个3D空间的映射聚类, 恰恰就是本文的点睛之处, 因此本文的创新点不在于金字塔特征, 而是这个金字塔的3D聚类, 生成文本框:

cac30ae7-fb04-47fa-beb6-29dda9f2cdf6-image.png

结果

让我们来直接看看本文的效果:

4385be79-690a-4a18-8007-a406d45a7d8f-image.png

总的来说, 效果非常的remarkable, 这得以与MaskRCNN的架构, 可以看到对于较小的文本结果检测非常不错.

论文地址: https://arxiv.org/pdf/1903.11800.pdf
Github地址: 尚未发布

本文来自奇点AI社区, 论文速递, talk.strangeai.pro , 同时也欢迎大家关注我们的AI代码算法平台:manaai.cn