按照大类来分,大家有推荐的可以在我们下面评论,我们将添加到正文中来,这样大家可以快速的阅览并找到自己想要的数据集。29990af840bc475ba3b022c001aa4dbb

文本识别方向

  • MSRA Text:
    数据集包含的信息标注为:
    cb1a7448-bd3a-4890-ba0e-1cb6a93e1197-image.png
    这个数据集中英文都有标注,但是貌似数量比较少,只有大约500张左右的图片。

  • ICDAR2017场景文字识别
    这是一个国际文档识别会议,里面包含了各种不同子任务的文档识别数据。
    e7e7333f-296f-4ede-9147-a4a0776656ea-image.png
    数据集地址为:https://rrc.cvc.uab.es/?ch=4&com=tasks

  • ICDA 2015
    这里和上面差不多,现在很多开源算法基于ICDA2015,所以这里就用百度云来做一个镜像:
    链接: https://pan.baidu.com/s/1Bp6Lgs38djXCAb_S62S-Qg 提取码: gdqc 复制这段内容后打开百度网盘手机App,操作更方便哦

语音方向

开源说中文的非常少了,英文的蛮多,这里贴一些中文的。其实包含语音识别和语音的合成。