分享一些中文OCR的数据集,其中包括单字、链接文本、屏幕截图、书本文字、低亮度、街景文本等很多场景形式的数据。方便大家使用不同的数据集进行索引。
-
http://www.robots.ox.ac.uk/~vgg/data/scenetext/
这是一个算法,可以生成包含文本的图片 -
https://github.com/wang-tf/Chinese_OCR_synthetic_data
文本图片合成的中文版本 -
http://www.robots.ox.ac.uk/~vgg/data/text/
合成之后的英文和中文文本数据集
未完待续