本文共 1000 字,大约阅读时间需要 3 分钟。
互联网世界中,图片是传递信息的重要媒介。特别是电子商务、社交、搜索等领域,每天都有数以亿兆级别的图像在流动传播。基于深度学习的图片文字识别(OCR)技术正飞速发展,并深刻影响着信息的交互和传递方式,乃至改变相关行业的生产方式。而在学术领域,图片中的文字识别(OCR)同样也是研究重点,但目前业内依旧缺少基于网络图片的、以中文为主的OCR数据集。
近期,由阿里巴巴“图像和美”团队联合华南理工大学共同举办ICPR MTWI(Multi-Type Web Image)2018 挑战赛正式开启,并开放业内第一个基于网络图片的中英混合数据集——MTWI数据集。大赛聚焦OCR领域相关实用知识点的突破与解决,旨在与全球AI科研人才一起共同推动OCR在工业界的应用和发展。
本次大赛发布的MTWI数据集来源于真实网络场景,以“来源于实践,且高于实践”为构建理念,既考虑到学术价值同时也兼顾工业适用性。
不同于纯文档图片和场景文字图片,MTWI数据集中的图片多为作者设计或者二次加工所得。整体上看,这类图片不仅包含部分场景图片和文档图片,更多的是在这些图片基础上添加设计好的文字而成的新图片。
左一:空心字,切断字,中英混排 /左二:封面印刷文字,离散单字,重叠字/左三:实拍,自然场景,艺术文字/左四:大字中镶嵌小字,不同字号混排
从数据场景上看,本数据集涵盖了数码合成、物体表面、封面类印刷的中英文以及少量日文、韩文等类型的文字。而从文字版式上来看,包含了各种字体类型的单字、横排、竖排、倾斜排列、曲线排列、复杂混排(不同字号、不同字体、不同字间距的混合排布)等。
因此,本次大赛发布的数据集既有图片文字识别的共性也有本身的特性,突出覆盖前沿技术尚未解决或者遗漏的样例,并基于OCR领域乃至计算机视觉领域的前沿指标,设置文本检测,文本行识别,端到端的整图文字识别三个层次的赛题,对相关技术点的解决以及在工业领域的信息数字化应用将具有直接的推动作用。
本次ICPR MTWI 2018 挑战赛基于天池数据众智平台,目前已开启报名通道,吸引了来自国内外2000余支队伍报名参赛,其中不乏OCR研究领域的知名院校团队。赛事组委会将在2018年6月1日评出获奖名单,并于ICPR2018大会期间在北京进行颁奖。
转载地址:http://xvqbx.baihongyu.com/