国际模式识别大会(International Conference on Pattern Recognition, ICPR)起始于1972年,是国际模式识别联合会(The International Association for Pattern Recognition, IAPR)组织的模式识别领域的旗舰级学术会议,今年是ICPR创办40余年来第一次走进中国内地。
科大讯飞深耕智能语音与人工智能技术研究和发展已有十九年,在语音合成、语音识别、口语评测、语言翻译、声纹识别、人脸识别、自然语言处理等智能语音与人工智能核心技术上代表国际最高水平。此次,科大讯飞包揽ICPR 2018 MTWI三项冠军,证明科大讯飞不仅在智能语音上国际领先,在计算机视觉领域也具有雄厚实力。
关于ICPR 2018 MTWI
本次MTWI(Multi-Type Web Images,多样式网络图像)识别挑战赛由模式识别领域的国际盛会ICPR举办,吸引了三星中国研究院、商汤科技、网易、清华大学、北京大学、中科院等众多产业界和学术界的著名研究机构参与。
此次比赛共分为三个子任务:
任务一(文本行识别)要求参赛者识别出给定的文本行图像中的文字;
任务二(文本检测)要求参赛者在给定的网络图像中检测出文本行所在的位置;
任务三(端到端文本检测和识别)则需要同时对文本行进行检测并识别。
MTWI挑战赛使用的数据集是由阿里巴巴收集和标注的淘宝商品类图像,其中训练集和测试集各有一万张图像,每支参赛队伍有三次机会提交测试集的测试结果,由比赛举办方评测得分,并按照每支队伍的最优成绩排名。
数据集示例
用新的算法应对新的难题
作为亚太地区最大的智能语音与人工智能上市公司,科大讯飞不仅在智能语音、自然语言处理等领域硕果累累,也在图文识别领域深耕多年,并成功将文字文档识别技术应用在移动终端输入法、教育考试、司法辅助等领域。为了在其他场景中验证图文识别技术的有效性和领先性,科大讯飞与NELSLIP(National Engineering Laboratory for Speech and Language Information Processing,中科大语音及语言国家工程实验室)的杜俊教授、戴礼荣教授团队联合参加了此次场景更为复杂多变的MTWI识别挑战赛。
科大讯飞在图文识别领域的多年经验主要集中在教育、司法、输入法等场景下,已形成一套完备的基于深度神经网络模型的文档图像分析识别的系统。然而,与这些应用场景不同,网络图像识别的主要难点在于其字体变化多样、存在几个到几百像素字号、多种版式,并且还包含较多干扰背景。另外,在本次比赛中,相较于英文和其他字符,结构更复杂的汉字占很大比例,且统计发现在训练集中有75%的汉字出现不到50次,这无疑给识别和检测都带来了很大的困难。
针对上述现象,在识别任务中,科大讯飞与NELSLIP联合团队基于Encoder-Decoder思想,提出了一种新的结构分析算法,该算法将中文拆成多个部件、英文单词拆成单个字符后借助Attention进行识别,在准确识别出多个部件后再利用动态规划策略进行重组,从而得到最终的输出结果,这种依赖分析结构的方法,可以有效地解决字体多样、结构复杂带来的识别率低下的问题。除此之外,还使得模型具备了识别低频词和集外词的能力。在检测任务中,为了解决文字尺度变化大、文本行朝向不一致的问题,科大讯飞与NELSLIP联合团队对输入图像构建空间金字塔,在各个尺度上预测各种朝向文本行所在的任意四边形的顶点,从而完成文本行的准确定位。
技术早已应用在现实
在手写识别应用方向,科大讯飞AI研究院图文识别团队具有行业内领先的在线和离线手写识别系统,可以进行中文、英文、数学公式等多种应用场景下的在线和离线文字字符识别,相关的技术已经成功在讯飞输入法、教育评测、智能辅助评卷等应用场景获得实用;面向公检法等应用场景的文档图像分析与识别系统,目前也已经在自动编目、辅助判案等场景、智慧城市中的文档信息结构化处理等应用场景获得实用。
在科大讯飞的讯飞语记、讯飞阅读、讯飞有声等app中,也有图文识别系统的应用。日常的工作学习中,纸质文献、PDF、老师板书等再也不需要拍下来再逐字敲进文档,比如用讯飞语记就可以将图片中的文字直接转成可编辑的文本,大大提高工作学习效率。
计算机视觉的发展,特别是文档图像的分析与识别应用,和智能语音、智能交互、数据信息分析等多方面的综合应用一样具有十分广阔的前景。未来,相信科大讯飞能够通过的“平台+赛道”的AI落地战略,通过讯飞开放平台,将各项AI能力更好地为改变信息的交流以及互联互通,创造更大价值。
优装机下载站(https://www.uzhuangji.net/)版权所有:豫ICP备2024099284号-1
本站资源均收集整理于互联网,其著作权归原作者所有,如果有侵犯您权利的资源,请来信告知,我们将及时撤销相应资源。