海康威视基于深度学习“文字识别技术”国际竞赛斩获第一-企业新闻-中国安全防范产品行业协会

海康威视基于深度学习“文字识别技术”国际竞赛斩获第一

2017/3/30 09:24 海康威视 关键字：识别,海康威视,文字,技术,竞赛,第一浏览量： 5351

海康威视的OCR技术，克服种种困难，在三项文字识别任务中均取得了世界第一，分别在WebandEmailBorn-DigitalImages任务中以5.6%的优势超越第二名，在FocusedSceneText和IncidentalSceneText任务中超越第二名3.4%和3.1%。

　　近日，海康威视研究院预研团队基于深度学习技术研发的OCR（OpticalCharacterRecognition，图像中文字识别）技术，刷新了ICDARRobustReading竞赛数据集的全球最好成绩，并在“互联网图像文字”、“对焦自然场景文字”和“随拍自然场景文字”三项挑战的文字识别（WordRecognition）任务中，大幅超越国内外强劲参赛团队，标志着海康威视的文字识别技术达到国际领先水平。

　　ICDAR（InternationalConferenceonDocumentAnalysisandRecognition）全称为文档分析与识别国际会议，由国际模式识别协会(IAPR)主办。它组织的文档分析与识别竞赛是当前OCR技术领域全球最具影响力的比赛，从2003年至今已举办5届。其中2015竞赛两年来，已吸引了来自82个国家的2367支队伍参加，其中包括Google、微软、百度、三星、旷视等团队，竞赛中涌现的许多方法都对文字识别技术的发展起到了强大的推动作用。

　　图1：RobustReading竞赛的三项主要任务

　　这些任务中待识别的文字位于复杂图像背景中，成像存在噪声、模糊、透视、倾斜以及排列随意等不利因素，甚至字体格式种类繁多。海康威视的OCR技术，克服种种困难，在三项文字识别任务中均取得了世界第一，分别在WebandEmailBorn-DigitalImages任务中以5.6%的优势超越第二名，在FocusedSceneText和IncidentalSceneText任务中超越第二名3.4%和3.1%。

　　图3：FocusedSceneText识别评测结果显示HIK_OCR排名第一

　　图4：IncidentalSceneText识别评测结果显示HIK_OCR排名第一

　　近年来文字识别技术的突破，很大程度上依赖于深度学习的发展。海康威视预研团队设计了一个数十层的卷积神经网络来完成图像的信息编码，然后使用启发式的注意力模型，实现从特征到文字的解码。其中，专为文本识别设计的启发式机制，能够对注意力模型提取的特征进行合理性评估，使注意力模型在复杂场景中，具有强大的稳定性。