美国当地时间9月13日,国际多通道语音分离和识别大赛(CHiME)组委会宣布,由科大讯飞领衔的中国技术团队包揽了赛事全部三个项目的冠军。
据悉,CHiME比赛重点解决的是真实、复杂场景下的语音识别,因此是语音识别领域最高难度的比赛之一。参赛的各个语音系统需要克服高噪声、混响等干扰,在咖啡厅、公交车、街道等日常生活场景中,准确地识别和处理英文语音。
团队负责人、科大讯飞研究院副院长刘聪介绍说,科大讯飞语音系统在六麦克风、双麦克风和单麦克风场景这三个项目中表现优异,并大幅刷新了各项目的纪录。比如,在六麦克风场景下,系统的词错误率降至2.24%,相比历史成绩,错误率下降了逾六成。
参赛系统凝聚了科大讯飞研究院、中国科学技术大学杜俊教授团队、西北工业大学陈景东教授、佐治亚理工学院李锦辉教授等国内外知名专家的合作成果。大赛组委会认为,在复杂场景语音识别任务上,“该系统已经给出了接近完美的解决方案”。
刘聪认为,更具抗噪性、实用性的语音识别技术,对于促进中国制造业的转型升级,价值巨大。“这意味着,我们可以把语音识别拓展到更多生活场景中去,而不受限于室内、会场或语音通话等安静环境,从而真正让语音取代电子屏幕,成为‘万物互联’的入口。”
在刚刚发布的苹果iPhone7上,其人工智能“大脑”以及智能家居平台“HomeKit”引发业界关注。今年6月,苹果宣布向第三方开发者开放语音接口,被视为向人工智能语音路径迈进的又一步。谷歌、微软、Nuance等科技企业也在智能语音领域动作频频。
语音作为最自然的人机交互方式,随着人工智能的发展,将在未来发挥巨大的作用。中国的智能语音技术应如何应对全球竞争?
刘聪认为,不管中文还是英文,在语音技术上是相通的。“在一个英语语音识别系统的高难度比赛中夺冠,说明我们在核心算法上是领先的。”但他也指出,抛开技术,在业务和产品层面,微软、谷歌、苹果等“巨头”拥有各自不同的数据优势,可能会产生更好的用户体验。这是中国智能语音产业亟待补齐的短板。
CHiME比赛始于2011年,今年由谷歌公司承办。它由法国计算机科学与自动化研究所、英国谢菲尔德大学、美国三菱电子研究实验室等知名研究机构所发起,旨在使学术界和工业界提出全新的语音识别解决方案,以进一步提升语音识别的实用性和普适性。
微信扫描二维码,关注公众号。