语音识别是以语音为研究对象,通过语音信号处理和模式识别让机器自动识别和理解人类口述的语言。语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。语音识别是一门涉及面很广的交叉学科,它与声学、语音学、语言学、信息理论、模式识别理论以及神经生物学等学科都有非常密切的关系。语音识别技术正逐步成为计算机信息处理技术中的关键技术,语音技术的应用已经成为一个具有竞争性的新兴高技术产业。
人机交互技术是安防机器人的技术热点之一。当前,人机交互主要体现在智能语音的交互上。
语音识别是以语音为研究对象,通过语音信号处理和模式识别让机器自动识别和理解人类口述的语言。语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。语音识别是一门涉及面很广的交叉学科,它与声学、语音学、语言学、信息理论、模式识别理论以及神经生物学等学科都有非常密切的关系。语音识别技术正逐步成为计算机信息处理技术中的关键技术,语音技术的应用已经成为一个具有竞争性的新兴高技术产业。
近两年,人工智能快速发展,语音识别开始成为很多设备的标配,以语音识别为技术基础的硬件设备成为新的风口,尤其是智能音箱的出现受到行业及消费者的普遍欢迎。国外微软、苹果、谷歌、nuance,国内的科大讯飞、思必驰等厂商都在研发语音识别新策略新算法,似乎人类与语音的自然交互渐行渐近。
智能语音识别一直是最头疼的问题。智能语音语义包含语音合成、语音识别和自然语言处理(NLP)三项主要技术。语音合成技术发展最早,基本没有太大技术问题;语音识别在2012年卷积神经网络(CNN)应用之后,准确率大幅提升,虽然效果和体验还不够理想,但也在C端、B端得到了广泛应用;NLP技术(词法分析、句法分析、语义分析)虽然在搜索引擎中早有应用,但在人机交互领域仍属于浅层处理。
这里有几个问题需要解决,首先是歧义消除,即机器在相关语境下是否能识别带多重含义的词语。比如灌水,既有往容器里注水的意思也有发表无意义帖子的意思。还有一个跟机器视觉类似的问题是,当机器前面多个人的时候(而这在社区显然是正常的情况),它是否依然能正常交流。这里有一个"鸡尾酒问题"亟待解决,"鸡尾酒会问题"显示了人类的一种听觉能力,能在多人场景的语音/噪声混合中,追踪并识别至少一个声音,在嘈杂环境下也不影响正常交流。
而从多模态交互的角度去看,如果在目前的智能语音技术上,再去扩展视频、图片、运动数据等素材非常困难,只能一对一单线操作,即语义处理语义,视频处理视频,如果要将其结合,现在还没有成熟的方案。