智能家居的愿景很好,但目前的体验确实还有很大的提升空间。关于手机作为智能家居的唯一入口的问题,艾拉物联的联合创始人、大中华区总裁Phillip张南雄就表示:“手机可能不是智能家居甚至物联网的唯一入口,语音识别是一个很大的入口。”美的智慧总经理李强也表示,手机作为智能家居唯一入口的局面将被改变。
语音识别技术并不是一项新兴的技术,并且技术门槛也不算太高。在需求巨大的
智能家居市场语音识别能否代替智能手机成为另一大入口?全球范围内哪些厂商在布局语音识别技术,语音是识别的技术原理和难点又在哪?
物联网市场潜力巨大应用众多,在繁多的应用中智能家居或许能优先落地。不过,除了物联网标准和观念阻碍智能家居的发展,手机作为目前首要的入口也大大影响了体验。语音识别并不是一项新兴的技术,但在智能家居甚至人工智能领域或许能大展身手。
物联网与智能家居市场潜力可期
市场研究咨询公司Gartner预测,2020年全球物联网终端设备的出货量将达到66亿,而物联网设备数量总数将达到208亿,花费在物联网上的总支出将达到约2420亿美元。
Gartner同时预测,2017年以后智能家居将成为物联网最大的用户。有机构预测2016年中国智能家居市场规模增速将达到50.1% ,并保持这一增速,到2018年中国智能家居市场规模将达到1396亿元,市场规模约占全球总规模的32%,2020年中国智能家居市场规模将达到3000多亿元。全球TOP100电信运营商中已有60%计划进军智能家居市场更让我们有理由相信智能家居将会成为最先落地的物联网应用。
语音识别技术智能家居的另一大入口
智能家居入口单一
无论是在正式还是非正式场合,谈起智能家居总能听到手机作为唯一入口的抱怨。举个简单的例子,当你安装了智能灯具,但你想要打开或调整还要先找到手机打开APP。这时候可能很多人会选择直接用开关解决问题而非使用手机。
智能家居的愿景很好,但目前的体验确实还有很大的提升空间。关于手机作为智能家居的唯一入口的问题,艾拉物联的联合创始人、大中华区总裁Phillip张南雄就表示:“手机可能不是智能家居甚至物联网的唯一入口,语音识别是一个很大的入口。”美的智慧总经理李强也表示,手机作为智能家居唯一入口的局面将被改变。
语音识别成为争夺焦点
据悉,全球范围人工智能公司多专攻深度学习方向,而我国人工智能方向的200家左右的创业公司有超过70%的公司主攻图像或语音识别这两个分类。全球都有哪些公司在布局语音识别?他们的发展情况又如何?
其实,早在计算机发明之前,自动语音识别的设想就已经被提上了议事日程,早期的声码器可被视作语音识别及合成的雏形。最早的基于电子计算机的语音识别系统是由AT&T贝尔实验室开发的Audrey语音识别系统,它能够识别10个英文数字。到1950年代末,伦敦学院(Colledge of London)的Denes已经将语法概率加入语音识别中。
1960年代,人工神经网络被引入了语音识别。这一时代的两大突破是线性预测编码Linear Predictive Coding (LPC),及动态时间规整Dynamic Time Warp技术。语音识别技术最重大的突破是隐含马尔科夫模型Hidden Markov Model的应用。从Baum提出相关数学推理,经过Rabiner等人的研究,卡内基梅隆大学的李开复最终实现了第一个基于隐马尔科夫模型的大词汇量语音识别系统Sphinx。
语音识别技术厂商
苹果Siri
许多人认识语音识别可能还得归功于苹果鼎鼎大名的语音助手Siri。2011年苹果将语音识别技术融入到iPhone 4S中并发布了Siri语音助理,不过Siri并不是苹果研发的技术,而是收购成立于2007年的Siri Inc.这家公司获得的技术。在iPhone4s发布以后,Siri的体验并不理想,遭到了吐槽。因此,2013年苹果又收购了Novauris Technologies。Novauris是一种可识别整个短语的语音识别技术,这种技术并非简单识别单个词句,而是试图利用超过2.45亿个短语的识别辅助理解上下文,这让Siri的功能进一步完善。
不过Siri并没有因为收购Novauris变得完美,2016年苹果又收购了开发的人工智能软件,能够帮助计算机与用户进行更为自然的对话英国语音技术初创公司VocalIQ。随后,苹果还收购了美国圣地牙哥 AI 技术公司 Emotient,接收其脸部表情分析与情绪辨别技术。据悉,Emotient开发的情绪引擎可读取人们的面部表情并且预测其情绪状态。
谷歌 Google Now
与苹果Siri类似,谷歌的Google Now知名度也比较高。不过相比苹果谷歌在语音识别领域的动作稍显迟缓。2011年谷歌才出手收购语音通信公司SayNow和语音合成公司Phonetic Arts。SayNow可以把语音通信、点对点对话、以及群组通话和Facebook、Twitter、MySpace、Android和 iPhone等等应用等整合在一起,而Phonetic Arts可以把录制的语音对话转化成语音库,然后把这些声音结合到一起,从而生成听上去非常逼真的人声对话。
2012年的Google I/O开发者大会上,Google Now第一次亮相。
2013年谷歌又以超过3000万美元收购了新闻阅读应用开发商Wavii。Wavii擅长“自然语言处理”技术,可以通过扫描互联网发现新闻,并直接给出一句话摘要及链接。之后,谷歌又收购了SR Tech Group 的多项语音识别相关的专利,这些技术和专利谷歌也很快应用到市场,比如YouTube已提供标题自动语音转录支持,Google Glass使用了语音控制技术,Android也整合了语音识别技术等等,Google Now更是拥有了完整的语音识别引擎。
谷歌可能出于战略布局方面的考虑,2015年入资了中国的出门问问,这是一款以语音导航为主的公司,最近也发布了智能手表,出门问问也有国内著名声学器件厂商歌尔声学的背景。
微软 Cortana 小冰
微软语音识别最吸引眼球的就是Cortana和小冰。Cortana是微软在机器学习和人工智能领域方面的尝试,Cortana可以记录用户的行为和使用习惯,利用云计算、搜索引擎和“非结构化数据”分析,读取和学习包括手机中的图片、视频、电子邮件等数据理解用户的语义和语境,从而实现人机交互。
微软小冰是微软亚洲研究院2014年发布的人工智能机器人,微软小冰除了智能对话之外,还兼具群提醒、百科、天气、星座、笑话、交通指南、餐饮点评等实用技能。
除了Cortana和微软小冰,Skype Translator,可以为英语、西班牙语、汉语、意大利语用户提供实时翻译服务。
亚马逊
Amazon的语音技术起步于2011年收购语音识别公司Yap,Yap成立于2006年,主要提供语音转换文本的服务。2012年Amazon又收购了语音技术公司Evi,继续加强语音识别在商品搜索方面的应用, Evi也曾经应用过Nuance的语音识别技术。2013年,Amazon继续收购Ivona Software,Ivona是一家波兰公司,主要做文本语音转换,其技术已被应用在Kindle Fire的文本至语音转换功能、语音命令和Explore by Touch应用之中,Amazon智能音箱Echo也是利用了这项技术。
Facebook
Facebook在2013年收购了创业型语音识别公司Mobile Technologies,其产品Jibbigo允许用户在25种语言中进行选择,使用其中一种语言进行语音片段录制或文本输入,然后将翻译显示在屏幕上,同时根据选择的语言大声朗读出来。这一技术使得 Jibbigo成为出国旅游的常用工具,很好地代替了常用语手册。
之后,Facebook继续收购了语音交互解决方案服务商Wit.ai。Wit.ai的解决方案允许用户直接通过语音来控制移动应用程序、穿戴设备和机器人,以及几乎任何智能设备。Facebook的希望将这种技术应用到定向广告之中,将技术和自己的商业模式紧密结合在一起。
国内语音识别厂商
科大讯飞
科大讯飞成立于1999年底,依靠中科大的语音处理技术以及国家的大力扶持,很快就走上了正轨。科大讯飞2008年挂牌上市,目前市值接近500亿,根据2014年语音产业联盟的数据调查显示,科大讯飞占据了超过60%的市场份额,绝对是语音技术的国内龙头企业。
提到科大讯飞,大家可能想到的都是语音识别,但其实它最大的收益来源是教育,特别是在2013年左右,收购了很多家语音评测公司,包括启明科技等,对教育市场形成了垄断,经过一系列的收购后,目前所有省份的口语评测用的都是科大讯飞的引擎,由于其占据了考试的制高点,所有的学校及家长都愿意为其买单。
百度语音
百度语音很早就被确立为战略方向,2010年与中科院声学所合作研发语音识别技术,但是市场发展相对缓慢。直到2014年,百度重新梳理了战略,请来了人工智能领域的泰斗级大师吴恩达,正式组建了语音团队,专门研究语音相关技术,由于有百度强大的资金支持,到目前为止收获颇丰,斩获了近13%的市场份额,其技术实力已经可以和拥有十多年技术与经验积累的科大讯飞相提并论。
捷通和信利
捷通华声凭借的是清华技术,成立初期力邀中科院声学所的吕士楠老先生加入,奠定了语音合成的基础。中科信利则完全依托于中科院声学所,其成立初期技术实力极为雄厚,不仅为国内语音识别行业培养了大量人才,而且也在行业领域,特别是军工领域发挥着至关重要的作用。
中科院声学所培养的这些人才,对于国内语音识别行业的发展极为重要,姑且称之为声学系,但是相对于市场来说,这两家公司已经落后了科大讯飞一大段距离。中科信利由于还有行业市场背景,目前基本上不再参与市场运作,而捷通华声最近也因为南大电子“娇娇”机器人的造假事件被推上了风口浪尖,着实是一个非常负面的影响。
思必驰
2009年前后,DNN被用于语音识别领域,语音识别率得到大幅提升,识别率突破90%,达到商用标准,这极大的推动了语音识别领域的发展,这几年内又先后成立许多语音识别相关的创业公司。
思必驰2007年成立,创始人大部分来源于剑桥团队,其技术有一定的国外基础,当时公司主要侧重于语音评测,也就是教育,但经过多年的发展,虽然占有了一些市场,但在科大讯飞把持着考试制高点的情况下,也很难得到突破。
于是在2014年的时候,思必驰痛下决心将负责教育行业的部门剥离,以9000万卖给了网龙,自己则把精力收缩专注智能硬件和移动互联网,最近更是集中精力聚焦车载语音助手,推出了“萝卜”,可市场反响非常一般。
云知声
借着2011年苹果Siri的宣传势头,2012年云知声成立。云知声团队主要来源于盛大研究院,凑巧的是CEO和CTO也是中科大毕业,与科大讯飞可以说是师兄弟。但语音识别技术则更多的源于中科院自动化所,其语音识别技术有一定的独到之处,有一小段时期内语音识别率甚至超越科大讯飞。因此也受到了资本的热捧,B轮融资达到3亿,主要瞄准智能家居市场。但至今已经成立了3年多,听到的更多是宣传,市场发展较为缓慢,B2B市场始终不见起色,B2C市场也很少听到实际应用,估计目前还处在烧钱阶段。
出门问问
出门问问成立于2012年,其CEO曾经在谷歌工作,在拿到红杉资本和真格基金的天使投资之后,从谷歌辞职创办了上海羽扇智信息科技有限公司,并立志打造下一代移动语音搜索产品——“出门问问”。
出门问问的成功之处便是苹果APP的榜单排名,但是笔者不知道有那么多内置地图的情况下,为啥还要下载这个软件,显然有时候比直接查找地图还要麻烦。出门问问同样也具有较强的融资能力,2015年拿到了Google的C轮融资,融资额累计已经7500万美元。出门问问主要瞄准可穿戴市场,最近自己也推出了智能手表等产品,但也是雷声大,雨点小,没见得其智能手表的销量如何。