不需要鼠标、键盘,甚至接触,计算机会“看到”你想告诉它的一切—在微软的“未来科技”布局里,识别空中手书是一幕关于人机互动的奇幻片段。
在2054年的华盛顿,汤姆·克鲁斯饰演的安德顿戴着他有触点的手套,边打电话边用双手令人眼花缭乱地在透明显示器上操作程序和窗口,酷劲十足。即使不是科幻迷和游戏迷,也会有很多人憧憬电影《少数派报告》里科幻般的生活。
事实上,你很有可能比汤姆·克鲁斯更酷:当你在空中对着机器比划的时候,已经不再是“对牛弹琴”。微软亚洲研究院的识别空中手书技术使得计算机、智能家电、游戏机能够认识我们所比划的文字,识别内容包括了汉字、日文、韩文,数字和英文单字。就像“我来比划你来猜”游戏,不同的是,猜测我们比划内容的对方,现在变成了和人一样“聪明”的机器。识别空中手书技术,只需要一台普通的电脑、一个摄像头、一个游戏机手柄,就可以实现,脱离鼠标、键盘,甚至代替像iPhone那样触控技术的人机互动。
如果说键盘鼠标输入和手写触控分别代表人机交互的两个阶段,那么,识别空中手书可以说使这种交互进入了3.0时代。“对于这项基础的创新技术,想到在上面开发出的无数最具有想象力的应用就令人激动。这也是作为研究员最值得期待的时刻。没有人能预见,软件开发商和应用微软平台的开发人员会在识别空中手书技术上面开发怎样的应用。可以说,能想多远就有多远。”微软亚洲研究院语音组主任研究员霍强在说这些话的时候,识别空中手书项目的主要负责人马磊正在旁边拿着一颗橘子给记者演示微软的“软”字。
IT的太极之舞
让机器“懂得”人类的想法并“表达”出来,并不容易。传统的使用键盘输入和现在智能手机上流行的触控输入,把信息明确地“灌输”给计算机。然而,空中手写识别技术,更像是中国传统的太极拳法,动作不仅像太极拳一样行云流水,而且能够“手随心动”。
识别空中手书项目组设计了两种解决方案来做演示:最廉价的方式是使用一个网络摄像头来观察用户手的运动;或者使用一种带有被称作“陀螺仪”和“加速度仪”的传感器的设备来捕捉用户手的运动。当用户手的运动被捕捉到之后,对其进行补偿,增强后,手写识别模块就能认出用户在空中写的文字。
“机器从捕捉、映射、识别到显示,整个过程涉及两方面的技术。一是动态运动物体捕捉;二是手写识别。”马磊向记者介绍道。选择一个能够与周围环境的颜色区分开来的物体,放在视频捕捉框的中心位置,按动游戏手柄的按钮开始准备书写。在这个对运动物体的捕捉过程中,就要教会计算机该捕捉的目标物体,计算机知道了所选择的运动目标,周围环境里其他物体的运动就不会产生干扰。
目标物体在空中运动的过程中,产生了一个三维的图像轨迹,映射到二维的摄像机里的是一个平面化的轨迹图形,这个平面化的运动轨迹要求对模糊、抖动都能很好的处理。而当计算机获得了清晰的运动轨迹后,后台的手写识别就可以进行分析,从而得到用户想要书写的文字。“这个看似简单的图像分析和文字识别在相应的领域里都做了几十年,绝对可以称得上是高科技。”霍强对记者说,“比如数字3,会有像‘了’等相近的文字,这无疑增加了识别的难度。”最后的识别结果综合了机器对书写动作和图像结果的分析,“形状信息很重要,首先要像;另一方面,动态信息也是个很重要的参考。”
马磊对记者表示,空中手写识别与在手写板书写不同在于,手写板一笔一划,折点尖锐。而空中写字需要一笔完成,没有虚实的概念,不会提笔。在空中书写的过程中,“类似于中国的太极,相对圆滑,行云流水。在速度变成零的时候不可能出现相应的折点,需要对这种字体情况进行特殊处理。”
交互的未来
盖茨曾说
相关专题:
