从“芝麻开门”说起 谈智能人机交互
“芝麻开门!”,轻巧的话语过后,重达万斤的石门徐徐升起,这样的场景是否曾让你讶异不已。人类从诞生的那一天起,就没有停止过用语言去征服和改造自然的梦想。随着科学技术不断发展,人类的这一梦想正在逐步实现。而“人机交互”正是实现这一梦想的关键技术。
所谓人机交互技术,是指通过计算机输入、输出设备,以有效的方式实现人与计算机对话的技术统称。大家所熟知的人机交互方式如:PC的键盘鼠标、扫描仪、打印机等等,而人类自然形成的沟通的认知习惯和形式,必定是这项技术未来的发展方向。微软亚洲研究院主办的2003年“21世纪的计算”大会上,李开复博士在演讲中说:“人类发明语言是希望通过语言来沟通,人们也希望让机器可以用同样的方法与自己沟通。”因此语音交互将会成为人机交互发展的主流趋势。研究者们也正在努力让未来的计算机能听、能看、能说、能感觉,使这项技术越来越智能化。
实际上这项研究也已经取得了一定的成效,如捷通华声公司在2007年,针对盲人、视力障碍人士以及老龄人士等弱视群体开发了一款“盲人手机导航(Sbikit)”应用,该应用支持使用者直接通过声音与手机进行交流,弱视人群可以通过“听”来获取外界信息,再通过“说”对手机进行指令操作。这项方案被列入美国高通“无线关爱(wireless reach)”计划,是一个比较典型的智能人机交互案例。可以说人机交互在逐步改善我们的生活,引领我们工作和生活的方向。
语音交互技术包含两项主要技术,语音识别和语音合成。
语音识别的研究工作可以追溯到20世纪50年代AT&T贝尔实验室的Audry系统,20世纪90年代前期,许多著名的大公司如IBM、苹果、AT&T和NTT都对语音识别系统的实用化研究投以巨资。目前,语音识别技术在身份确认上的应用已经达到99%的准确率,“芝麻开门”已经不仅仅停留在传说之中。
如果说语音识别让计算机长了一只听力惊人的“耳朵”,那么语音合成就是让计算机多出一张能说会道的“嘴”来。语音合成的核心是文语转换技术,经过200多年的研究和发展,这项技术现已十分成熟,能够使计算机的发声接近真人效果,而应用的市场也随着技术成熟逐步打开,语音合成已经不仅仅停留在研究阶段,它早已经迈出商品和实用化的一步,进入到了全面产业化的水平。
相信随着语音交互技术的发展,我们很快能够见到这样的场景,当我们要求“芝麻开门”的时候,会有一个亲切的声音问起:“请问您是想要开正门,还是想要开侧门……”不只是执行,还有交互,这就是智能人机交互技术的重要意义了。
智能人机交互技术有着广阔的应用前景,值得期待。