有了语音识别软件,你的声音就是计算机的指令。W. Wayt Gibbs
上个月,我在我的鼠标上安装了一个计程器。事实上,它不是一个鼠标;我在一年前就改用轨迹球了,因为我用鼠标那只手的小手指开始酸痛,疼得几乎不能弯曲。我安装的也不是一个真正的计程器,而是一个免费程序(可在网站www.modometer.com上下载),它可以跟踪光标的移动、按键点击与敲击键盘。检查结果的时候,我大吃一惊。5天之内,我的指尖让那要命的小箭头在屏幕上“跑”744米,而我的拇指竟然点击了21719次鼠标。难怪这种痛楚蔓延到了手的其它部位。
我知道这样下去会发生什么。我妻子因为大量用计算机工作,已出现“重复使力伤害”(RSI)症状。损伤持续6个月,后来她连拿一本杂志都疼得直哆嗦。在完全恢复使用前臂以前,有3个月的时间,她每晚冰敷、物理治疗、戴护腕睡觉,用一个叫做3M文艺复兴鼠标(3MRenaissancemouse)的古怪的类似摇杆形状的指针器,才慢慢恢复整只手臂的功能。我可不想步她的后尘。是试用一种新方法控制我的PC机的时候了:用语音。
我很好奇,试着对这种特殊的富于挑战性程序的目前状态作了一下评估。我第一次尝试用语音控制是在10年前,当时苹果电脑的Macintosh操作系统内加入了此功能。那时的软件只能识别几十个语音指令,而且执行起来非常慢,顶多只能当成玩具。不过,那时美国国防高级研究计划局(DARRA)开始每年投下几百万美元,研究自动语言转换,这个领域就开始起飞了。错误率每年下降10%-15%。到1996年,龙系统公司(Dragon Systems)的Naturally Speaking package(自然语音)软件包在高端PC机上运行,听写的效果跟个睡眠不足的大学生差不多。除了文字输入外,它几乎做不了任何事。
自从有了最新版的Naturally Speaking和它的主要竞争对手一IMB的ViaVoice后,这种情况发生了改变。两者都优化了听写功能,而且现在还让你不必动手指,就可以选择菜单选项、按下按钮、看电子邮件、浏览网页,甚至让光标在屏幕上四处游走。
我选择试用ViaVoice有3个理由。ViaVoice Pro USB第9版本的价格是219美元,还不到Naturally Speaking专业版第6版的1/3。两套软件都附有头戴式麦克风,但ViaVoice Pro有一个内置常规信号处理芯片捆绑在一起销售,可以过滤掉干扰计算机的背景噪音。
而且,我对于Naturally Speaking的未来不由得有些担忧。龙系统公司已被Lemout & Hauspie买下,而L&H去年爆出财务丑闻。尽管公司的语音产品已于2001年l2月卖给了ScanSoft公司,但这家较小的公司似乎不太可能赶上IBM巨大的研发能力。
事实上,IBM在今年3月份宣布,它将增加开发语音技术的研究人员。它的雄心和长达10年的目标,是建立一些系统,让计算机能在嘈杂的房间里辨认以前未接触过的人声,并可靠地转录(或执行)这些一般性谈话内容。在IBM研究部门管理这支团队的David Nahamoo说:“我们现在有l00多名语音技术方面的研究人员,还有大约同样多的人员,正在研究自然语言理解。”
不管怎样,我们一直期待着能听话的计算机,听得懂人说话。在电影或在电视上,我们无数次看到如何对机器说话。Picard舰长对着屏幕说:“计算机,打开一条通往Nechayev上将的安全通道,”宇航员Dave对HAL9000恳求道:“请打开外舱门”。我们下命令,计算机就会执行。如果计算机失灵,它们会彬彬有礼地说:“Dave,很抱歉,我恐怕无法照办。”
其实ViaVoice是听不懂英语的。它使用一种所谓的“不要求上下文的语法”。实际上,它听一系列的词组,再加上结合词组的一些基本规则,这就让它能假装理解。
我在办公室的计算机上安装了ViaVoice,然后训练这个软件识别我的讲话方式。如果我说:“查看我的信件”,这个软件就激活我的电子邮件程序,即微软的Outlook工具。ViaVoice已设计成可与Outlook以及微软Office软件包的其它程序一起使用。所以我还可以说“检查电子邮件”或“查看电子邮件”,甚至说:“给John Rennie发送电子邮件”或是给每一个在我通讯簿上的人发信。VlaVolce能识别大量的同义词,因而在使用Outlook时,它似乎真有智能似的。
然而,如果你试着要用这种轻松自在的方式对其它程序讲话,那你恐怕要大失所望了。我说:“打开‘我的文档’文件夹,”——这是我第3次尝试用不同的方法要ViaVoice让窗口打开储存我所有工作内容的文件夹。对于前2次尝试,ViaVoice不闻不问。而这一次它按照它认为我所说的内容:“打开新的文件与它的修改来行动,”然后它试图执行这个令人困惑的指令。很显然,ViaVoice为窗口文件管理编入的短语没有像给Outlook编的那么多的词组。
但是,在我打开的其它每一个应用程序中,ViaVoice都能正确响应菜单各选项的名称以及对话框中的按键标签(对话框就是会蹦出来显示错误信息或问你问题的那些讨厌的灰色长方块)。一旦我学会了用ViaVoice期望的方式,准确地发出指令,我就能让窗口上下滚动、改变窗口大小、打开或关闭程序,并且不用去碰跟踪球就可以在不同任务之间切换。声音控制对于网上冲浪尤其有用;把一个链接的开始几个单词读出来,然后那个页面就打开了。说出任何加入“书签”的网站的名称,它就会出现。说“显示指令”,ViaVoice就会在当前页上的每一个图形超链接上标出数字,而你只用说出正确的数字,就能“点击”图像与单词。
无论我说话多轻或多快,ViaVoice很快就能非常敏捷地理解我的指令。如果说有什么不同的话,就是当我把字句连着说时,它的准确率会更高。使用这套软件1星期以后,我看了一下鼠标计程器,它显示477米。甚至在我攀登学习高峰的时候,ViaVoice也减少了我使用鼠标的动作:写电子邮件时少了约1/3,在文档管理上少了一半多,而在浏览网页上少了2/3。我的前臂不再酸痛,而我的手也感觉好多了。尽管语音控制仍有许多缺憾和不成熟,但好处已经超过它带来的麻烦和费用。我想我也会在家里装这个软件,它可以储存多种语音模式,那么,我和我妻子都可以一边对着PC机轻声低语,一边满足地揉搓着双手。
[肖莉/译李爱瑁/校]
对着计算机轻声低语,就像我们常做的那样,而它很可能对你不理不睬。但装上一个新版的语音控制软件后.Pc机就会听从你的语音指令了。
请 登录 发表评论