对机器说话
撰文 戴维·波格(David Pogue)
翻译 詹浩
在过去两年里,语音识别软件已悄悄地成长起来,延伸到我们生活的每个角落:它安装在客服热线和机票预订系统的人机交互端口设备中;扎根于微软视窗(Microsoft Windows)操作系统之中;它是iPhone和Android之类触摸屏手机的一种替代文本输入的方法。但是我们还得面对这样的现实:大多数使用这种软件的用户都宁肯自己不必用它。
这是因为语音识别通常只是B计划:它是替代打字或人类实际交谈的最糟糕方法。一些公司之所以将它用在电话系统中,是因为它的成本低于雇佣真人。许多向电脑输入指令的人之所以使用语音识别软件,是因为他们必须这样做。语音识别之所以在触摸屏手机上崭露头角,则是因为在屏幕键盘上打字又慢又麻烦。
那么怎样才能让语音识别更上一层楼,而不仅仅是一种变通方法(B计划)呢?我们离《星际旅行》中从不出错的会话计算机还有多远?
好啦,现在我们正在接近这一目标。经过十年的收购、兼并和挪用公款丑闻之后,主要的语音识别公司现在只剩一家:Nuance通信公司。该公司仅销售唯一一款商用语音识别软件,供Windows、Macintosh和iPhone使用。该软件也为奥迪、宝马、福特、奔驰汽车,还有摩托罗拉、诺基亚、三星、Verizon公司和T-Mobile公司的移动手机提供语音控制系统。用它能玩转声控玩具、GPS单元和自动取款机,并可接听AT&T公司、美国银行、CVS和许多其他银行的电话。
Nuance通信公司每年都会推出一个新的用户语音识别程序版本,例如它所推出的Dragon Naturally Speaking。通常情况下该公司不会为新版本添加很多新功能。相反,它将大部分资源集中用于一个目标:提高精确度。
最初,你必须对着话筒阅读45分钟的脚本来训练这些程序,让程序能识别你的声音。多年来随着技术的改善,训练时间不断减少,逐步降到20分钟,10分钟,5分钟——而现在你已经完全不用对该软件进行训练。一旦发出指令,便能得到(由笔者测试)99.9%的精确度。按照这种精确度,每读两页文字还是会错一个单词,但这已经让人印象深刻了。
语音工程师使用各种方法来提升精确度。最早的语音识别程序要求你说话时两个单词之间要暂停一下;那种软件根本无法区分“their”与“there”和“they’re”。但假以时日,更强大的PC处理器将会使连续语音分析成为可能。现在的语音识别软件已能开始鼓励你用较长的句子说话,这样,软件就会有更多上下文用来进行分析,以提高精确度。
提高语音识别精确度还有另一种技巧:去年Nuance公司为iPhone提供了一款免费语音识别应用程序,名为Dragon Dictation。你说的话被传送到该公司的服务器,在那里进行分析之后,几秒钟之内就会转换成文本并返回到你的手机屏幕上。
不过,没人知道该公司已储存了所有这些语音样本,有数百万份,这样一来便创建出一个包括有不同声音、年龄、语调的抑扬变化和口音的巨大数据库,根据它们可对不同的语音识别算法进行测试。
是的,该技术正在不断改善。但读者经常问我:“如果语音识别软件这么好,那么我能用它来做电话和访谈记录吗?”
答案仍然是否定的。除非你对着话筒说话,无背景噪音,最好不带口音,否则这个软件的效果也没有这么好。你依然必须读出所有的标点符号,最后还要加上“句号”。天知道,我们人类相互理解都会如此困难,要求一台电脑完美地完成这一任务,确实有点过分。难怪今天的语音识别应用程序仍然会犯错误,比如将“mode import”误听为“modem port”,将“move eclipse”误听为“movie clips”和将“oak wrap”误听为——够了,你应该完全清楚了。
因此,在我们的有生之年,键盘肯定不会消失。《星际旅行》中的计算机会话方式仍然是数十年之后的事情。当然,99.9%的精确度对我们来说已经非常好了——但是除非达到100%精确度,语音识别技术仍将属于B计划。
请 登录 发表评论