对机器说话_互动科普

对机器说话

admin 发表于 2017年11月30日

对机器说话

撰文戴维·波格（David Pogue）

翻译詹浩

在过去两年里，语音识别软件已悄悄地成长起来，延伸到我们生活的每个角落：它安装在客服热线和机票预订系统的人机交互端口设备中；扎根于微软视窗（Microsoft Windows）操作系统之中；它是iPhone和Android之类触摸屏手机的一种替代文本输入的方法。但是我们还得面对这样的现实：大多数使用这种软件的用户都宁肯自己不必用它。

这是因为语音识别通常只是B计划：它是替代打字或人类实际交谈的最糟糕方法。一些公司之所以将它用在电话系统中，是因为它的成本低于雇佣真人。许多向电脑输入指令的人之所以使用语音识别软件，是因为他们必须这样做。语音识别之所以在触摸屏手机上崭露头角，则是因为在屏幕键盘上打字又慢又麻烦。

那么怎样才能让语音识别更上一层楼，而不仅仅是一种变通方法（B计划）呢？我们离《星际旅行》中从不出错的会话计算机还有多远？

好啦，现在我们正在接近这一目标。经过十年的收购、兼并和挪用公款丑闻之后，主要的语音识别公司现在只剩一家：Nuance通信公司。该公司仅销售唯一一款商用语音识别软件，供Windows、Macintosh和iPhone使用。该软件也为奥迪、宝马、福特、奔驰汽车，还有摩托罗拉、诺基亚、三星、Verizon公司和T-Mobile公司的移动手机提供语音控制系统。用它能玩转声控玩具、GPS单元和自动取款机，并可接听AT＆T公司、美国银行、CVS和许多其他银行的电话。

对机器说话.gif

Nuance通信公司每年都会推出一个新的用户语音识别程序版本，例如它所推出的Dragon Naturally Speaking。通常情况下该公司不会为新版本添加很多新功能。相反，它将大部分资源集中用于一个目标：提高精确度。

最初，你必须对着话筒阅读45分钟的脚本来训练这些程序，让程序能识别你的声音。多年来随着技术的改善，训练时间不断减少，逐步降到20分钟，10分钟，5分钟——而现在你已经完全不用对该软件进行训练。一旦发出指令，便能得到（由笔者测试）99.9%的精确度。按照这种精确度，每读两页文字还是会错一个单词，但这已经让人印象深刻了。

语音工程师使用各种方法来提升精确度。最早的语音识别程序要求你说话时两个单词之间要暂停一下；那种软件根本无法区分“their”与“there”和“they’re”。但假以时日，更强大的PC处理器将会使连续语音分析成为可能。现在的语音识别软件已能开始鼓励你用较长的句子说话，这样，软件就会有更多上下文用来进行分析，以提高精确度。

提高语音识别精确度还有另一种技巧：去年Nuance公司为iPhone提供了一款免费语音识别应用程序，名为Dragon Dictation。你说的话被传送到该公司的服务器，在那里进行分析之后，几秒钟之内就会转换成文本并返回到你的手机屏幕上。

不过，没人知道该公司已储存了所有这些语音样本，有数百万份，这样一来便创建出一个包括有不同声音、年龄、语调的抑扬变化和口音的巨大数据库，根据它们可对不同的语音识别算法进行测试。

是的，该技术正在不断改善。但读者经常问我：“如果语音识别软件这么好，那么我能用它来做电话和访谈记录吗?”

答案仍然是否定的。除非你对着话筒说话，无背景噪音，最好不带口音，否则这个软件的效果也没有这么好。你依然必须读出所有的标点符号，最后还要加上“句号”。天知道，我们人类相互理解都会如此困难，要求一台电脑完美地完成这一任务，确实有点过分。难怪今天的语音识别应用程序仍然会犯错误，比如将“mode import”误听为“modem port”，将“move eclipse”误听为“movie clips”和将“oak wrap”误听为——够了，你应该完全清楚了。

因此，在我们的有生之年，键盘肯定不会消失。《星际旅行》中的计算机会话方式仍然是数十年之后的事情。当然，99.9%的精确度对我们来说已经非常好了——但是除非达到100%精确度，语音识别技术仍将属于B计划。

全部评论

你的评论

请登录发表评论