让我猜猜你是谁

admin 发表于 2017年09月23日

音乐发烧友用手机就可以识别歌曲

这首歌曲听起来非常熟悉。你以前一定听到过，而且听到过很多次。歌名到了嘴边，可就是说不出来。哼上一会儿，可能会记起来。还是想不起来?嘿，这首讨厌的歌到底叫什么名字?

科技应该能够解决这种尴尬的问题。数字音乐已经出现好多年了，在庞大的音乐数据库里找到与之相应的歌曲，不就知道歌名了吗?唉，事情没这么简单。Shazam娱乐公司是英国一家专门开发音乐识别软件的公司，它的首席科学家Avery Wang说，“当我开始考虑这个问题的时候，该领域的专家都告诉我，这几乎是不可能的事情。”

问题在于，音符可能的组合不计其数。需要的数据库将会非常庞大，就连最好的运算软件都很难从中进行搜索。一些研究机构曾试图使用概率分析的方法，以简化歌曲的识别。伦敦大学玛丽皇后学院的Mark Sandier解释说，“奏出一个音符后，下一个音符的音阶可能高或低一些，也可能与前一个相同。通过分析大量现有音乐模式，你可以借助前面的音符计算出下一个音阶的位置。”不过，这种方法既耗时又费力。而且，我们还必须考虑作曲家、指挥家和音乐家对歌曲的个人诠释，某些对节拍和风格的更改，可能完全改变音乐的特征。另外，部分或大量抄袭现象也很普遍。

不过，这项技术首次有了突破。Shazam娱乐公司开发了一种商业音乐识别系统，如今已在英国推出，它能使人们通过手机识别歌曲。当你在收音机、公共场所、酒吧或者电视上听到歌曲时，输入Shazam公司设置的4位代码，把手机对准声源，持续15秒钟。几分钟后，公司就会发送一条短信，告诉你歌曲及歌手的名字。

这是美国人Chris Barton在伦敦商学院读书时就有的梦想。三年后，他与Wang共同创办了Shazam娱乐公司。当年Barton找到Wang谈起自己的想法时，Wang正在斯坦福大学从事声音分析和处理的研究。“起初我拒绝了他，”Wang回忆到，“因为按照当时流行的学术观点，那是一项非常艰难的工作，可能要付出几年的努力。”但后来他有了一个好主意，放弃了对不同音符排序概率的研究，开始绘制音乐的频率一时间曲线。如果你以前制作过数字波形图，那么现在使用普通的音乐软件就可以在家用电脑上完成这一工作。由于这些波形非常复杂，所以要找到匹配物，需要将整个曲线图与其他所有音乐的曲线图进行对比，这会耗费大量时间。

Wang的创新之处在于：尽量消除波形中的信息，但要确保每首音乐的波形仍然独一无二，可被识别。他以10毫秒为时间段，记录下频率的波峰与波谷。Shazam娱乐公司目前拥有包括l70万首歌曲的精练数字波形数据库。当用户通过手机输入l5秒钟的音乐时，系统将为这段音乐创建数字波形图，然后在数据库里查找相配的波形。Wang打了个比方：“设想把3亿600万秒长的歌曲转换成不计其数的点集，然后将它们排成一长列打印出来。接下来，想像把你要比较的15秒歌曲点集打印在透明塑料纸上，沿着点集拉动塑料纸，直到找到同样的图形。”

Wang通过计算发现，匹配出错的概率小于百万分之三，这意味着即使只能听到歌曲的1％，系统仍能准确运行。为最大限度地提高检索速度，所有数据都被存储在一个分布式计算机系统的活动内存上，而非硬盘上，分布式计算机系统包括大约70台PC机。

实际上，Shazam的服务用起来方便又有趣。我曾在咖啡厅、酒吧、嘈杂的大型购物中心、汽车后座椅上(车内开着收音机)和自己家里试用过。它在大多数情况下都成功对音乐进行了识别，在两三分钟内发送短信告知曲名。正如预料，音乐最清楚时，得到的结果最准确，比如从家中的收音机或CD机播出的。甚至连出租车破旧的收音机播放的金发女郎乐队(Blondie)的玻璃精灵《Heart of Glass》，伦敦西区商店里的扩音器播出的甲壳虫乐队的《Hey Jude》，Shazam系统都能准确识别出来。我发现，使用这项服务最好的方法是把电话对准声源，中间不要有障碍物，并远离大声交谈的人群。(当我在购物中心中央一本正经地伸长手臂握着手机时，过客们纷纷向我投来好奇的目光。)15秒钟的通话费为50便士，或大约75美分，这些费用直接加到手机话费上。

Shazam公司的数据库把重点放在新歌上。当我试着播放布鲁斯歌手Blind Willie McTell在20世纪50年代的两张唱片时，Shazam卡壳了。此外，Shazam系统的数据库没有古典音乐。因为公司认为，它的主要用户是希望识别流行歌曲的年轻人。在嘈杂的音乐爱好者聚会点，系统不能总是达到最佳工作状态。我曾在一家喧闹的酒馆试着识别0tiSRedding的《Sitting on the Dock of the Bay》和Dusty Springfield的《Only Want to Be with You》，但Shazam系统没有任何反应。

识别失败的原因可能是背景噪音过大，以及歌曲频率失真。由于欧洲生产的手机总是接收最大的声音而忽略微弱信号，所以背景噪音可能产生较大的影响。当音乐节目主持人加快或放慢歌曲播放速度时，Shazam系统所依赖的频率特征就会发生变化。但Wang指出，系统搜索引擎的容错技术，使歌曲以不超过原速10％的变化播放时，Shazam仍然可以进行识别。

尽管存在不足，但Shazam技术还是让人耳目一新。公司计划推出新的服务，用户只要对着手机哼曲子甚至吹口哨，就能够识别。Shazam可不是形单影只，荷兰电子产业巨头菲利浦公司正在开发一种原型系统，能够识别哼唱的歌曲。但菲利浦公司还不能说出何时将这种产品投入市场。

自去年8月Shazam推出这项服务以来，英国已有大约30万人进行了试用。该公司准备近期在德国推出，并计划在之后的12至18个月推广到美国和太平洋沿岸一些国家。到那时，公司的音乐数据库会更大，也许大到足以识别Blind Willie McTell。

全部评论

你的评论

请登录发表评论

互动科普