音乐发烧友用手机就可以识别歌曲
这首歌曲听起来非常熟悉。你以前一定听到过,而且听到过很多次。歌名到了嘴边,可就是说不出来。哼上一会儿,可能会记起来。还是想不起来?嘿,这首讨厌的歌到底叫什么名字?
科技应该能够解决这种尴尬的问题。数字音乐已经出现好多年了,在庞大的音乐数据库里找到与之相应的歌曲,不就知道歌名了吗?唉,事情没这么简单。Shazam娱乐公司是英国一家专门开发音乐识别软件的公司,它的首席科学家Avery Wang说,“当我开始考虑这个问题的时候,该领域的专家都告诉我,这几乎是不可能的事情。”
问题在于,音符可能的组合不计其数。需要的数据库将会非常庞大,就连最好的运算软件都很难从中进行搜索。一些研究机构曾试图使用概率分析的方法,以简化歌曲的识别。伦敦大学玛丽皇后学院的Mark Sandier解释说,“奏出一个音符后,下一个音符的音阶可能高或低一些,也可能与前一个相同。通过分析大量现有音乐模式,你可以借助前面的音符计算出下一个音阶的位置。”不过,这种方法既耗时又费力。而且,我们还必须考虑作曲家、指挥家和音乐家对歌曲的个人诠释,某些对节拍和风格的更改,可能完全改变音乐的特征。另外,部分或大量抄袭现象也很普遍。
不过,这项技术首次有了突破。Shazam娱乐公司开发了一种商业音乐识别系统,如今已在英国推出,它能使人们通过手机识别歌曲。当你在收音机、公共场所、酒吧或者电视上听到歌曲时,输入Shazam公司设置的4位代码,把手机对准声源,持续15秒钟。几分钟后,公司就会发送一条短信,告诉你歌曲及歌手的名字。
这是美国人Chris Barton在伦敦商学院读书时就有的梦想。三年后,他与Wang共同创办了Shazam娱乐公司。当年Barton找到Wang谈起自己的想法时,Wang正在斯坦福大学从事声音分析和处理的研究。“起初我拒绝了他,”Wang回忆到,“因为按照当时流行的学术观点,那是一项非常艰难的工作,可能要付出几年的努力。”但后来他有了一个好主意,放弃了对不同音符排序概率的研究,开始绘制音乐的频率一时间曲线。如果你以前制作过数字波形图,那么现在使用普通的音乐软件就可以在家用电脑上完成这一工作。由于这些波形非常复杂,所以要找到匹配物,需要将整个曲线图与其他所有音乐的曲线图进行对比,这会耗费大量时间。
Wang的创新之处在于:尽量消除波形中的信息,但要确保每首音乐的波形仍然独一无二,可被识别。他以10毫秒为时间段,记录下频率的波峰与波谷。Shazam娱乐公司目前拥有包括l70万首歌曲的精练数字波形数据库。当用户通过手机输入l5秒钟的音乐时,系统将为这段音乐创建数字波形图,然后在数据库里查找相配的波形。Wang打了个比方:“设想把3亿600万秒长的歌曲转换成不计其数的点集,然后将它们排成一长列打印出来。接下来,想像把你要比较的15秒歌曲点集打印在透明塑料纸上,沿着点集拉动塑料纸,直到找到同样的图形。”
Wang通过计算发现,匹配出错的概率小于百万分之三,这意味着即使只能听到歌曲的1%,系统仍能准确运行。为最大限度地提高检索速度,所有数据都被存储在一个分布式计算机系统的活动内存上,而非硬盘上,分布式计算机系统包括大约70台PC机。
实际上,Shazam的服务用起来方便又有趣。我曾在咖啡厅、酒吧、嘈杂的大型购物中心、汽车后座椅上(车内开着收音机)和自己家里试用过。它在大多数情况下都成功对音乐进行了识别,在两三分钟内发送短信告知曲名。正如预料,音乐最清楚时,得到的结果最准确,比如从家中的收音机或CD机播出的。甚至连出租车破旧的收音机播放的金发女郎乐队(Blondie)的玻璃精灵《Heart of Glass》,伦敦西区商店里的扩音器播出的甲壳虫乐队的《Hey Jude》,Shazam系统都能准确识别出来。我发现,使用这项服务最好的方法是把电话对准声源,中间不要有障碍物,并远离大声交谈的人群。(当我在购物中心中央一本正经地伸长手臂握着手机时,过客们纷纷向我投来好奇的目光。)15秒钟的通话费为50便士,或大约75美分,这些费用直接加到手机话费上。
Shazam公司的数据库把重点放在新歌上。当我试着播放布鲁斯歌手Blind Willie McTell在20世纪50年代的两张唱片时,Shazam卡壳了。此外,Shazam系统的数据库没有古典音乐。因为公司认为,它的主要用户是希望识别流行歌曲的年轻人。在嘈杂的音乐爱好者聚会点,系统不能总是达到最佳工作状态。我曾在一家喧闹的酒馆试着识别0tiSRedding的《Sitting on the Dock of the Bay》和Dusty Springfield的《Only Want to Be with You》,但Shazam系统没有任何反应。
识别失败的原因可能是背景噪音过大,以及歌曲频率失真。由于欧洲生产的手机总是接收最大的声音而忽略微弱信号,所以背景噪音可能产生较大的影响。当音乐节目主持人加快或放慢歌曲播放速度时,Shazam系统所依赖的频率特征就会发生变化。但Wang指出,系统搜索引擎的容错技术,使歌曲以不超过原速10%的变化播放时,Shazam仍然可以进行识别。
尽管存在不足,但Shazam技术还是让人耳目一新。公司计划推出新的服务,用户只要对着手机哼曲子甚至吹口哨,就能够识别。Shazam可不是形单影只,荷兰电子产业巨头菲利浦公司正在开发一种原型系统,能够识别哼唱的歌曲。但菲利浦公司还不能说出何时将这种产品投入市场。
自去年8月Shazam推出这项服务以来,英国已有大约30万人进行了试用。该公司准备近期在德国推出,并计划在之后的12至18个月推广到美国和太平洋沿岸一些国家。到那时,公司的音乐数据库会更大,也许大到足以识别Blind Willie McTell。
请 登录 发表评论