按图索骥告别关键词_互动科普

使用社交账号登录

购买价格:
付款方式:

互动科普

主页 > 科普纵览 > 信息 • 能源

按图索骥告别关键词

admin  发表于 2017年11月30日

有时候,一幅图能抵过千言万语,在Google图像搜索引擎中,敲入一个单词“Rosebud”(玫瑰花苞),它就会返回大约6万幅图画。一个关键词竟然如此神通广大,究竟是好事还是坏事?应该说它有利也有弊:它可以找出一大堆网页,却无法区分盛开的鲜花和传奇电影导演奥逊·威尔斯(Orson Welles)愤怒的面容。(在威尔斯的代表作《公民凯恩》中,“Rosebud”是影片主人公的遗言,也是贯穿全剧的悬念所在。按照Google的搜索方式,只要跟关键词有关的图片都会囊括在内。)如果互联网用户可以根据一朵玫瑰的图像,用搜索引擎找出其他相似的玫瑰图像,那将最理想不过了。

利用图像来搜索图像并不是什么新主意。早在10年前,就已经出现这种类型的软件,它们可以将两张照片进行对比,判断照片是否吻合;或者根据简略的示意图——比如说一片绿色背景衬托一个红色斑点,来查找数据库中有玫瑰花的图像[参见《科学美国人》1997年3月号加里·斯蒂克斯所著《在网络上搜寻图片》一文]。这种搜索方式后来被称为基于内容的图像检索(content-based image retrieval,CBIR)。它的技术发展比较缓慢,现在才慢慢超过毕业设计那样粗陋的水准。

目前,各大搜索引擎尚未采用这种形式的图像检索方法,来搜索它们的图像索引(其中最大的图像索引包含多达数十亿幅照片和图像的链接)。不过,业界和学术界开展的研究,近来都取得了令人瞩目的进展。这些进展使我们不但有可能告别关键词搜索,还可以挑战大型数据库中的图像内容分析。

 图片.png

即拍即搜

最近,可上网的照相手机和掌上电脑(Personal Digital Assistant,PDA )迅速走红,然而,用拇指和食指在手机小小的键盘上输入关键词非常不方便,这个棘手的问题始终没能解决。对那些能够找出一种以图像为基础的新型搜索方法的人而言(也就是把手机摄像头摄下的图像,作为询问信息发送到网上进行搜索),这两个因素就是新的机遇。

微软研究院发现,作为网上查询的输入工具,手机摄像头具有多种用途。比如,想购买电炉的人,对电炉的有关资料感兴趣,他们只须用手机拍下电炉的照片,再把照片以文件的形式发送给服务器,服务器就能向用户的手机返回《消费报道》杂志的相关网页;输入一幅《蒙娜丽莎》的图片,服务器即可返回与艺术史有关的网页;使用者在附近随便找个标志性建筑,拍张照片输入互联网,便能返回一幅使用者当时所在位置的地图。微软研究院设在美国华盛顿州雷德蒙市实验室的研究人员拉里·齐特尼克(Larry Zitnick)说:“新的输入方法让互联网更贴近现实世界。就像是把你正在看的东西拿给网络看,让它按图索骥,去寻找相关资料。”微软设在北京的亚洲研究院,组织了一个攻关小组,专攻另一个类似的项目,不过这两个项目最终可能合二为一。

研究人员需要解决诸多难题。其中一个就是寻找合适的方法,来创建功能够强的搜索算法,使它能在遍布整个互联网的无数图像中,找出所需的内容。齐特尼克和同事演示了一个搜索系统,这个系统可以接收手机摄像头拍摄的一幅“询问”照片(query photograph),然后发送给服务器,服务器再把照片与已经搜集好的所谓“练习”图像(training image)进行比对,而每一张练习图像都可链接到相关网站上。齐特尼克希望打造一个庞大的数据库,拥有多达10亿张被“MSN搜索”之类的搜索引擎收入其中的图片。目前这个系统还没有命名,它可以在2秒~4秒内完成数万张图片的检索——这个时间太长,需要缩短到1秒以下才行。

这个系统在使用前需要做一些准备工作,也就是由计算机分析来自某一网页的练习照片,找出照片由相邻亮区和暗区构成的特征。一部分特征被三个一组地合并,系统将计算出各组之间的距离,以这一计算结果作为分组的依据。每个特征表示一个10×10像素的正方形区域的中心点。3个像素区构成一个所谓的“三联组”(triplet),每幅图片一般有大约5,000个三联组。每个三联组的地址都作为单独的一项,存储在一张庞大的列表中,尽量减少搜索任一项时所需的计算量。询问照片也被划分为许多三联组;系统将这些三联组与列表中存储的三联组进行对比,并找出含有与询问照片对得上号的图像网页,然后把这些网页发送到用户的手机上(详细过程请看下一页的图表)。研究人员以三联组,而不是以单个的图像区作为对比的基础,是因为三联组在整个图像中所占的面积大于单个图像区所占的面积,因此有助于降低询问图像与练习图像匹配出错的可能。

同绝大多数图像处理应用软件一样,这套系统的性能表现尚不尽人意——平均检出率在80%左右。不过,它在检索表面细节相当详尽的平面对象时(许多消费产品都属于这一类),出错率比较低。如果考虑到绝大多数人对网上搜索的要求(希望检索出不止一条而是若干条线索),从而放宽性能限制的话,那么检出率还可以进一步提高。虽然一次图像搜索返回的网页可能不止一个,但既然它能够根据照片的具体特征,将询问图像和练习图像进行对比,就意味着与通常的文本检索所返回的结果相比,它返回给用户的图像更少,而且更精。

为了扩大可检索对象的范围,齐特尼克打算进一步提高系统对具有光滑表面或复杂三维形状的对象(如植物)的搜索能力。然而,并不是人的双眼能看到什么,这个系统就能搜索什么。齐特尼克指出:“它在搜索某些东西时很有用,但搜索另一些东西时,也可能表现很糟糕。”

 

拒绝色情

在浩瀚无边的互联网海洋中寻找图像,无异于大海捞针,Google一直在为这个难题操心。这个天王级的搜索巨头尚未披露未来计划的具体细节,但它的研究人员已经开始在相关杂志上发表论文,并在专业会议上阐述自己的构想。在Google看来,最重要的是解决一个实际问题——如何用简单的方法来归纳概括数十亿幅图片的内容。与这项任务相比,完全的“图片对图片式”匹配,或者识别单个对象(比如一把椅子)的问题只能退居次席。例如,某张照片中的粉红色,究竟是裸露在外的皮肤颜色,还是迈阿密南滩一栋装饰艺术(Art Deco)建筑的颜色?从互联网问世之初,搜索图片的研究就饱受一个问题的困扰:在返回的搜索结果中,可能有一大堆你不愿意看到的色情图片。

Google公司的研究人员舒密特·巴卢哈(Shumeet Baluja)说:“我们希望,在鉴别‘儿童不宜’的图片时,除了使用关键词和URL网页地址以外,还能使用图像分析。”据某次会议上发表的一篇论文称,这家设在加利福尼亚州芒廷维尤的公司已经开发出——或者说事实上已经实现了一种筛选系统,可以识别图像是否健康,识别准确率达到中等水平。研究人员称,抛弃那些可能耗时数秒到数分钟的形状分类方法(shape-classification method),他们可以使用2,500台计算机,在8小时内,查出一组测试用略图(包含约15亿张图片)中一半“儿童不宜”的图片,相当于每秒检查20幅,而上网冲浪的人无须等待8小时之久。有了这种工具,希望过滤掉色情内容的用户,只要命令搜索引擎略去那些已经被标记为“内容有问题”的链接即可。

这套系统把分别负责探测27种特征的若干软件模块联合起来进行搜索。这些特征包括皮肤颜色、连续像素(意味着存在一片连续的颜色,比如说可能是肌肉的颜色等)、皮肤肌理以及是否存在人物面孔等。人的皮肤颜色各异,日常生活中,有很多物体的颜色和皮肤的颜色相近。搜索系统的某一模块,专门寻找那些外观与皮肤相近,但却可以通过某些具体特征(例如有长而直的边缘等)同皮肤区别开来的物体(比如建筑物)。系统找到并加了标记的图片就可以被排除掉。这些标记过的图片构成了Google “安全图片搜索”(image-safe search)的一个组成部分。安全图片搜索是Google图像搜索引擎中由用户自行选择的一项功能,它同时也能对URL和其他文本内容进行分析,以确定哪些图片是不健康的。

如果要使用更大的搜索模块在整个互联网上搜索图像,那么不论采用什么算法,这种模块最重要的就是必须做到快速高效。Google公司专攻“儿童不宜”内容过滤项目的两位研究人员巴卢哈与亨利·罗利(Henry Rowley),极大地降低了判定人物性别或面孔朝向所需的信息量。这项成果使处理过程进一步加快。另外,面孔也是用户搜寻得最多的一类图片,因此这项进展具有十分重要的意义。Google希望能找到一种更好的办法来确定一幅图片里是否真的画有布兰妮或者布莱尔。该公司已设计出多种图像过滤器,其中一种过滤器用于确定人的性别,还有另外一些过滤器用于查看人的服饰,或者估算人的年龄。

巴卢哈和罗利发明的性别和面孔姿态过滤器(gender and facial-pose filter),将考查询问图像中的一块边长为20像素的方形区域,比较它的强度(即明暗程度),并使它与练习图像中大小相似的区域匹配。比如,要鉴别性别,则练习图像中将有一位先生或女士;要识别面孔的朝向,则练习图像中将有各种不同姿态的面孔。首先,用一个单独的算法猜测一幅图片中面孔的位置;然后,用于确定面孔姿态过滤器的程序再进行精确对比。这种面孔姿态分类程序(face-pose classifier)经过训练后,只须考查面孔部位中一个20×20像素区域中的150对像素,便能预测面孔处于5种姿态中的哪一种(如正面、右半侧面等),精确率达到99%。性别和面孔姿态分类程序具有多种不同的用途,不过现在研究人员正忙于把它们纳入到安全图像搜索中。

Google的研究小组通常对单纯追求“技术美”的研究理念持否定态度。Google该公司工程搜索质量主任彼得·诺维格(Peter Norvig)说,“我们走的是实用主义的研究路线。只要可能,我们宁可通过临时修补的办法来解决问题。我们无须彻底解决对象识别问题。”鉴于任何一幅照片中包含的信息密度都相当大,图像搜索工具成功的秘诀,就在于所有像素都必须计算在内,一个也不能少。



全部评论

你的评论