检索数字图象_互动科普

使用社交账号登录

购买价格:
付款方式:

互动科普

主页 > 科普纵览 > 信息 • 能源

检索数字图象

admin  发表于 2017年09月18日


能够对图象进行推理的计算机可以辨认照片档案中人、地点或物体的明显特征。

Internet网络以及与该网络连接的数字图书馆给人们提供了接触大量信息的机会。然而,有效地检索这种信息则是另一回事。试设想一下静止图象或电影剪辑的档案:如果一位用户想要查找一幅简单的图象,例如一匹马在水边的图象,那么现在唯一的希望就在于有人已经预先给所有这类图象加上了适当的图注。

主要档案的检索经验告诉我们,几乎无法预见可能会出现的所有查询要求。此外,为了支持一类新的查询—例如,“给我找出有一匹马和草地的所有图象”这样一个查询一一可能需要重新查看整个档案。

图片348.png

从大型数据档案中检索图象的人具有各种不同的背景条件、出于不同的目的而进行检索的。一位检索者可能是想查阅一家博物馆收藏的美术作品,以确定某种色调在描绘肖像画中的皮肤时所使用的频率或者是想查阅一个卫星图象数据库以估计明年的粮食收成如何。另一位检索者则可能浏览一家图片机构收藏的资料以找到适合在旅游宣传小册子上作封面用的日落照片,或者搜寻一套加利福尼亚的河道的图象以比较最近发生的洪水与前几年的洪水造成的影响有何不同。

归根到底,完全自动化的图象分析看来是一种最理想的处理检索任务的方法,为了满足多种多样的查询请求,一种似乎简单的办法是使用能够辨别存储在数据库中的某一图象是否会有一个具体目标(如一匹马或一片水体)的程序。此程序必须正确鉴别所要寻找的目标不管它的颜色、大小及外形如何。也不管是从哪个角度来观石的。遗憾的是,人们现在对如何识别图象中的物体的认识水平还相当粗浅,远不足以完成这项任务。尽管如此,研究人员现在正在从好几个方面来研究这个问题,而把计算机视觉和自动推理的原则结合起来可能最终将改进计算机分析图象特征的能力。

图片349.png

计算机程序可以通过多种方式分析一幅待检索的图象的内容。有些程序寻找和一幅给定的样板图象接近相配的图象。另一些程序则依靠图象的总的外现,例如有大量黄色小斑点的图象(长满野花的田野)或中央有一团明亮的红色区域的图象(火、日落及某些赛车等)。还有一种方法是寻找具有明确界定的特征的目标(例如水或马)。这三种方法代表了3种根本不同的图象检索观念,一是寻找与已知的样板在图形上相似的图象,二是对图象的“素质’一一即具有几乎不变的颜色或质地的范围一一进行分析,三是象人识别“东西”那样来识别图象。(见本期John Villacnor和William H. Mangionc一Smith所著“可现置的计算”一文中对模式匹配的介绍。)

图片350.png

简便但不中用

实现这几种方法中的任一种,其难易程度似乎是同有用的程度成反比。直接把一幅图象同另一幅图象相匹配是相当简单的,但其用途则只限于寻找表面有关的图象。对于寻找物体来说,这种方法没有多大用处,因为图象中物体的位置组成和布局的变化将使大多数比较一无所获。例如,一匹马的正视图同它的侧视图业不相配。(由于这个原因,我们认为,对照样本图象进行直接匹配是一个算法上的死胡同。)

根据“素质”来搜索图象具有较大的应用潜力,而且许多素质分析对计算的要求也不是高不可攀的——现在只需几分之一秒的时间便能计算出一幅给定图象中的红、蓝、绿等象素各自所占的比例:由于“事物”是由 “素质”构成的,因此第一步很自然就是设法只根据素质查询来检索图象。而大多数现有的图象检索系统正是面向以素质为基础的查询的。例如,IBM公司的一组研究人员开发的QBIC 系统——Query by Image Content(按图象内容查询)的缩写,此系统可能是已知的性能最佳的图象数据库系统——允许操作人员用颜色、颜色的空间分布以及质地等特性来规定一幅要检索的图象(质地包括象斑马条纹那样的两种颜色的简单交替,到比较复杂的有多种色彩的模式。)然后该系统就分等级列出它根据这些选择条件所选定的一组相配图象。另外一个名为Photo book的著名系统是麻省理工学院的Alex PentIand及其同事们建造的,它在很大程度上也采用QBIC模型,即把一幅图象看作是由若干平的均匀区域构成的抽象派拼贴画,但它包括了一些更复杂的质地表示法,而且能够自动地把图象分成若干部分。

图片351.png

虽然这类系统给人以深刻印象,但我们相信,单靠以素质为基础的询问最终不会有多大用处。例如,一项关于图象中颜色比例的询问不可能区分英国国旗和法国国旗。一般地说,用户是对事物感兴趣,而单凭素质或图形上的类似都不能为内容检索提供充分的基础。

为了探索这些问题,我们建造了一个图象检索系统,作为伯克利加利福尼亚大学的数字图书馆工程的一个组成部分。这个系统,它的主要建造者是Ginger  Ogle和Ghad  Garson最终将收入5万幅以上的照片。从范围广泛的各种来源——包括地面和空中摄影照片——所获得的约5万幅图象现在可以在该工程的万维网(Worid Wide Web)网点上联机检索到。

图片352.png

我们的接口综合了许许多多不同的询问,使用户既能搜索事物,也能搜索素质。然而,查找事物是比较困难的,因此,在许多情况下,最好是查询可从中组合出所需事物的素质。在我们看来,事物的表示(因而对它的询问)是通过把素质组合起来而获得的。这就意味着,最有用的素质询问是那些能够用来构建事物的表示的询问。按照这一看法,一个用户接口应当提供多种选择:用户可以查询事物:另一方面,如果事物查询不令人满意,用户也可以规定已经知道是有用处的各种类型的素质空间组合。

图片353.png

当该系统的一位设计人员在建立一个询问以检索有帆板冲浪的图象时,他要求查出的图象有下列特征:代表天空或大海的蓝-绿色内容至少占30 %,并且至少有一个黄色小点,代表帆的黄色条纹。查到的图象中,与这一询问相关的图象占很大的比例。该系统也显示出了一些不相关的图象,同时它未能查到某些的确与帆板有关的图象。在信息检索中,检索的精确性和检索率之间通常存在一种折衷关系。检索到的如果只是相关项目,肯定就将使得某些相关项目漏检,而如果要检索出所有的相关项目,那就意味着同时也会检索出一些不相关的项目。这个例子表明,一种功能强大的素质检索机制有时对于寻找含有目标的图象能给出比较好的近似结果,但它也表明。为了把对某种类型事物的检索转化为对素质的询问,用户必须付出相当的脑力劳动。

在我们现有的检索实施方案中,用户只能查询很少几种东西,如马,帆船和未穿衣服的人。在规定素质时,用户可以给出他们预期一幅图象中不同颜色所占的比例,以及应当出现的“颜色块”的数目及大寸等。他们也可以规定根据图象内容而得出的其它一些特征,比如一幅图象中是否有地平线等。最后,他还可以检索所谓“元数据”——即医图象存储在一起的其它信息,包括图注,摄影者的名字,图片的日期等等。

图片354.png

目标识别的危险

但是,有了适当的背景知识,计算机或许能够根据一幅图象的素质推导出图象中有些什么东西。识别一幅图象中的马、人或其它任何东西的问题被称为目标识别,几十年来它一直是计算机视觉这一领域的一个重点研究课题。由于目标识别在工业上和军事上都有应用,研究界及其它部门都对这个问题作了大量的研究。但是现有的方法仅对有少量目标的图象有用。而且这些目标只能从有限的角度范围观看,其形状也必须是精确已知的。对于识别哪怕是单单一个“通常”的目标,比如说一个人或一匹马,这些方法就不起作用了。普通目标在高度、重量以及那些计算机视觉程序难于对付的标志物等方面的变化很大,但这对目标的身份并没有什么影响。例如,一个人无论是高是矮,是重是轻,或者是穿什么衣服,都可以辨认出是一个人。

图片355.png

此外,我们必须把目标同其背景分离开来。在某些情况下,这甚至对于人类观察者都是一个很棘手的问题。试考察一只在原始丛林中光线照耀下斑点状的豹子。为了识别出来,我们必须知道该图象的哪些区域应当归在一起——豹子上的斑点,树上的叶子,等等。换言之,计算机程序必须会把素质归类为不同的事物。

格式塔心理学派的研究人员已经在人类视觉的场合对这一所谓的观念分组问题进行了大量的研究。他们指出了能够据以确定何时一个图象中的各部分最有可能源自场景中某单一目标的若干因素。颜色或质地的类似起着非常大的作用。人很容易根据一幅图象中具有均匀颜色的部分(例如一块红斑)或具有均匀的视觉质地的部分(例如一方格花纹区域)来进行分组。在一个更复杂的层次上,二维图象中关于某条轴对称的区域可以归类为一个对称的三维物体(如花瓶)的投影。

计算机视觉研究人员多年来一直在努力设法把这些由经验得来的规则转化为实用的算法。Serge Belongie, Chad Carson, Hayit Greenspan和本文作者之一(Malik)合作开发出一个系统,虽然它与人的观念分组的本领相比较仍然差得可怜,但还是提供了把图象分解为在颜色和质地上一致的一个个小的区域集合的方法。每个均一的“块”可用代表真位置、形状、颜色和质地的属性来描述。我们可以把这些块想象成图象的一种表示,它抓住了图象的基本组成特点。

图片356.png

现在,我们可以通过寻找一个蓝色块内的灰色块而找出在蓝天背景下飞行的飞机这样一种图象。我们也可以通过寻找下面这两种块而找出老虎的图象。一种块的颜色和质地类似于我们通常在老虎皮上看到的那种颜色和质地,而另一种块的颜色和纹理则类似于典型的老虎栖息地的草地背景。用户可以自行决定他或她在对每个块的颜色、质地、形状或位置等属性进行规定时要具体到何种程度。

有趣的是,这种把物体表示为具有特定颜色和质地的区域的空间构形的方法对于机器学习技术大有帮助。可以不依靠人来想出一个有老虎或飞机的场景的最突出特征,而依靠统计学习来完成这一任务。我们向所谓“统计分类机”这样一种软件出示了特定视觉类型的样板图象(例如有飞机或老虎的场景),并训练该软件识别出先前未见过的图象就是这些视觉类型的实例。目前,我们的分类机可以通过只考虑有关颜色和质地的信息而对场景分类。如果有了关于区域形状的适当信息,这些分类机就应当能够区别构成物体的区域集合与不构成物体的区域集合。学习提供了一种很自然的方法来处理一类物体中非本质的差别,因为分类机可以进行自我调节,使其不去注意那些没有什么重要性的变动。(例如天空可以有许多种不同的蓝色色调,云团可以有无数种不同的形状,等等。)

图片357.png

Waldo在何处?

卡内基·梅隆大学的Takeo Kanade及其同事开发了一种用于面部识别的软件模块,它是应用学习方法的一个很好的例子。其他研究人员已经发现,准确地认别出单个的眼睛、鼻子和嘴巴是非常困难的。而Kanade和他的同事们则训练一个神经网络去同时探测所有这些面部特征是否存在于一种适当的构形中。他们也一直在研究把视频和音频资料结合起来用于分析录象和电影剪辑。例如,一台计算机可以对一段电视新闻的声道进行语音识别。并在该声道提到某一名人的名字时把这名字与视频资料中同时出现的脸孔联系起来。

图片358.png

颜色和质地有助于找出图象区域,而其它若干线索则有助于克服在把对应于事物的各图象区域组合起来时所遇到的困难。首先,许多物体是由仅具有简单三维形状的各部分组成的,而且这些形状之间的关系往往也是非常简单的。其次,这类基本的三维形状通常呈现为形状简单的图形区域——例如,一个圆柱体几乎总是呈现为直的、差不多平行的边围成的区域。这样,一个程序可以相当容易地识别出这些部分。

同样,如果对各部分间的几何关系存在着某些限制的话一一例如,人和动物的关节的运动范围限制了其身体各部分间可能的相互关系——则常常很容易判明看起来似乎对应于一个物体的两部分的那些图象区域是否真的会如此。简单地说,每个图象区域都产生关于其身份的假设;而这些假设又提示新的分组策略以识别更大、更有特色的一组图象区域。由统计学习理论可以得出一些机制,凭借这些机制能够确定哪些假设应当接受,哪些应当舍弃,一旦通过此方法组合出一个足够大的图象区域组,就可以认为物体是被辨认出来了。

图片359.png

依阿华大学的Margaret Fleck和本文作者之一(Forsyth)根据这些观察结果建立了两个能够识别一大组图象中的特定物体的系统。第一个系统可找出有人的图象,该系统的现有形式只适用于图象中的人穿很少一点衣服或不穿衣服的情形。皮肤的颜色及肌理与衣服的颜色和质地比起来是极其有限的。该程序首先把图象分割成对应于皮肤的区域(这一步可以相当精确地完成),并舍弃那些几乎没有或根本没有皮肤的图象。一旦程序把这些区域拼合成看起来类似于圆柱(代表躯体各部分)的若干组,它就检查这些组之间的几何关系以找出可能是由肢体形成的组。最后它检查待定肢体之间的相互关系,从而得出可能代表更复杂的组合体的区域。

图片361.png

由于我们所采用的模型强调躯体各部分之间的关系,因此有可能对这个模型作适当修改后用它来辨认与躯体相似的物体。我们的第二个系统检查由类似皮毛的象素组成的各部分之间的关系,以找出有马的图象。我们已对总共将近5千幅图象——这些图象的出处五花八门,极为广泛一一检验了寻找人的程序。对于有人的图象,该程序判定正确的比例为40%,而实际上无人的图象被该程序误判为有人的仅占此类图象的4%。对寻找马的程序进行检验的结果是,对该程序出示的有马的图象中,它只判定其中10%的图象有马。但是,对无马的图象,它的误判率仅有0.4%。我们还不知道在有多个不同类型的物体需要辨识的场景中如何有效地进行这类推理。

图片362.png

就我们所知,这一差劲的表现代表了面向事物的针对大量资料的图象检索的当前水平。这样一种自动化系统的性能不能同完美的检索过程得到的结果相比,因为完美的检索过程是不存在的。即使是对已彻底编了索引的资料进行最佳的自动化检索,相关项目的检出率也极少超过50% ,除非是同时把大量不相关的项目也检索进来。在用人工检索图象的场合我们发现,检索人员也可能漏掉相当大一部分相关图象——更不用说人工检索的成本高得令人不敢问津了。

图片363.png

虽然我们的重点一直放在从大量资料中检索图象这一问题上,但很显然、同样的问题也与涉及图象的其它任务(如从万维网上过滤信息)有关。数字化图象和电影正在日益普及,有些成为大量收藏资料的一部分,有的则用在较短暂的媒体中(例如电子邮件信息或网络页面)。

图片364.png

根据以质地和空间布局为基础的假设把具有均一素质的各个图象区域组合起来,就使我们在图象检索方面取得了显著进展,但是,为了把检索率提高到实用档案所要求的水平,还需要新的检索方法。最终有可能这样获得一张猛扑过去的豹子的图象:填一张表(填入“有斑点的”、“有猫科动物的身材”、“跳跃”),把表交给一台检索机,然后就可坐等检索机选择一批合适的图象输出给你。这一目标是有可能实现的。它值得我们为之努力,这既是因为许多人需要在大量图象中查找东西。也是因为实现这一目标有助于我们解决认识视觉中的一些深层问题。

图片365.png

 

(肖茂汉 译 巨浪 校)

 


全部评论

你的评论