聪明的房间_互动科普

使用社交账号登录

购买价格:
付款方式:

互动科普

主页 > 科普纵览 > 信息 • 能源

聪明的房间

admin  发表于 2017年09月16日


由于开发出能够识别人物并能解释其行为的计算机系统,研究人员已经向着建立有益的家居和工作环境方面迈出了一歩。

1.png

设想有这样一套房子,它总能知道你的孩子在何处并且能告诉你他们是否遇到麻烦,或是有这样一间办公室。它能看见你正在出席一个重要会议,它能感觉到你已疲倦,并能警告你要把车驾驶到路边,科学家们—直在试图开发出可以完成这些功能的计算机系统。尽管他们已作了很大的努力,但是现代计算机仍然比不上保姆或秘书。当然它们会有这一天。

按照我的看法,问题在于我们现在所使用的计算机既聋且瞎:它们只能通过键盘和鼠标来感知世界:即使是多媒体计算机,它们能处理音像信号和文本,也不过是传送数据串而已。它们并不懂得它们传送的字符、声音、图象的含义。我相信计算机在其证明真正对人有益之前必须能够看到和听到我们在干什么。更重要的是,它们必须能够识别我们是谁.至少应象另一个人或甚至是一只狗,并且它们能够知道我们在想什么。

为此目的,我在麻省理工学院媒体实验室的研究小组最近开发出一类能够识别面孔、表情和手势的计算机系统。这项技术使我们建立一种具有类似于上述的房子,办公室和轿车的功能的环境。这些我们通称为聪明的房间(Smart rooms)的场所都装备有摄像机和麦克风,并能将它们的记录传输给附近的计算机网络。这些计算机能够确定在聪明的房间内人们正在说什么和干什么。由于这种连接,进入房间的人能根据自己的行为,声音和表情——而不是键盘,传感器或防护镜——来操纵计算机程序,浏览多媒体信息或大胆进入虚拟现实领域。

关键的设想是这样的,因为聪明的房间知道里面的人的情况,因此它就能聪明地对这些人作出反应。在Pattie Maes和我的协助下,麻省理工学院的研究生Trevor Darrell和Bruce M. Blumberg于1991年在该校建造了第一个聪明的房间:这一首创很快就成为一种协作实验,现在世界上已有五个这样的房间,全都用电话线相连:三个在波士顿,一个在日本,一个在英国(还计划在巴黎、纽约和达拉斯建造这样的房间)。

每个房间都有几台计算机.但是没有一台的功能超过个人计算机,这些计算机解决不同的问题。例如,如果聪明的房间要分辨图象、声音和手势,我们就可以给房间装上三台计算机,每台计算机处理一类信号的译释:如果需要更大的功能,我们就增加机器。尽管是用程序片来解决不同的任务,但是它们都是根据相同的统计方法,也就是所谓的极大似然分析法:计算机将输入的信息与其储存在存储器中的模型相比较。计算机算出每个储存的模型描述现察到的输入信号的概率并最终挑选出一个最接近的模型。通过这样的比较,我们的聪明房间的计算机就可以回答出它们用户的一系列问题,包括他们是谁,甚至在某些时候还包括他们想要什么。

在哪儿?

在聪明的房间能够开始指出人们在干什么之前,它需要判明这些人的位置。因此Christoplier R. Wreru Ali Azarbayejani和Darrell这三位研究生和我开发出一种被称作找人者(Person Finder)的系统(简称为Pfinder)这个系统可以追踪他或她在聪明房间里走动的情况。像我们的其它计算机系统一样,Pfinder系统也是采用的极大似然分析法。首先,它把摄像机拍摄的人摸拟成一个连接的斑点集——两个斑点代表手,两个斑点代表脚,两头、衬衫和裤子各用一个斑点表示。该系统用两种方式来描述每一个斑点,用数值的分布情况来表示斑点的颜色和位置,以及用所谓的支承图(Support map)来描述,该图本质上是表人们的哪些象素属于该斑点的一张表(象素就是“图象的组元”,与组成电视图的点相类似)。第二步,Pfinder系统形成有组织的表面来摸拟背景场面。在这些有组织表面上的每个点相当于一个平均色度值和围绕该平均值的分布情况。

2.png

每当聪明的房间内的摄像机在视频流中拍摄到一张新的照片时,Pfinder系统就将此照片与它制作的模型相比较,同时也与其它的参考图象相比较。开始的时候,系统猜测在新照片中斑点模型会像什么样子。例如,如果一个人的上半身在十分之一秒前以每秒一米的速度向右移动,那么Pfinder系统就认为上半身这个斑点的中心向右移动了十分之一米:这样的估计值也同典型的移动模式相检验。这些模式是我们通过对数千人的试验而得出的。例如,我们知道相当于躯干的斑点一定移动得慢.而相当于手脚的斑点一般就移动得快得多。

判断结束之后,Pfinder系统就测算在新照片上每个象素属于各个斑点的概率。该系统是通过从每个斑点的平均色度和亮度值中减去象素的色度和亮度值来完成这一任务的。系统将得到的结果与每个斑点的分布情况相比较,以确定该差别偶然发生的可能性有多大。例如,如果一个象素与一个斑点的亮度差为10%.而该斑点的统计数字表明这一差异发生的可能性只有1%。那么该象素属于这一斑点的概率就只有1%:阴影在产生亮度差方面仅是一个小问题,阴影造成的亮度差与某一象素属于某斑点的概率无关:因此Pfinder系统就能找出那些比预计更暗的区域(阴影),并且用区域的总亮度来平滑掉阴影的颜色和饱和度。

Pfinder系统还必须克服房间内物体的照明或布置方面的轻微变化所产生的问题,这二者都会使系统将某些象素置于错误的模型中。为解决这一难题,系统不断地校正位于用户后面的象素。将其老的颜色信息同新的颜色信息相平均。这样,系统就能一直追踪发生的变化,例如当用户移动一本书时,从而在两个位置上改变了景象:一个是这本书原先的位置,一个是它现在的位置。在完成这些不同的计算和校正之后,Pfintder系统终于把新照片上的每个象素分配给最有可能含有它的模型。最后,系统再校正描述斑点模型和背景场面的统计数字,以及这些斑点预期的移动路线的统计数字。

谁和怎样?

除了知道人们的位置外,聪明的房间还必须知道他们是谁以及他们在说什么,许多研究人员已经发明出让计算机懂得语言的算法。实际上所有这些计算机系统只有在用户带上话筒或是离话筒很近时才能很好地工作。只有当你处于特定位置时才能译释出你的行为的房间看来并不那么聪明。因此二位研究生Sumit Basu,Michael Casey和我要寻找另一种解决方法——一种在他或她在某一房间里自由走动时能使计算机释解用户说话的系统,即使这间房间十分嘈杂时也行。

3.png

我们最终开发出的计算机系统利用了下述情况,即Pfinder系统在任何时候都能跟踪用户的位置。借助于这一信息,声音识别系统可以用电子方式“操纵”一系列固定的话筒,以便使话筒只能增强那些从用户嘴巴方向发出的声音。这是一种很容易的事,因为声音是按固定的速度传播的,因此只要时间稍有不同它所到达的位置就不同。这样每个声音的位置就会给出不同的时间延迟型式。因此,如果系统从一系列固定的话筒处收集到输出信号并加上某一位置特有的时间延迟之后,它就会使那个位置的声音增强,然后它只需将此声音与已知的单词的输出信号相比较,直到符合为止.

一个聪明的房间还必须知道是谁在说话或是在给谁说话,要具有这种智力,极其重要的是系统要有识别用户身份的能力,是谁在发出指令通常和指令本身一样重要。

聪明的衣服

聪明的房间从某种程度上说就像是一位男管家。他不在你身边却经常寻找机会来帮助你,但有时你更需要一位与你同行的私人助手来满足你的需要,得到这样一位助手的办法就是把聪明房间的摄像机、麦克风和计算机安装在你的衣服内。

4.png

这种聪明的衣服可以提供有关你的环境的私人信息,比如你遇到的人的姓名或是对你下一次聚会的指示等,而这些衣服又可以代替大多数的计算机和家用电器。就像聪明的房间一样,关键的问题是因为你的衣服“知道”、你的环境.它就能智慧地作出反应来帮助你。

麻省理工学院聪明的衣服这一项目是在1992年由Thad Stamei和Steve Marm开始搞的并得到Rosalind W. Picard和我的支持。当我们在一个人的衣服内装上计算机、摄像机、话筒和其它传感器时,计算机的视线应以聪明房间里被动的第三者移到主动的第一人称的优越地位,因此聪明的衣服就可以更亲密地卷入用户的活动,从而使其有可能成为智能私人(数字式的)助手。 '

例如,如果你在你的眼镜框架中装一架摄像机,我们的脸部识别软件通过在你的耳边低声说出他或她的姓名来帮助你想起你正在看的无论是谁的姓名。

或者如果你在你的上衣内装上一个相控阵话筒,那么我的词汇识别软件就可以提醒你想起重要的事情:无论何时当某提到“Megadeal承包”时,软件就会在你的眼镜中的显示器上:映出Megadeal的财政状况.通过在你的鞋子内安一个全球定位传感器,你就可以使用高空导航软件在你的周围找出道路。

我们现在所制成的聪明衣服的样品使用的是现成的安装头部的显示器来为用户提供清静和便利。其中央处理装置设得很小并且不引人注目,我们已经开发出可以替换的输入器以使人们可以在几乎任何情况下使用这些机器,并且他们可以通过无线通讯设施来与互连网保持接触。

我们的目标是提供一种既小巧又轻便的器件.以便人们长期戴在身上——就像人们现在戴眼镜和手表一样——从而在任何时候提供计算的功能。直到今天,聪明的衣服还不是难以觉察的,尤其是安装在头部的显示器;它们给人一种电脑朋克的模样。

识别一个人最快的方法可能是认清他或她的脸。因此,我们为我们的房间开发出一种系统来专门做这件事。通过采用极大似然分析法,这种系统首先要建立它所“知道"的所有脸的模型:在麻省理工学院的二位研究生Matthew A. Turk和Baback Moghaddlam的合作下,我们发现将注意力集中在最能有效描述一整套脸型的那些特征上是很重要的。我们用一种称作本征矢量分析的数学方法来描述这些脸型,并将描述结果叫做“本征脸”。要模拟一张脸,该系统只要确定出这张脸与各本征脸相似的程度即可。

这种方法的效果很好。当摄像机观察一个人时,识别系统就从周围的景象中提取出他或她的脸(由Pfinder系统研究其位置),并且使其差别标准化。识别系统然后根据这张脸与本征脸相似之处来摸拟它,下一步,它将此模型与已知的人们的模型相比较.如果相似程度很接近,该系统就可宣称它已识别出此用户.通过这种方法,我们的聪明房间已准确地识别出几百个人的人群中99%的人的脸。

面部表情与人的身份几乎一样重要。例如,一个数学程序应知道学生是否看上去厌烦了。因此一旦我们的聪明房间发现并辨认出某个人的脸,它就要分析这个人的表情。另一台计算机将摂像机拍下的面部活动同描绘做出各种表情的面部活动图相比较。事实上,每种表情都涉及一种独特的肌肉运动的组合。当你微笑时,你就会使你的嘴角上翘并使你的前额上抬;而当你假装笑容时.你只是动动嘴,根据科学家Irfar A. Essa和我所做的试验,我们的系统已能从人数不多的群体中准确地判断出98%的表情。

识别一个人的脸、表情和言语还仅仅是第一步。对于可以帮助我们的房间、办公室或汽车来说,它们还必须能把这些基本感知用于具有来龙去脉的实际情况中去。归根到底,同样的活动取决于作出这些活动的人的意图而可能有十分不同的解释。例如,当你驾驶一辆汽车时.你有时会把脚从油门上移开,因为你想减速。但是当你准备转弯时你也会做同样的动作。差别在于当你准备转弯时,随着你的脚的动作同时要调整方向盘。因此计算机系统也需要考虑在同其他动作的配合中你的动作如何随时间改变的.以便知道在任意时刻你正在做什么。

在设计这种系统的过程中.我们借用了从事言语识别研究的科学家的一些想法。他们将个别单词摸拟成声音序列,或者正如他们对声音序列的称呼那样,叫内部状态(internal states)。每个单词都有一个内部状态的特征分布,这种分布有时是若干个音素(音素是言语的最小的可区别单元),有时仅仅是音素的一部分。计算机系统通过比较单词具有的声音序列和单词模型,然后选择出那些符合得最好者来试图鉴别单词。

怀着根据人们动作来确定他们意图的希望,我们推广了上述方法。例如.我们设计了一种计算机系统,它可以告诉我们伸出一只手臂的人是指向前方还是仅仅在伸展一下手臂。该系统使用一种具有三种内部状态的模型来识别指向动作:伸出手、保持稳定和迅速放下。该系统把伸展手臂看成是一种连续的动作。因此通过观察这些内部状态——以手伸出的快慢及其动作的指向为征——我们的系统就可以说出谁在干什么。

迄今我们已制造出几种用这方式来诠释人的动作意图的不同系统。最简单的系统是允许人们利其身体来控制虚拟环境。一个这样的应用就是仿真生命人机对话视环境(ALIVE),—个由Maes小组我自己的研究小组联合研究的项目,ALIVE通过利用聪明的房间用户外形的描绘来将该用户的视野模型置于一个虚拟—现实的屏上,屏幕上有着若干计算机形成生命形式。这些虚拟的系统分析关用户手势、声音和位置的信息,决定如何与他或她相互作用。当聪明房间的用户模仿捡起并抛出Silas的虚拟球动作时,这狗就在ALIVE环境中看到同样视频图象并且做好了追捕它的玩的准备。Silas还可根据命令坐下打滚。

聪明的房间的输出还可以用一种更为直接的方式工作,用户身上的位置可以被描绘到一个控制空中,使得他或她的声音和手势能改变计算机程序的工作状态。例如游戏者已经使用这种人机通讯接代替手柄或滚珠来操纵三维虚拟环境。如果在左边出现对手,操作者需转向左边面对他们,要进行射法操作者只需说一声“乒”就可以了。

为什么?

除了虚拟现实游戏外,聪明房间技术还有许多更实际的用途。一是美囯手势语言(ASL),这是聋哑人使用的一套复杂的手势。因为这些手势很复杂,因此它们对于他们的聪明房间提供了一个很好的试验机会。所以,研究生Thad Staner和我开始建立一种用于译释ASL的系统。我们首先对每一建立若干模型.观察用到这些手势的许多例子,就像Pfinder系统一样我们发现,如果我们将这些模型与一个实际用户在打手势吋的若干Pfinder模型相比较,那么我们就可以实时地翻译出ASL的40个词汇,其准确度达到99.2%。如果我们能使我们的系统懂得的词汇量增大——而这似乎很有可能做到——那么对于聋子来说就有可能形成一些接口,其可靠程度同用于有听力的人们的言语识别系统一样。

汽车驾驶员也可以从聪明房间技术中获益:在美国的很多地方,平均每位工人每周要花10个小时在车上。每年在交通事故中有4万多名驾驶员和乘客死亡,其中大多数事故是山干驾驶失误。因此,我们和日产公司坎布里奇基础研究所的科学家AndyLiu一起正在建造一种具有汽车内部情况的聪明房间。最终的目标是要研制出一种能监测到驾驶员在做什么并提供有益的反馈信息,例如道路的方向、驾驶指示乃至旅行警告等的汽车。

为了编辑一套驾驶模型——包括人们在超车、跟踪、转弯、停车、加速或改换车道时他们在做什么——我们观察了许多驾驶员在摸拟过程中驾车时的手和脚的动作,我们使用这些得出的模型来尽可能快地对被测试驾驶员的动作进行分类,令人惊讶的是,该系统可以在动作刚开始时就确定出驾驶员在干什么——该系统在动作开始之后0.5秒内以86%的准确度将动作归类。如果时间増加到两秒钟,则准确度可以上升到97%。

我们证实了至少在简单的情况下,仅使用适度的计算资源就有可能实时地追踪人们的行动,分辨他们并且识别他们的表情。通过将这些能力组合起来,我们已经研制出这样的聪明房间,在这些房间中人们能够不用电线或键盘来控制计算机显示器,同虚拟的动物玩,甚至使用手势语言来通讯。这样的感知智能已经开始用于更为广泛的场合。例如,我们现在已经研制出可以认出你相识的人并在你的耳边说出其姓名的眼镜的样品,我们正在研制能知道人们正朝着它观看的电视屏幕。并且我们还计划研制能识别持有者的信用卡,因而在有人将卡偷走时它能够知道。

6.png

在媒体实验室的另一些研究小组正在研究能增强我们的聪明房间感受注意力和感情的能力,从而对人们行为和动机有更深人的了解。Rosalind W. Picard希望设计出一种能说出驾驶员和学生注意力不集中的系统。Aaron Bobick正在编写用于体育运动中诠释人们动作的软件——设想一种能够区别两种橄榄球动作的电视摄像机,比如说,四分位偷袭和在自己一端抱球向左或向右兜圈前冲的动作,并且能跟踪其行动。随着聪明房间技术的进一步发展,计算机将会比无感觉的工具更像关心人的助手。事实上,设想这样一个世界并不太牵强,在这个世界中非生物和生物的差异实际上开始变得模糊起来。


全部评论

你的评论