当机器人成为科学家

busadmin 发表于 2017年11月30日

当机器人成为科学家

撰文罗斯·D·金（Ross D. King）

翻译郭凯声

科学发现能够实现自动化吗？我不是指实验自动化，而是说，能否创造一种可以发现科学新知识的机器，或者说机器人科学家？过去10年来，我和同事一直在做这样的尝试。

我们的研究主要有两个动机。首先是加深对科学的理解。如著名物理学家理查德·费曼（Richard Feynman）所言：“我不能创造的东西，我就不了解。”遵循这一理念，在尝试创造机器人科学家时，我们的具体工程设计就势必既要涉及抽象概念与实际存在的关系，以及观测结果与理论现象的关系，还要涉及构建假说的方式。

当机器人成为科学家1.png

我们的另一个动机来自技术。机器人科学家搞科研更高效，也更划算。有的科学问题非常复杂，需要的工作量极大，根本就找不到足够多的人类科学家去完成它。让科学研究自动化，就成了解决这些问题的最大希望。

用于科研的计算机技术一直在稳步发展，包括DNA序列测定和药物筛选等“高通量”（high-throughput，即同一时间检测大量样品）实验室自动化技术。还有些进展则不那么引人注目，例如用计算机实现自动化数据分析，以及刚起步的用计算机生成原始科学假说等工作。比如在化学领域，机器学习程序可以帮助研究人员设计药物。机器人科学家的目标就是综合运用各种技术来实现整个科学研究过程的自动化：先提出假说，接着设计并进行实验来验证，然后解读结果并重复这一过程，直到获得新的知识。

当然，最终的问题在于能否设计出可以完成整个科研过程的机器人科学家。从我们设计的两台机器人以及世界上其他研究者设计的机器人展示的本领来看，这一目标能够实现。

单挑酵母亚当初露锋芒

将人工智能（artificial intelligence）应用于科学发现的开创性研究，始于上世纪六七十年代的美国斯坦福大学。研究者设计了一个名为“化学专家分析系统”（DENDRAL）的计算机程序来分析质谱仪数据，相关的“化学专家质谱系统”（Meta-DENDRAL）则是最早的机器学习系统之一。当时研究者试图制造一些自动探测仪器，用在1975年美国航空航天局（NASA）“海盗号”火星探测任务（Viking mission）中，寻找火星上的生命痕迹。遗憾的是，这项任务的难度超越了当时的技术水平。从那时以来，Prospector（用于地质考察）和Bacon（用于一般科学发现）等程序以及它们的继任者，已经能够自主提出假说和设计验证实验。但绝大多数程序无法实际进行自己设计的实验，而对人工智能系统来说，即使只需要实验半独立运行，这都是必需的要求。

当机器人成为科学家2.png

于是，我们开发了名叫“亚当”（Adam）的机器人，它不具备人的外形，只是一个复杂的自动化实验室，占据了办公室的一个小隔间（参见左页图）。整套设备包括一台冰箱，3个液体处理机器人、3只机械臂、3个培养箱和一台离心机，还有其他一些部件，所有装置都是自动化的。当然，亚当还有一个非常强悍的“大脑”—— 一台计算机，它可以进行推理，还可以管理负责操控硬件的多台PC。

亚当通过实验来研究微生物如何生长：它选择微生物菌株和生长培养基，然后一连几天观察这些菌株的生长情况。它可以完全自主地尝试大约1 000种菌株与培养基的搭配组合。我们设计亚当是为了研究生物学中的一个重要领域——功能基因组学（functional genomics），这个学科主要探索基因与其功能的关系，比较适合实现研究自动化。

首次完整研究是针对酿酒酵母（Saccharomyces cerevisiae）进行的，这种微生物在制作面包、啤酒、葡萄酒和威士忌时用得到。生物学家对酵母极感兴趣，因为它对理解人体细胞的运作原理可以起到“模型”作用。酵母细胞的基因比人体细胞少得多。此外，尽管在进化历程中，人类和酵母在10亿年前就分家了，但由于进化非常缓慢，所以对酵母细胞的研究结果绝大部分也适用于人体细胞。

亚当的任务是要破解一个未知的问题：酵母如何利用酶（对特定生化反应起催化作用的一类复杂蛋白质）把它的生长培养基转化为更多的酵母和废物。尽管这类研究始于150多年前，但科学家至今没有完全弄清这一过程。科学家已经知道酵母产生的许多酶，但在某些情况下不知道是何种基因在编码这些酶。亚当的任务就是要发现编码这些“孤儿酶”的“亲本基因”。

要想获得新的科学发现，亚当先得掌握海量的现有知识。我们给亚当“灌输”了广泛的背景知识，包括酶的新陈代谢和酶的功能基因组特性等。我们说亚当拥有的是“知识”而不是信息，这引起了哲学上的争议。我们认为使用“知识”一词是站得住脚的，因为亚当可以用它进行推理，并指导自己与物理世界互动。

亚当使用逻辑语句来表示它的知识。逻辑诞生于2 400年前，用它来描述知识比用自然语言来描述知识更加准确。现代逻辑是表示科学知识、并在机器人和人之间明白无误地交换知识的最精确方法。方便的是，逻辑也可以用作编程语言，这使得亚当的背景知识能够被解读为一个计算机程序。

为了开启亚当的研究，我们为它“灌输”了许多事实。举一个典型的例子：在酿酒酵母中，基因ARO3编码3－脱氧－D－阿拉伯庚酮糖酸－7－磷酸合成酶。我们还“告知”亚当一些相关事实，例如，在磷酸烯醇式丙酮酸（phosphoenolpyruvate）和D－赤藓糖－4－磷酸（D-erythrose- 4-phosphate）发生反应而生成2－脱氢－3－脱氧－D－阿拉伯庚酮糖酸－7－磷酸（2-dehydro-3-deoxy-D-arabino-heptonate -7-phosphate）以及磷酸盐的化学反应中，这种酶起着催化作用。

这些事实综合起来可以得出一个酵母代谢模型，把有关基因、酶及代谢物（化学小分子）的知识整合在一起。模型与百科全书的区别在于，模型可以转化为软件，而软件可以对输入的数据进行处理并作出预测。机器人科学家能够把抽象的科学模型与实验室机器人相结合，自动检验并改进这个模型。

基因推理

科学家在运用科学方法时先要构建假说，然后通过实验来验证由该假说得出的推论。遵照这种模式，亚当应首先归纳出有关酶生物学特性的新假说，然后运用代谢模型来推导基于这些假说的实验结果。接下来它需要通过实验来检验上述推论，以确定由事实归纳得出的假说是否与观测结果吻合。

第一步，亚当要提出有关哪些基因有可能是孤儿酶亲本基因的假说（参见右页图）。为了重点考虑那些最有可能成立的假说，亚当运用了自己的知识库。它知道孤儿酶中有一种叫做2－氨基乙二酸转氨酶（2-aminoadipate transaminase）。这种酶可以催化2－氧代己二酸（2-oxoadipate）与L－谷氨酸（L-glutamate）生成L－2－氨基乙二酸和2－酮戊二酸（2-oxoglutarate）的反应（此反应可逆）。这个反应相当重要，因为它是抗真菌药物的一个潜在靶标，但该酶的亲本基因仍然未知。为了构建一个有关哪种酵母基因可能编码这种酶的假说，亚当首先搜索了知识库，看看有没有来自其他生物的某种已知基因可以编码这种酶。结果它从知识库里找到这一条：褐家鼠（Rattus norvegicus）有一种名为Aadat的基因可以编码这种酶。

亚当取得Aadat基因编码的2－氨基乙二酸转氨酶的蛋白质序列，检查是否有类似的蛋白质序列由这种酵母基因组编码。亚当知道，如果若干蛋白质序列足够相似，那就有理由推断它们是同源的——即它们拥有共同祖先。同时它还知道，如果若干蛋白质是同源蛋白质，它们就可能都具备共同祖先的功能。因此，亚当可以从蛋白质序列的相似性推断它们的编码基因可能具有相同功能。它找出了3种酵母基因（YER152c、YJL060w和YJL202w）编码的蛋白质序列与Aadat基因相似。于是亚当作出假设：这些基因每个都编码2－氨基乙二酸转氨酶。

当机器人成为科学家3.png

亚当进行了许多物理实验来检验这个假说。它的冰箱中保存有品种齐全的酵母菌株，每一种菌株都有一个特定基因被敲除。亚当从中挑选出一些菌株加以培养，然后考察了某些化学物（如参与这种酶催化反应的L－2－氨基乙二酸）存在的条件下，YER152c、YJL060w和YJL202w基因分别被敲除的3种酵母菌的生长情况。

下一步是对这些酵母菌株进行实验。科研经费总是有限，科学家又常常暗中较劲，都想率先解决问题。因此我们在设计亚当时要求它能够策划高效的实验方案，既快又省地检验假说。为了达到这一目标，亚当假设每个假说都有一定的概率为真。这个假设是有争议的，卡尔·波珀（Karl Popper）等哲学家就反对假说具有对应的概率。不过，大多数从事实际研究的科学家都心照不宣地假设，某些类型的假说被证明为真的可能性大于其他假说。例如，科学家一般都信奉所谓的“奥卡姆剃刀”（Occam’s razor）原理——如果两个假说其他各个方面都相同，则比较简单的假说为真的概率大于复杂的假说。亚当还会考虑实验成本，目前只有化学药品的价格被纳入了核算范围，如果把时间成本也考虑进去就更加合理了。

给定一组具有对应概率的假说以及一组具有相应成本的备选实验，亚当的任务就是挑选一系列适当的实验，用最低的成本来排除假说，最终只保留一条。以最优方式追求这个目标，从计算角度来看难度极大。但我们的分析证明，亚当采取近似技巧后选择的实验，能够比其他方法（例如仅仅选择成本最低的实验）更快地解决问题，而且也更省钱。在某些情况下，亚当甚至可以一举多得：仅仅设计一个实验便能同时评估多个假说。人类科学家很难完成同样的工作，他们通常一次只考虑一个假说。

12个新假说

一旦亚当的人工智能系统确定最佳实验方案，它就会利用机器人装置去完成实验，并观察结果。亚当无法直接观察基因或酶，它只能记录有多少光透过酵母培养基照射出来。亚当根据这些数据，通过一系列复杂推理，推断所获证据是否与有关基因和酶的假说相吻合。这种推理过程在科学上很具代表性。例如，天文学家可以根据他们通过仪器观察到的辐射情况，来推断遥远星系中发生的一切。

确定假说的一致性是亚当最棘手任务之一，因为被敲除后会使酵母生长出现本质差异的基因，已经全部被科学家找了出来。敲除其他基因对酵母菌的生长通常影响不大。为了确定一个基因被敲除后带来的影响是否重要，亚当使用了复杂的机器学习技术。

亚当生成并通过实验验证了20个关于酵母中特异性的酶由哪些基因编码的假说。同所有科学论断一样，亚当的推断也需要验证。因此，我们利用亚当接触不到的其他信息源，动手做新实验来检查亚当的结论。我们确定，亚当得出的结论中有7个是已知的，一个似乎有误，而其余12个对于科学界来说则是全新的。

为了核实结果，我们自己动手实验，证实YER152c、YJL060w和YJL202w这3个基因确实编码了2－氨基乙二酸转氨酶。以前，人们未能发现这些基因所起的作用，原因或许在于这3个基因编码的是同一种酶，而这种酶又可以催化一系列化学反应；通常的做法是把一个基因单纯同一种酶联系起来，但这种方法并不适用于上述情形。亚当能进行周密的实验安排和统计分析，这种能力对厘清复杂情况不可或缺。

机器人是科学家？

有些人反对“机器人科学家”这种说法。他们指出，亚当更像是一名助手，而不是可独当一面的科学家。这种说法有一定道理。那么，说亚当凭一己之力自主地发现了新的科学知识是否合理呢？先看看“自主”一词吧。我们不可能把亚当装配完毕就一走了之，过几个星期再回来看它得出了什么结论。毕竟亚当只是一台原型机，它的软硬件不时会出些问题，需要技术人员伺候。整合亚当各软件模块的工作也还须改进，以使这些模块能实现一体化无缝运作而无需人的参与。然而，亚当构想假说并通过实验证明新知的过程是自主的，不需要人来帮它动脑筋做事情。

“发现”（discovered）一词引发的争议可追溯到19世纪，与计算机史上的传奇人物洛甫雷斯伯爵夫人（Lady Ada Lovelace）有关。洛甫雷斯是著名诗人拜伦（Lord Byron）的女儿，曾与最早提出通用计算机这一设想的查尔斯·巴贝奇（Charles Babbage）有过合作。洛甫雷斯声称：“分析机根本不可能有原创能力。它能做的任何事情都是我们指挥它去做的。”100年后，伟大的计算机科学家阿兰·图灵（Alan M. Turing）以儿童作比方反驳了这种说法。如果学生有了成就，他们的老师不会把功劳全部据为己有；同样道理，如果机器提出了什么想法，人要把功劳完全揽到自己头上也是不公平的。这类争议在商业领域的重要性越来越明显，《美国专利法》就规定，只有“人”才能“发明”东西。

当机器人成为科学家4.png

最后一个问题，亚当的科学发现究竟有多么新颖？亚当假设并通过实验证实了啤酒酵母菌中基因与酶功能之间的某些对应关系，这一发现肯定是新颖的。虽然算不上重大发现，但也绝非无足轻重。在2－氨基乙二酸转氨酶这个研究案例中，亚当发现了3个基因，它们或许能解决科学家50年来都没有弄清的难题。当然，亚当得出的结论中有些可能是错的，所有科学认识将来都有可能发生改变；但如果说它的所有结论都不正确，似乎也不大可能。亚当得出的结论公布出来已有两年，还没有人指出任何错误。据我所知，除我们以外的科学家中，还没有人想要重复亚当的实验。

亚当能否跻身科学家之列，另一项评估原则是看它构建新假说的方法是否可以推广。亚当开始做实验后，我们便着手开发第二台机器人——夏娃。夏娃将相同的自动化研究流程运用于药物筛选和设计，这是医学和商业领域中一项重要工作。从设计亚当中获得的启示，帮助我们把夏娃打造成了一个更加精致的系统。夏娃的研究集中在疟疾、血吸虫病、昏睡病（sleeping sickness）和南美洲锥虫病（Chagas disease）上。尽管夏娃的软件系统仍处于开发阶段，但它已经发现了一些可能具有抗疟疾潜力的有趣化合物。

有些研究者目前使用的方法与亚当大同小异。美国康奈尔大学的霍德·利普森（Hod Lipson）使用自动化实验来改进移动式机器人的设计，加深自己对动态系统的认识。还有一些研究者在尝试开发可用于化学、生物学及工程技术领域的机器人科学家。

包括我们在内的好几个团队，都在寻找实现量子物理学研究自动化的途径，特别是如何控制量子过程。例如，美国普林斯顿大学的赫舍尔·A·拉比茨（Herschel A. Rabitz）就在探索利用飞秒级激光器（1飞秒=10-15秒）了解形成或断开目标化学键的方法。这项研究面临的挑战是，如何迅速拟出智能实验的方案。

人机联手相得益彰

如果我们认同机器人可以成为科学家，那么就会想要弄清它们的局限性。把实现科研自动化与机器下国际象棋作个比较，可以给我们一些启示。机器自动下棋基本算是一个已经解决的问题，现在电脑的水平不在世界顶尖棋手之下，招数精彩绝伦。电脑的棋艺之所以如此出众，是因为国际象棋代表的是一个有界限的抽象世界：64个方格加32枚棋子。科学与象棋的抽象特性有许多共同之处，但要实现科研自动化，则要困难许多，因为实验是在物理世界中进行的。不过我估计，开发有能力从事高水平科学研究的机器人科学家，或许要比开发能够与人进行社会交流的人工智能系统容易。在科学研究中，我们可以肯定地说，物理世界不会有意欺骗你，但在人类社会中就完全不同了。

顶级象棋大师已经开始利用电脑来提升棋艺，比如分析棋局，拟定新的攻击套路等。同样，人与机器人这两类有着各自优缺点的科学家，也可以通过合作，取得比各自单干更大的成就。计算机硬件和人工智能系统等领域的进展，还将使机器人科学家变得越来越聪明。

人类创造的这些机器最终能否应对颠覆传统模式的全新科学，还是仅仅只能局限于一些常规研究，是涉及科学事业前途的一个关键问题。一些顶尖科学家，比如诺贝尔物理学奖获得者菲利普·安德森（Philip Anderson）就认为，颠覆传统模式的全新科学极其深奥，不是自动化机器玩得转的。但另一位诺贝尔物理学奖得主弗兰克·维尔切克（Frank Wilczek）撰文说，100年后最出色的物理学家将是机器。孰对孰错，时间会告诉我们答案。

不管怎样，我都认为未来将会出现人与机器人这两类科学家携手合作的局面。科学知识将通过逻辑语言来描述，并借助互联网即时传播开来。在推动科学进步方面，机器人将发挥越来越大的作用。

全部评论

你的评论

请登录发表评论

互动科普