“玩”出的人文研究自动化_互动科普

使用社交账号登录

购买价格:
付款方式:

互动科普

主页 > 科普纵览 > 心理 • 人文

“玩”出的人文研究自动化

admin  发表于 2017年11月24日

“玩”出的人文研究自动化

撰文 埃里克·韩德(Eric Hand)    翻译 高天羽

 

艾勒兹·李博曼·艾登(Erez Lieberman Aiden)正站在他那栋联排别墅的露台上,踮着赤裸的脚,身子前后摇晃,一边还大声朗诵着一节祷词,那些希伯来语词汇在哈佛大学一座座安静的庭院中回荡。这是4月下旬的一天,日头已经西斜,光和热正在悄悄溜走,天空也转成了靛蓝色。“Shalom aleichem!”他吟唱道:愿平安与你同在。

“玩”出的人文研究自动化1.png

李博曼·艾登,分子生物学家,应用数学家,年方31岁,却已经是新兴领域“数字人文学”(digital humanities)的老前辈了。现在他的确需要得到一点安宁:他那10个月大的儿子一直在哭,刚刚停下;他好容易腾出点时间,在客人到来之前穿上了一条磨破的黑裤子和一件亮晶晶的合成纤维套衫;他的山羊胡和蓬乱鬓发之间还有刚长出的胡须茬儿。前一天夜晚,他刚搭夜班火车从美国新泽西州的普林斯顿大学回到马萨诸塞剑桥市的哈佛大学。在普林斯顿,这位科学怪人执行了一项棘手的任务:当着一屋子博学的历史学家宣布,自己的努力终于使他们的大部分工作变轻松了——李博曼·艾登及其同事对500万本书籍进行了数据挖掘,这些书在人类出版的书籍总数中占到了4%。例如,过去的学者需要终其一生才能厘清某些观念在历史上的变迁,现在有了他们开发的工具,只需几秒就能办到了。

对人文学界而言,李博曼·艾登是带来变革的使者,也是预言末日的先知——这取决于你看待他的角度。但这也只是他诸多成就中的一项而已。在此之前,他还制定过一个划时代的实验流程,揭示了编写生命的DNA是如何紧密折叠,却又不至于纠结缠绕的;他是iShoe公司的总经理,这家公司正在试验一种布满传感器的鞋垫,好让老人走得更稳;他还和妻子共同创立了“无国界小熊”(Bears without Borders)组织,向发展中国家的孩子分发了数千个填充动物玩具(这对伉俪的地下室塞得满满当当,全是捐赠的玩具动物,等待寄出)。李博曼·艾登将精力注入了一个又一个令他兴奋的项目,对他来说,学科间的界限不必跨越,因为它们根本不存在。虽然严格来说,他仍然是哈佛大学的一名博士后,但李博曼·艾登的成果几乎都登上了《科学》和《自然》杂志的封面。他家露台下的楼梯间里挂着好几个镜框,里面放大的杂志封面证明了这一点。

不过那一切都是工作。而现在是吃安息日晚餐的时候。对犹太人来说,这一餐标志着安息日的开始,吃完就该休息了。这一夜,屋子里的灯要开到天明、始终照亮四壁。厨房里,热着食物的烤盘上了定时器。主人点起三根蜡烛,每根都代表家中的一位成员。李博曼·艾登用他那热情洋溢的男中音泰然自若地唱着颂歌,这和他说话时那种尖细、激动的声线截然不同。他注视着自己的妻子,阿维娃·普莱瑟·艾登(Aviva Presser Aiden),她也冲他露齿而笑。现在大功告成,她也有理由休息了:上一周,她刚刚得知自己从位于华盛顿州西雅图的盖茨基金会赢得了10万美元的拨款,她准备把这些钱投入一种微生物燃料电池的研发,用来给非洲的手机充电。这个项目意味着她将在未来的一年里暂停哈佛大学医学院的研究,她正在那里修读医学博士,而此前她已经获得一个遗传学的博士学位了。

在这对学术强人面前,餐桌上的客人——两位年轻、自信的哈佛物理系研究生——看起来有些失落。不过话说回来,这更有可能是因为他们对安息日仪式不熟悉所致。他们翻阅着希伯来语的祈祷书,试图跟上主人的步调。李博曼·艾登在20多岁时曾想去当犹太教祭司,虽然当时不太认真,但现在吟咏时已经不必看书:这些都是他学习了几年的文句,早已了如指掌。

 

将书籍数字化

李博曼·艾登喜欢这么说:我们大致上有两个选择,要么把很少的书读得很仔细,要么把很多书读得“非常、非常粗略”。大多数人文研究者走的是前一条路子。在称为“精读”的过程中,他们从档案里找出原始文献,然后在文本中画重点、写标注、找联系,以此确定和分析作者的用意、历史的潮流以及语言的演化。这也是李博曼·艾登在2007年投给《自然》杂志的论文中遵循的路子。当时,他和同事细读了几本古代语法书,并从中找出了177个古英语(公元800年前后)不规则动词。然后,他们又研究了这些动词在中古英语(公元1200年前后)和现代英语中的形态。结果发现,不常用动词规则化的速度比常用动词更快:“wrought”变成了“worked”,“went”却并没有变成“goed”。在这项研究中,李博曼·艾登切身体会了传统的人文研究方法有多么细致。

可是他转念一想:如果你能把世界上每一本书都“粗略”地读一遍,情况又会怎样?那样,你了解的就不是动词在某个历史时刻如何变形,而是它们如何在连续的时间里与整个文化共同演化。这时,研究中就能包含更多数据,并且更快地进行。开始思考这个问题之后,李博曼·艾登意识到这样“阅读”书籍也正是谷歌图书项目的初衷,这个项目计划将大约1 800万本书籍数字化,其中的多数都出版于1800年以后。2007年,他不太抱希望地给谷歌图书团队的几位成员发去电邮,不料刚过一周,就得到了与谷歌的研究主任彼得·诺维格(Peter Norvig)面谈的机会。“我们谈得挺顺利,”他低调地说。

李博曼·艾登最主要的搭档是29岁的哈佛大学心理系博士后让-巴普蒂斯塔·米歇尔(Jean-Baptiste Michel),两人与谷歌合作,共同开发了一种名叫《n元趋势图》(n-gram viewer)的软件,用来绘制某些短语在5 000亿字的素材中出现的频率图。其中,“一元图”显示的是某一个单词在历史中出现的频率,比如“feminism”;“二元图”显示连续短语出现的频率,比如“touch base”(见“创造性思维”)。

“玩”出的人文研究自动化2.png

谷歌在2010年12月16日发布了这款工具。同一天,李博曼·艾登和同事在《科学》杂志上撰文介绍了它的用途,比如找出规则化速度最快的动词——chide,在短短200年左右的时间里,它的过去式就经历了“chid”、“chode”到“chided”的演化(见“地球上变化最快的动词”)。这篇文章风趣地写道:“我们发现 ‘found’出现的频率比‘finded’(皆为“发现”的意思)高20万倍。相比之下,在我们的数据中,‘dwelt’仅比‘dwelled’(皆为“保留”的意思)多保留了60倍。”穿插在笑话中间的是真正的发现,许多发现远远不局限于动词。通过比较20世纪上半叶的德语和英语文本,研究小组发现,德国纳粹政权曾经压制对于犹太艺术家马克·夏加尔(Marc Chagall)的谈论。因此,n元工具能用来确定哪些艺术家、作家或激进分子曾在不为人知的情况下遭遇封杀。李博曼·艾登和米歇尔把自己的研究方法称为“文化组学”(culturomics),指的是对书籍数据库像基因组一样进行梳理,它也是对未来的一次示意——两位研究者希望,在未来能有更多支撑文化的媒介被纳入研究,比如报纸、博客、艺术、音乐等等。

n元趋势图(ngrams.googlelab.com)上线后,24小时里就获得了100多万次点击量。丹·科恩(Dan Cohen)就职于弗吉尼亚州费尔法克斯市的乔治·梅森大学,是该校罗伊·罗森茨韦格历史和新媒体研究中心(Roy Rosenzweig Center for History and New Media)的主任。用他的话说,这个工具是一种“诱导性毒品”,会将研究者引上数字人文学的道路。“数字人文学”是近年来不断取得进展和经费的新领域(见“一个走向数字化的领域”),这个称号包含许多内容,不仅包括建立涵盖媒体和其他文化数据的大型数据库,也包括人文学者积极开发算法,以运用这些数据库。斯坦福大学的历史学家丹·爱道斯坦(Dan Edelstein)表示:“这些工具彻底改变了我们的研究方法和我们提出问题的方法。”爱道斯坦曾使用映射软件研究启蒙运动时期伏尔泰的信函在欧洲的流传途径,并发现它们是以意想不到的模式传播的。

与此同时,部分身处传统阵营的人文学者却表达了不满。在他们看来,自己的领域根本就不能用n元趋势图工具生成的单词和短语频率图来概括。比如科恩就说:“我认为,把书籍说成人类DNA是一个非常危险的比喻。”他接着说道,像家具、舞蹈、影院票根之类的东西,它们在文化上的贡献该如何衡量呢?那些从未出版的书籍又如何呢?还有全世界为数众多的文盲所接触的文化呢? 

还有学者对整个数字人文学运动持保留态度,尤其是当它威胁到传统研究方法时。普林斯顿大学历史学家、美国历史学会主席安东尼·格拉夫顿(Anthony Grafton)就说:“这不由你不担心:新方法会不会卷走人文领域的全部经费?”直到现在,格拉夫顿还在用一只装了齿轮的巨大木转轮来帮助自己处理那些尺寸超大的文艺复兴资料。他希望广大研究者能继续通过熟读原典增强修为,包括扫描仪不会记录的空白处的潦草笔记,也要一一仔细体味。他说:“这是我们最重要的活动,不该放弃。”

  

延续传统

回到艾登家中,安息日晚宴的客人都用一杯水洗了手,回露台上喝鸡肉丸子汤去了。李博曼·艾登回忆说,他和米歇尔在向普林斯顿大学的史学家们介绍自己的研究时,心里是有些不安的。“我当时有点儿紧张,”他说,“觉得说到后面肯定会遭到谴责。”

虽然李博曼·艾登和米歇尔很在意传统人文学者的感受,但他们毕竟年轻,有抱负,也闲不住,不可能因此放慢追求的步伐。李博曼·艾登说,科学技术对于人文研究的影响已经积累到了质变,技术提供了新工具和新方法,对这些,人文学者已经无法视而不见了。不过,他也不认为旧的路子会就此消失:“在我看来,凡是好的方法就该使用。我想,其中就包括仔细阅读文本、努力领会作者意图。”

这时,餐桌上的客人之一丹尼尔·科尔(Daniel Koll)怯生生地打断他说:“李博曼,你有没有想过,你的思维方式可能受到了从小在家接受宗教熏陶的影响?根据我这个局外人的有限经验,犹太教是很重视个人解经的,对经典的解释没有权威的版本。”他想知道的是,李博曼·艾登除了喜欢冷硬的数据之外,是否也像一切优秀的人文学者一样,喜欢对宗教文本的多义性苦思冥想。

答案显然是肯定的。要不然,这位晚宴的主人又怎么会花上一年时间,在纽约的叶史瓦大学研究《塔木德》(Talmud,指犹太法典)和犹太判例法呢?不过比起自己,李博曼·艾登还是更喜欢谈论别人和别人的想法。他用16世纪的新教学者伊萨克·卡素朋(Issac Casaubon)的故事间接回答了科尔的问题。卡素朋推翻了某些宗教文本源于古埃及的成见,因为这些文本中引用了一个希腊文字游戏,它只可能在几百年后才会出现。“就客观性而言,这则注疏比得上任何科学陈述,”李博曼·艾登说,“人文学科的研究方法是非常、非常令人崇敬的。有些人文学者担心这些方法会地位不保,依我看是多虑了。”

 

两种文化

从在纽约市立医院降生那天起,李博曼·艾登就始终浸淫在语言和技术这两种文化之中。他的母亲是匈牙利人,父亲是罗马尼亚人,两位都是取道以色列移民美国的。李博曼·艾登成长在撒塔玛犹太人(Satmar Jews)的社区里,从小接受犹太教哈西德正统派(Hasidic Orthodox Judaism)的熏陶。他首先学会的语言是匈牙利语和希伯来语,英语只是第三语言。但九岁时,他已经成为了父亲的英文秘书。他的父亲是位自学成才的发明家,开了一家锯子工厂,小李博曼帮忙起草英文合约。他后来上了布鲁克林的一所教会学校,但很快就发现电子游戏比念书带劲。在校的第二年,他意识到自己在《幽浮:飞碟保卫战》(X-COM:UFO Defense)上花掉了太多时间,害得好几门功课挂起红灯,他只好把这个游戏完全戒了。“那其实是一款很棒的游戏。”他不无懊恼地说。

李博曼·艾登很快就为自己的精力找到了有益的发泄口:他获准每周休学一天,去布鲁克林学院的分子生物实验室进修,后来,他又开办了自己的电脑维修业务。以哈西德教派的标准来看,李博曼家算得上是相当世俗的:只有在犹太新年和赎罪日这样的大日子里,一家人才会去会堂礼拜。中学时,李博曼·艾登有一天去汉堡王吃他常吃的培根芝士汉堡,进到店里,他突然决定遵守洁食教规,留下培根不吃——但他没有意识到,在芝士汉堡中混合奶制品和牛肉,这就已经是彻底违反教规了。

李博曼·艾登本科上的是普林斯顿大学。他不单在那里学习了数学和物理,还达到了哲学学位的所有要求。他每学期选修五到七门课程,还见缝插针地报了个文学创作班,专攻俳句写作。毕业之后到了叶史瓦大学,他在那里兼职教授数学,挣到的钱用来攻读历史学硕士,此外他还完成了第一年的犹太教祭司培训。一起研究《塔木德》的阿维·波森维奇(Avi Bossenwitch)说:“他有意把自己塑造成不守常规的人,而且乐此不疲。不过,他是我见过的最谦虚的人。”

科学的魅力最终占了上风。李博曼·艾登离开叶史瓦大学后,在麻省理工学院的博德研究所和哈佛大学开始了博士研究,他的导师是著名遗传学家艾瑞克·兰德(Eric Lander)。但即使在分子生物学的学习中,他也不忘施展数学本领。他从一篇120年前的论文中读到了一种不会打结的结构——一个分形球(fractal globule)。他意识到,这个结构正好可以用来描述两米长的人类基因组是如何折叠到直径只有基因组长度百万分之一的细胞核里去的。他还设计了一个实验来证明基因组的确以这种方式折叠。随后,他就发表了第一篇登上《科学》封面的论文。他在文中展示了分形球如何能够让DNA上相距遥远的片段展开和互动。兰德说自己的这位弟子“兴趣没有边界” 。和其他人一样,他也怀疑文化组学不过是李博曼·艾登在进修数学生物学之余的一门副业。

认识阿维娃·普莱瑟也是在兰德的实验室里。阿维娃是个怕羞的姑娘,来自洛杉矶,当时也在念博士。两人在2005年结了婚,兰德也去送了祝福。他们婚后没有冠对方的姓,而是在各自的姓名后面都加了个“艾登”,这在希伯来语中是“伊甸园”的意思,在盖尔语(通行于古代苏格兰和爱尔兰的语言)中的意思是“小火”。

小火很快烧成大火。2006年6月,他们又得面对一个新的命名难题了:他们的儿子应该叫什么?孩子还在娘胎时,他们暂时管他叫“Snedley Balagan”(Balagan在希伯来语中是“溃败”的意思),但很快就确定为加百列·伽利略·艾登(Gabriel Galileo Aiden)。普莱瑟·艾登说,起这名字时完全不知道它的首字母正好是一种氨基酸的DNA编码,但这话说出去没人相信。

 

工作玩耍两不误

安息日晚餐接近尾声时,加百列决定从睡梦中醒来,这让疲态尽露的普莱瑟·艾登更添劳累。她的丈夫却不愿错过这个晚上最精彩的活动。这是艾登家的保留节目:甜点对抗赛。参赛的每位客人都要根据某个主题设计出一块小蛋糕。鉴于当晚的客人科尔和他女友拉丽莎·周(Larissa Zhou)都热衷于分子美食学(molecular gastronomy,用科学的方式去理解食材分子的物理、化学特性,然后创出“精确”的美食),李博曼·艾登将主题定为食品科学。接着,一盒贝蒂妙厨牌可食装饰物就摆上了桌面。

科尔把他的蛋糕做成了一口炒锅的截面,周则做了一头猪出来——显然不符合犹太教规的洁食标准。李博曼·艾登的作品令人费解:那是一幅群星璀璨的夜空图,彩色糖粒洒出了星星和银河。这和食品科学有什么关系呢?“你懂的,”他略有些得意地说,“美食学(gastronomy)和天文学(astronomy)也就是一个字母的差别。”

加百列又回到了床上,普莱瑟·艾登看来也有去休息的意思,可她的夫君还没有尽兴。时间已近午夜,李博曼·艾登还在口若悬河地谈论拉面中的数学美(2008年的电影《功夫熊猫》里就有展示)。一会儿,他又评价起了一款名叫KnotPlot的数学软件——他妻子就是靠它做出了一些形状很不传统的传统犹太面包。最后,客人们实在不忍看到普莱瑟·艾登的疲惫模样,纷纷告辞回家。

李博曼·艾登大可以继续熬到天亮。他能够一连工作七八十个小时,中间全靠健怡可乐和垃圾食品补充能量。对于文化组学,他有着雄心勃勃的计划。眼下,他正和米歇尔一起,在n元数据库中不断添加新的语言、书籍和其他媒体。他同时也在盘算着新项目,比如和年轻有为的神经生物学家艾德·博伊登(Ed Boyden)合作研究。两人正在设计一种新的方法,希望能依次揭示出数千个单细胞中的基因表达。可是今晚和明天,他都会让电脑一直关着。这么做不是为了遵守安息日的教规,而是为了强迫自己从研究中抽身,换换脑子,陪伴妻儿到公园里散散步。

不过,那条在工作和玩耍之间的界限——正像那条在自然科学和人文科学之间的界限——并不让李博曼·艾登当一回事。按照兰德的说法,那或许正是他成功的原因,因为几个世纪以来,最优秀的科学都是由最爱玩的科学家捣鼓出来的——想想从实验室里逃出去打网球的沃森和克里克,再想想顶着一头乱发骑自行车的爱因斯坦吧。

“想想孩子是怎样的,”兰德说,“他们学习、他们好奇、他们精力十足。可是到了一定的年纪,他们中的许多人就会变得循规蹈矩。他们对学习不再感兴趣,对周围的事物也不再感到惊讶和快乐。李博曼不同,他的玩性没有消失。”

 

一个走向数字化的领域

——人文学科挖掘文化数据



数字人文学——利用算法在文字和其他媒体中寻找意义的学问——已经存在了好几十年。有人把它的源头追溯到了意大利耶稣会学者罗贝托·布萨(Roberto Busa)神父,他曾在20世纪40年代与IBM联手,为13世纪神学家托马斯·阿奎那(Thomas Aquinas)的著作编制索引。

近年来,这门学问又重获新生。学术期刊和行业协会像雨后春笋般冒了出来。在有的大学里,人文学科的研究生都要上统计学和计算机的课程了。文科经费的申请本来比理科难很多,但是对愿意尝试新方法的人来说,现在也稍微容易些了。今年,美国国家人文学科基金会(US National Endowment for the Humanities)携手美国国家科学基金会和加拿大、英国的研究机构,准备为数字人文学发放20笔款项,总额为600万美元。

在数字人文学界,学者使用的文本数据库主要由书籍构成——李博曼·艾登的文化组学项目就是如此(见“大负荷数据”)。斯坦福大学的文学家弗朗哥·莫莱蒂(Franco Moretti)指出,不同门类的小说(哥特小说、恋爱小说等)都有着独特的文本“指纹”,它在名词、动词和介词的使用频率上都会留下印记。“不同门类的作品在任何层面上都不相同,”他解释说,“它们的区别不仅仅在统计数量上。”

“玩”出的人文研究自动化3.png

还有的学者正忙着将其他形式的文化资料数字化。比如,英国牛津大学的语音学家约翰·科曼(John Coleman)就在把500万个口语单词(大致相当于3个月不停说话的单词量)输进数据库,小到每个音素都巨细无遗地记录下来。这些资料主要是他在20世纪90年代用索尼随身听录下的,其中包含了通常被语言学家忽视的一切:新的词汇、含糊的语声,以及根本算不上语言的咯咯声和哼哼声。眼下,科曼已经在研究对话双方如何适应对方的节奏,以及说话的音高如何反映说话人的态度了。他还说,他可以证明男人和女人的语速是相同的,这样一来,语言学的教科书“就非得重写不可了”。

加拿大蒙特利尔麦吉尔大学的音乐技师藤永一郎(Ichiro Fujinaga)正试着在音乐中进行同样的研究。他发起了一项名叫“大批量音乐信息结构分析”(Structural Analysis of Large Amounts of Music Information,SALAMI)的计划,旨在寻找全世界35万段音乐中的共同结构(比如主歌-副歌形式)。他说,数据库中“感恩而死”(Grateful Dead)乐队的录音超过了7 000小时,他和同事就快解决那个“随着时间推移,吉他独奏是变长还是变短”的重大问题了。

--埃里克·  韩德

 


全部评论

你的评论