从电子邮件到社交网络,现代社会生活中无处不在的数字足迹将使社会科学的面貌大大改观。
撰文 吉姆·格尔斯(Jim Giles) 翻译 郭凯声
琼·克莱因伯格(Jon Kleinberg)早期的研究工作对于惧怕数学的人来说绝对是天书。他在1992年发表的首项成果是一篇计算机科学的论文,内容之扎实从它的标题即可见一斑:“论平面上点集在欧几里得运动下的Voronoi图和最小豪斯多夫距离”。
克莱因伯格发表这篇论文时,万维网(互联网的前身)还没有像今天这样无处不在,他本人也还没有开始研究现代生活所打造的无数数字副产品——从电子邮件、手机呼叫以及信用卡购物到互联网搜索和社交网络等。而如今,作为康奈尔大学的计算机科学家,克莱因伯格利用这些领域的数据来撰写诸如《形成你自己的见解有多糟?》《你的问候打动了我的心:论语法分析对可记忆性的影响》之类的怪异论文——这类标题放在社会科学杂志上倒是蛮合适的。
“我知道计算机科学并不只是涉及技术,”克莱因伯格解释说,“它也包含人文话题。”
克莱因伯格并不孤独。计算型社会科学(computational social science)这一新兴领域正在吸引着越来越多爱好数学的科学家参与其中,而这又推动了各大学设立相应的系科,并促使社交网络巨头Facebook之类的公司组建专业研究团队,来探索网络的结构及信息是如何跨越网络传播开来的。
康奈尔大学社会科学家迈克尔·麦西(Michael Macy)是2009年一篇旨在提高这门新学科影响力的宣言式论文的15名作者之一,他指出,“计算型社会科学是真正具有变革意义的学科。以前我们搞社科研究基本上局限于回顾性调查,再加上一些几乎总是针对少数大二学生的实验。”而现在,数字式数据流可望以前所未有的规模及详细程度揭示个人与群体行为。当然它们也向科学家提出了众多挑战,特别是隐私问题,以及数据集可能无法真正反映一般人群的实际情况。
不过,麦西认为:“我觉得这门新学科带来的机遇,可以与粒子加速器为物理学带来的变革,以及核磁共振成像技术为神经科学带来的变革相比。”
大规模研究
克莱因伯格与卡尔顿学院计算机科学家戴维·利本—洛威尔(David Liben-Nowell)2002年所进行的一项研究,是大规模数字式数据用于社会科学问题的早期实例之一。当时,他们考察了一种社会科学家认为有助于促进人际关系形成的机制:人们一般容易与朋友的朋友交上朋友。虽然这种观点已相当根深蒂固,但以前从未在超过几十或几百人的圈子内检验过。
克莱因伯格与利本—洛威尔研究了在科研合作中形成的关系。他们考察了数千名在1994到1997年期间,向专门发表非正式论文的网站arXiv上传过论文的物理学家,并编写了专用软件以自动从论文中提取出姓名。据此,他们建立起一个规模比以前考察过的网络大好几个数量级的数字网,其中每个链接均代表曾经合作过的两位研究人员。通过跟踪此网络随时间的变化,他们找出了几个衡量研究人员之间关系紧密程度的指标,这些指标可以用来预测未来的合作。
不出所料,研究结果表明,新的合作关系往往在彼此圈子有交叉的研究人员中形成——这相当于研究界中“朋友的朋友”了。作出这些预测的数学技巧非常成熟,亦可用到更大的网络上。克莱因伯格的博士研究生拉尔斯·贝克斯特洛姆(Lars Backstrom)也研究过关系预测问题,现在他在Facebook工作,这一经历有了充分的用武之地,帮助他设计出了Facebook目前使用的好友推荐系统。
计算研究人员还证实了社会科学中另一个历史悠久的看法,即“松散联系”——同较少遇到的远方相识者建立的关系——是相当重要的。斯坦福大学的社会科学家马克·格拉诺维特(Mark Granovetter)在1973年提出了下述主张:松散联系构成了社会集团之间的沟通桥梁,因而对于信息的传播和经济流动性非常重要。在数字时代以前,几乎不可能对他的观点进行大规模验证。不过,2007年,网络科学家朱卡—帕卡·翁纳拉(Jukka-Pekka Onnela)领导的一个团队利用400多万名手机用户的数据证实,松散联系的确起到了社交桥梁的作用。
2010年,包括麦西在内的另一个研究团队证明,格拉诺维特关于经济流动性和松散联系之间存在相关性的说法也是正确的。借助于英国6 500万部座机与手机提供的数据,再配合全国人口普查资料,他们发现个人关系的多样性与经济发展之间存在非常紧密的联系:联系方式越丰富,种类越多,当地社区便越富裕。“在20世纪70年代,我们绝对想像不到我们能以如此规模利用数据,”格拉诺维特称。
实际应用
在某些情况下,海量数据证明了人们长期持有的观点其实是错误的。今年,克莱因伯格及其同事利用约9亿名Facebook用户的数据研究了社交网络中的感染机制,描述了各种时尚、政治观点、新技术、金融决策等是如何传播开来的。几乎所有理论均认为,这一过程与病毒感染颇为相似:某人接受一项新观点的可能性,与他所接触的人中相信此观点者的多少成正比。
但克莱因伯格的学生约翰·乌干德(Johan Ugander)却发现,实际情况并非如此简单:某人是否决定加入Facebook,并不在于朋友中已经在使用Facebook的人数,而是在于这些朋友所在的不同社会群体的数目。换言之,与仅有一个群体的朋友在使用Facebook相比,如果你发现你的同事、你所在的运动俱乐部以及你的密友中都有人在使用Facebook,这无疑将给你留下更深刻的印象。由此得出的结论是,某观点的传播情况与持有该观点的人的多样性有关,此结论可能对营销及公共卫生宣传活动具有重要意义。
随着计算型社会科学研究项目的数量与日俱增,关于这类研究的实际应用的构想也越来越多。麻省理工学院的计算机科学家亚历克斯·彭特兰(Alex Pentland)领导的团队借助智能手机应用程序和佩戴式记录装置,收集了受试者每日行踪及通信情况的详尽数据。将这些数据与情绪及身体健康的调查结合起来后,该团队便掌握了如何探知抑郁症等健康问题出现的方法。“我们观察到有的人从不打出电话,”彭特兰说,“处于封闭状态的人需要人们接近,因而发现这些孤独的人,对于设法接近他们非常重要。”彭特兰以前的学生安莫尔·麦丹(Anmol Madan)主管的Ginger.io公司正在开发一款智能手机应用,当它在数据中探测到某种不正常模式,表明主人可能出现健康问题时便会通知公共卫生机构。
其他一些公司则在设法利用Twitter上每日发出的4亿多条微博。有几个研究团队开发出了专用软件以分析人们在微博中所表达的情绪,据此预测电影票房收入或选举结局之类的实际结果。这种预测的精确程度仍是一个有争议的话题,但Twitter已于今年8月开始,每日发布一项完全根据这种方法得出的预测美国总统选举结果的政治指数。与此同时,印第安纳大学的约翰·波伦(Johan Bollen)及同事利用类似的软件来搜索公众在Twitter上所表达的情绪与股市波动之间的关系。他们得出的结果相当给力,以致伦敦的投资公司Derwent Capital买下了其软件的使用权。
意见交锋
当这种以Twitter为基础的民调在两年前浮出水面时,抨击者们质疑,由于Twitter只是在某些特定群体如年轻人中比较受青睐,因此这类调查的结果有可能会失准。所有这些新型数据集都面临着类似的争议。例如,Facebook如今已有近十亿用户,但其中年轻人所占比例仍然过大。此外,在线交流与现实世界中的交流也存在一些差别,而我们也不清楚一个领域中获得的结果是否适用于另一个领域。“我们常常把某个群体使用某种技术的情况加以外推,据此了解一般人是如何互动的,”哈佛大学网络科学家萨穆埃尔·阿伯斯曼(Samuel Arbesman)指出。但实际上,“这种做法不一定合理”。
现在光顾Facebook、Twitter等网站的人群越来越广泛,有助于缩小上述偏差。即使偏差依然存在,我们也有理由认为它并不比其他数据集——例如心理学和人类行为研究的数据集——所存在的偏差严重,因为后一类调研绝大多数是对西方社会的大学生进行的,而西方社会的特点是教育水平高,工业发达,富裕且民主(常称WEIRD社会)。
对于“大数据”的涌入,格拉诺维特持一种更富哲理性的保留态度。他说自己对这些新方法“极感兴趣”,但他担心,一味看重数据可能会使人们忽视这一点,即我们有必要进一步加强对社会系统的理论研究。“这些计算型论文基本上都是在讨论现有的理论,即使最出色的也是,”他指出,“当然这也是很有价值的,但它只是我们需要做的事情中的一部分。”比如,格拉诺维特关于松散联系的论文在近40年后仍然经常被引用,不过,这篇论文“差不多可以说是无数据的。它不是由数据分析得出的结果,而是在对其他研究项目进行思考后得出的结果。发现新理论是一项单独的活动,需要有人来做这事”。
新一代社会科学家也在努力解决数据获取的问题。“许多新涌现的‘大数据’来自个人数据源,其他研究人员是得不到的,”惠普实验室计算机科学家伯纳多·休伯曼(Bernardo Huberman)说,“这些数据源可能是隐蔽的,这就使核实数据的问题更加棘手,同时也让人们更加担心基于上述数据的研究结果是否普遍适用。”
Facebook的内部研究团队便是一个典型例子。该团队常常利用Facebook九亿用户之间的互动数据来开展自己的研究,其中一项研究是重新评估“地球上任意两人,通过6个人就能建立联系”这一说法(Facebook的研究团队将此数定为5个)。但该团队仅公布了结论,而没有公布原始数据,原因之一在于隐私问题。今年7月,Facebook宣布,将探讨一项方案,让外部研究人员有机会根据匿名的汇总数据来核查其内部研究团队公布的结论,但核查的时间有限制,而且仅限于第一次光临Facebook总部的外部研究人员。
短期内,计算型社会科学家更关心的是学科内的文化问题。若干院校(包括哈佛大学)已开设了这个新领域的课程,但壁垒森严的学术界限却常常使得不同系科之间几乎没什么交流。据哥伦比亚大学的社会科学家兼网络理论家邓肯·沃茨(Duncan Watts)回忆,不久前一次日程安排出错,他只能同时和计算机科学与社会科学的研究生见面。“事情再明显不过,这两个专业的学生真的能够取长补短:计算机专业的学生掌握的方法比社会学学生好得多,而社会学学生的长处则在于,他们那里有着更多引人入胜的问题。他们以前从来没有听说过对方,也没有任何人走到另一个系去看看。”
哈佛大学社会学家、2009年那篇宣言式论文的第一作者戴维·拉扎尔(David Lazar)也认为,许多研究人员仍未意识到新型数据的强大威力。目前几乎没有以数据为导向的研究在社会科学专业的顶级杂志上发表,而主打社会问题的计算机科学会议(如今年6月在都柏林举行的博客与社交媒体大会)则难以吸引社会科学家前来光顾。
不过,拉扎尔指出,随着具有里程碑意义的论文在高水平杂志上亮相,描述社会行为的数据集首次为研究人员所用,上述障碍将逐步消失。“未来的变化将会比过去更多,”他认为。
这肯定也是克莱因伯格的看法。“我觉得自己是一名对社会问题感兴趣的计算机科学家,”他声称,“不同领域之间的界线越来越难以区分了。”
本文作者 吉姆·格尔斯是美国旧金山的自由撰稿人。
请 登录 发表评论