科学论文top 100_互动科普

使用社交账号登录

购买价格:
付款方式:

互动科普

主页 > 科普纵览 > 生物 • 医学

科学论文top 100

admin  发表于 2017年11月23日

《自然》杂志评选出了有史以来引用次数最多的100篇科学论文。

 高温超导体的发现、DNA双螺旋结构的测定、对宇宙加速膨胀的首次观测——所有这些科学上的重大突破都获得了诺贝尔奖,赢得了国际赞誉。然而,这些论文的被引用次数,没有一篇能排进历史前100名,甚至连接近这个排名都很困难。

1511877169281953.jpg

所谓“引用”是指,一位科学家在自己的论文中,提及另一篇论文中的方法、发现或观点等。这是论文作者对其研究方法、想法和发现的来源表示感谢的标准方式,也经常用来粗略地估计一篇论文的影响力。50年前,美国科学家尤金·加菲尔德(Eugene Garfield)建立了科学文献索引(SCI)数据库,这是科学文献领域中系统性追踪论文引用的首次尝试。为了纪念这一创举,《自然》杂志请目前SCI数据库的所有者汤森路透公司列出了有史以来引用次数最多的论文。搜索范围包括了整个汤森路透科学数据库,这是SCI的在线版本,其中也包括了社会科学、人文艺术、会议论文集和一些书籍,列举了从1900年到今天发表的各类论文。

最后的结果有些出人意料,不仅因为大家发现一篇论文需要被引用多达12 119次才能登上前100名的榜单,更因为很多在全世界范围内最有名的论文并不在此列。当然,还是有一些著名论文进入了前100,比如首次发现碳纳米管(第36位),这无疑是一项经典的发现。但榜单里的绝大多数论文,都描述的是某个领域中的某种重要实验方法或软件。例如,有史以来引用量最高的论文发表于1951年,它描述了一种分析方法,用于测量溶液中的蛋白质含量。这篇文章的引用数累计已达305 000次——这样的认可程度甚至让论文的第一作者、美国生化学家奥利弗·劳里(Oliver Lowry)都摸不着头脑,在1977年他写道:“尽管我很清楚那并不是一篇伟大的论文,但我还是会为此窃喜不已。”

我们知道,科学文献的总量是十分巨大的,因此能从海量文献中脱颖而出的前100名论文,必定是极其突出的。汤森路透科学数据库中包含5 800万项内容,如果把总量比作一座乞力马扎罗山(主峰海拔5 895米)的话,引用量最高的100篇论文就相当于山顶的那1厘米。而引用数超过1 000的论文只有14 499篇,大概只相当于1.5米。而山麓则是最多只被引用过一次的论文——它们占据了论文总数的一半左右。

荷兰莱顿科学技术研究中心的保罗·沃特斯(Paul Wouters)认为,许多描述方法的论文“已经变成了标准的引用文献,科学家通过引用它们来告诉其他科学家他们做的是什么样的工作。”此外,在科学中,真正最基本的理论(比如爱因斯坦的狭义相对论)常常并不会得到太多的引用,这是因为它们太重要了,以至于面世以后马上就进入教科书,或者融入其他主流的研究文献,大家对这方面的术语也变得很熟悉,反倒不需要引用了。

被引次数还与其他多种因素相关。比方说,可被引用的文献总量上升了,但旧的文献本来就比新的文献有更多的时间和机会得到引用;此外,生物学家比物理学家更爱引用别人的研究成果。而且,各个领域发表文章的数量也不尽相同。因此,现代的文献统计学家在评价论文的价值时,已经不再使用直接评估引用次数这种简单而粗糙的方法了,他们更喜欢比较同一时代和相似领域内的文章的引用次数。

汤森路透的这份名单并不是唯一的论文排名。谷歌学术(Google Scholar)也为《自然》汇总了一份他们自己的前100名名单。谷歌的统计包含的引用数更多,因为和汤森路透相比,虽然它们对文献的标准和分类做的并不很好,但收集的数量要大得多。在谷歌的名单中,经济学论文占了更重要的地位,同时还专门统计了书籍的部分——这也是汤森路透没有分析过的。不过在科学论文中,很多论文与汤森路透的名单重合。虽然有着这样那样的问题,这份用看似古老的方法得出的统计结果仍然有其价值——不管怎么样,它提醒着我们,这是一个由科学知识组成的世界。为了得到激动人心的重大发现,研究者需要依赖一些默默无闻的论文来描述实验方法、数据库和软件。

在这里,《自然》将为大家详细介绍几种被引用了上万次的关键方法和手段。描述这些方法的文章爬到了科学界的“乞力马扎罗山顶”,它们极其重要,却很少引起人们的注意。

 

生物技术

在几十年的时间里,蛋白质生化研究一直在前100名论文中占据着主导地位。劳里在1951年发表的论文描述了定量分析蛋白质的“劳里法”,这篇论文以几乎不可动摇的优势雄踞第1位。尽管很多生物学家认为,这一方法,以及榜单中位列第3、由美国科学家M·M·布拉德福德(M. M. Bradford)所撰写的论文描述的蛋白定量法都已经过时了,但这些方法仍然是不可或缺的工具,在细胞和分子生物学领域起着重要作用,这体现在它们超高的引用率上。

在前100篇论文里提到的生物技术中,至少有两种后来得到了诺贝尔奖。位于第4的论文介绍了一种DNA测序方法,这一方法后来使论文作者弗雷德里克·桑格(Frederick Sanger)获得了1980年的诺贝尔化学奖。第63位的论文介绍了聚合酶链式反应(polymerase chain reaction),这是一种复制DNA片段的方法,美国生物学家凯利·穆利斯(Kary Mullis)因这一方法而获得了1993年的诺贝尔化学奖。这两种方法帮助科学家探索并操控DNA,从而引爆了生物学研究的一场革命,并一直持续到今天。

其他一些方法受到公众的赞誉相对较少,但也并不是没有给作者带来回报。在20世纪80年代,意大利的癌症遗传学家尼科莱塔·萨基(Nicoletta Sacchi)与当时在美国的波兰裔分子生物学家彼得·霍姆琴斯基(Piotr Chomczynski)一同开发了一种从生物样品中提取RNA的廉价方法并发表在论文中。后来,随着这一方法迅速得到普及(原论文累计被引次数排在历史第5位),霍姆琴斯基对它做了改良并申请了专利,最终建立起试剂销售产业。如今,萨基在美国罗斯维尔帕克癌症研究所工作,她觉得虽然自己没从这一成果中得到多少经济上的好处,但看着在自己工作的基础上,诞生了很多伟大的发现,她还是感到心满意足。比方说,关于不编码蛋白质的小RNA分子的研究,在后来一段时间呈爆炸式增长,而萨基发明的方法在小RNA研究中也起了重要作用。萨基说:“对我来说,在科学的角度上,这就是极大的回报。”

 

生物信息学

桑格发明了新的DNA测序方法后,基因测序技术开始急速发展,这促使人们研究怎样对测序结果进行分析,关于这方面的论文排名也急剧上升。一个最好的例子便是局部序列排比检索基础工具(BLAST)——对于近20年来所有想分析基因与蛋白质作用的生物学家来说,使用这一工具就像是家常便饭。使用者只需在浏览器中打开这个程序,插入一段DNA、RNA或蛋白质序列,在几秒钟之内,程序就会列出几千种生物体中与这段序列相关的所有序列,以及关于这些序列功能的信息,甚至包括了相关文献的链接。BLAST受欢迎的程度如此之高,以至于描述这一程序的不同版本的两篇文献都上了榜,分别列在第12位和第14位。

不过,由于科学家引用习惯的差异,BLAST在榜单上没能压过另外一个叫做Clustal的程序。这是一个补充性程序,可以用来快速匹配大量的序列。它能帮助研究者描述不同生物体的基因序列在进化上的关系,从看起来毫不相关的两段序列中寻找相似点,并能预测基因或蛋白质在某一点上的变化会对功能产生怎样的影响。一篇发表于1994年的论文描述了这一程序的一个版本,称为ClustalW,这篇论文在榜单上排名第10。而描述另一版本ClustalX的文献则排名第28。

开发出ClustalW的研究小组在德国海德堡的欧洲分子生物学实验室工作。他们刚开发出这一程序时,用的是个人电脑而非大型计算机。不过在1991年,一位叫做朱莉·汤普森(Julie Thompson)的计算机科学家加入了他们的实验室,并改造了他们的软件,使其适应了当时已经变得庞大复杂的基因组数据,使用起来也更加方便顺畅。BLAST和Clustal的团队在文献引用次数上的排名上有着竞争关系,不过据Clustal团队中的一员、都柏林大学的德斯·希金斯(Des Higgins)说,他们的竞争是友好的。“BLAST团队是了不起的颠覆者,他们得到的每一次引用都是他们应得的。”

 

系统发生学

另一个随着基因组测序技术的出现而蓬勃发展的领域是系统发生学(phylogenetics),它研究的是物种之间的进化关系。

位于榜单第20位的论文介绍了一种叫做“邻接法”(neighbor-joining)的方法,可以根据衡量生物体之间进化距离的变量(如遗传变异等),把生物体放到进化树上的合适位置,每次排进一对相关的生物体,直到完成一棵进化树。

这一方法是体质人类学家斋藤成也(Naruya Saitou)于上世纪80年代加入得克萨斯大学根井正利(Masatoshi Nei)研究组时提出的,自此,人类进化学和分子遗传学与信息学产生了交汇,并取得了突飞猛进的发展。

 “那个时候,我们体质人类学家正经历着类似于现在的‘大数据’一般的变革,”斋藤回忆道,他现在任职于日本国立遗传学研究所。这一方法让人们得以从庞大的数据集中获得进化树信息,而不用消耗大量的计算资源。无独有偶,Clustal的算法也使用了同样的策略,这是前100名榜单中的研究互相渗透、融合的一个缩影。

榜单中第41位的文章描述了统计学与系统发生学的结合。1984年,华盛顿大学的进化生物学家乔·费尔森施泰因(Joe Felsenstein)运用了一种叫做“自助法”的统计工具来推断进化树不同部分的置信度。自助法意为从一个数据集里多次提取样本,由不同样本估计结果的变化,得出每个分支的置信度。

费尔森施泰因认为,由斯坦福大学的统计学家布拉德利·埃弗龙(Bradley Efron)于1979年提出的“自助法”这一概念,要远比他的论文重要得多,但将这一方法应用到生物学问题中就意味着会有海量的生物学研究者来引用他的文章。

这么高的引用率也是他当时实在太忙的结果:他将好几篇论文的内容压缩进了一篇论文,如果分别发表的话,引用数就会被分散了。

 

统计学

尽管前100名中有大量关于统计学的论文,但来自芝加哥大学、熟谙统计学历史的统计学家斯蒂芬·施蒂格勒(Stephen Stigler)认为,榜单中的论文在统计学家看来,根本就不是最有影响力的重要文献。相反,它们只是对绝大多数科学家的实际研究而言最有用的那些文章。

统计学的这些跨越性发展,绝大多数来自于生物医学实验室中对愈发庞大的数据流的处理。比方说,引用频次最高的统计学论文(第11位)是在1958年由美国统计学家爱德华·卡普兰(Edward Kaplan)和保罗·迈耶(Paul Meier)两人发表的。该文章帮助研究人员寻找人群(例如临床试验的参与者)中的生存模式,其方法后来被称为“卡普兰-迈耶估算”。统计学领域中引用数第2(总排名24)的论文是由英国统计学家戴维·考克斯(David Cox)在1972年发表的,他将这类分析进行了拓展,包含了诸如性别和年龄之类的因素。

谁都没有预料到卡普兰和迈耶论文的成功。这篇论文在发表之初几乎没有人引用,直到上世纪70年代计算机性能大幅提升后,文章所介绍的方法才在非专业人士中间得到广泛使用。简洁的思路与便捷的使用为这一领域的论文赢得了大量人气。英国统计学家马丁·布兰德(Martin Bland)和道格拉斯·奥尔特曼(Douglas Altman)提出了一种方法(后来被称做“布兰德-奥尔特曼”差异图),可以用作图的方法体现出两种测量方法的一致程度。这个想法在14年前就被另一名统计学家提了出来,但布兰德和奥尔特曼首次把它变成可行的方法,这为他们带来了排名第29的论文引用数。

榜单里所有统计学方面的论文,不管是最老的还是最新的,解决的都是同一个问题:对数据的多重比较,而它们的科学背景则各不相同。美国统计学家戴维·邓肯(David Duncan)于1955年在论文(排名第64)中描述的方法可用于几组数据之间的比较,而在发表于1995年、排名第59的论文中,以色列统计学家约阿夫·本杰明尼(Yoav Benjamini)与优素福·霍赫贝格(Yosef Hochberg)则描述了一种控制错误发现率的方法,这一方法极其适合处理基因组学数据或神经科学中的成像数据,可以对数十万组数据进行比较,这个规模大概是邓肯怎么也想不到的。

 

密度泛函理论

理论研究者如果想要对一种物质进行模拟,不管是药物分子还是金属,他们都得用软件来计算这一材料中电子的行为。根据电子的行为,研究者可以推导出物质的其他性质——如蛋白质的反应活性,或者地球外核中液态铁的导热性。

而这类软件,绝大多数都是建立在密度泛函理论(DFT)的基础上,无怪乎DFT成为物理学中被引用得最频繁的概念了。在前100名榜单中,有12篇论文与DFT有关,排名前10的论文有两篇。根据英国牛津大学材料物理学家费利恰诺·朱斯蒂诺(Feliciano Giustino)的解释,DFT从本质上讲就是一种近似手段,将本来复杂到几乎不可能求解的数学计算变得简单。如果想要研究每一个电子、每一个原子核与所有其他电子和原子核的相互作用,科学家需要分析1021 TB的数据——远远超出任意一台计算机的能力范围。而如果采用了OFT,我们只需要分析几百KB的数据,而这是普通笔记本电脑都能做到的。

DFT是在半个世纪前,在理论物理学家沃尔特·科恩(Walter Kohn)的引领之下发展起来的理论,他的两篇论文也分别排名第34位和第39位。科恩认为,我们可以假设每个电子不是作为一个个体与其他电子发生作用,而是作为一个整体的平均,并以此计算系统的各项性质,比如最低能态等。总体的数学方法非常直接:把整个系统看做一片连续的“液体”,其密度随位置的变化而改变,这就是“密度泛函理论”这一名称的来源。

但直到几十年后,研究人员才发现了将这一思想应用于实际材料的方法。前100排名的论文中,有两篇是对DFT方法提供技术改良,并开发了软件包。其中一篇(排名第8)的作者是加拿大达尓豪西大学的理论化学家阿克塞尔·贝克(Axel Becke),另一篇(总排名第7)是由当时在美国的理论化学家李振德(Chengteh Lee)、杨伟涛(Weitao Yang)以及罗伯特· 帕尔(Robert Parr)发表的。

贝克说,软件的使用者可能会引用最初的理论文章,哪怕他们其实并不能完全看懂整个理论。“DFT理论,包括数学以及计算机软件等,都是非常专业的,是留给量子物理学家和化学家来考虑的,而其应用则是无穷无尽的。DFT可以在最基本的层面上描述一切化学、生化、生物学、纳米系统以及材料方面的现象,毕竟地球上的万事万物都依赖着电子的运动。”

 

晶体学

乔治·谢尔德里克(George Sheldrick)是德国哥廷根大学的一名化学家。他从20世纪70年代就开始编写软件,以求解出晶体结构。他说:“在那个时候,你不能指望用那种事情来挣钱。我的职业是教授化学,只是出于爱好在空闲的时间写写程序。”但40年以后,他的工作最终带来了定期更新的计算机程序包SHELX的诞生,这一软件已经成为分析晶体X射线散射图样、确定原子结构的最强有力的工具。

2008年,谢尔德里克发表了一篇综述,讲述了SHELX系统的历史,并指出这篇综述可以作为通用的引文,在使用到SHELX时引用。研究者们听从了他的建议。从2008年发表至今的6年中,这篇综述已经被引用了近38 000次,排名蹿升至历史第13位,成为近20年里发表的论文中被引次数最多的文章。

在前100榜单里,陆陆续续还出现了其他一些在晶体学和结构生物学中至关重要的工具,包括用来分析X射线衍射数据的HKL程序包(第23位)、用来分析某一蛋白质结构在几何上是正常还是奇异的PROCHECK程序(排名第71),以及用来描绘分子结构的两个程序(排名第82和第95)。正如美国国立卫生研究院的数据科学副主任菲利普·伯恩(Philip Bourne)所说,这些工具对于测定物质的晶体结构来说,就是不可或缺的“砖头与水泥”。

榜单中也有着不同寻常的存在。在发表于1976年的一篇文章中,作者罗伯特·香农(Robert Shannon,当时他在化学巨头杜邦公司工作)编制了一张全面的表格,记录了各种材料中的离子半径。这篇论文排名第22位。伦敦帝国理工学院的材料科学家罗宾·格兰姆斯(Robin Grimes)认为,这是因为物理学家和化学家经常需要查找与物质性质关系紧密的离子大小,而查找时就需要引用来源文献,这就使香农这篇论文成为有史以来被引次数最多的数据库文献。

 “我们经常想都不想就会引用这类文献,”格兰姆斯的同事保罗·福萨蒂(Paul Fossati)说。而前100名榜单中的很多科研方法与数据库又何尝不是这样?这份榜单正说明了计算机与大型数据集分析对现代科研的影响是何等深远。不过它也提醒我们,某一种特定的方法或数据库在引用排行榜上的位置,也跟具体情况和运气有关。

 



全部评论

你的评论