搜索软件挖出学术剽窃_互动科普

使用社交账号登录

购买价格:
付款方式:

互动科普

主页 > 科普纵览 > 信息 • 能源

搜索软件挖出学术剽窃

admin  发表于 2017年12月02日

搜索软件挖出学术剽窃

 

一款辅助阅读文献的私人软件,意外揭露了大量学术剽窃行为,以及涉及数亿美元经费的学术欺诈案。

 

撰文 哈罗德 ·“斯基普”· 加纳(Harold "Skip" Garner) 翻译 刘爽

 

那时候,我就对人类基因组计划有所耳闻:这个计划的目标是破解人类染色体约30亿个DNA碱基对的序列信息,换句话说,也就是人类的遗传密码。我被这个计划迷住了。碰巧,当时我从《科学美国人》杂志上的文章中了解到,人类基因组计划所需的某些技术手段尚待开发,这可是物理学家和工程师大显身手的时候。不久之后,我成了得克萨斯大学西南医学中心的教授,与一位遗传学家搭档,负责建设人类基因组计划最早期的研究中心之一。

在西南医学中心,一切都和以前不一样。同事们惯用医学思维,而我是地地道道的物理学思维。在物理学领域,最基本的几个方程几乎可以主宰一切,但在医学上,根本没有普遍适用的方程,只有大量观察结果、局部有效的知识,以及一大堆专业术语。在医学研讨班里,我把那些闻所未闻的生词记下来,然后花好几个小时来复习。平时,我也会常备一部医学辞典在手边,以便顺利阅读学术文献。

即便如此,遇到篇幅稍长一些的学术文章,我还是束手无策。于是,我决定开发一个程序,来改变这令人沮丧的局面。我想开发的是一个搜索引擎,输入一段文字后,就能搜出一系列参考文献,供我进一步阅读,通过这些文献的摘要或内容,我就可以迅速了解某个研究课题的基本情况。要达到这个目的并非易事。当时,网页搜索引擎刚刚起步,要搜出城市里最好的餐厅还成,但还完全无法理解一段包含诸多关联概念的文字,自然也就没法找到相关领域的延伸阅读资料。

我带着博士后和学生们,开始研究文本分析。我们共同开发出了eTBLAST软件(electronic Text Basic Local Alignment Search Tool,电子文本基本局部比对搜索工具)。之所以取名为eTBLAST,是受到另一款用于搜索DNA及蛋白质序列数据库的软件BLAST的启发。在BLAST中进行检索时,提交的通常是一串包含100~400个碱基的、较短的DNA序列,返回结果则是包含这个短序列的许多长序列。而在eTBLAST中,检索时提交的通常是包含100多个单词的一段文本。设计eTBLAST的搜索协议,比设计一款用来搜索一串字符的软件更难,因为eTBLAST搜索引擎不能只着眼于字符,必须能够识别同义词、缩写,乃至用不同单词表达的相似语义,还要考虑词序的影响。当检索用户提交一大段文字后,eTBLAST会从目标数据库中搜索,然后返回一个有序排列的结果列表,并标示出每一条检索结果的摘要与检索对象之间的相似度。

我们最先想到的目标数据库是Medline。这个数据库由美国国立卫生研究院(NIH)下属的美国国家医学图书馆(NLM)维护,囊括了与医学相关的所有生物学研究的信息。Medline收录了数千份同行评议期刊中数以百万计的学术论文的标题和摘要,通过PubMed的网站pubmed.org,就可以在Medline数据库中进行检索。Medline有一个基于关键词的搜索引擎,因此,用“乳腺癌基因”之类的关键词搜索,就能返回许多结果,而且往往附有论文全文的链接。然而,作为刚刚进入生物医药研究领域的新手,我常常连应该用什么关键词进行搜索都搞不清楚。

eTBLAST最初的几个版本需要花好几个小时,才能在Medline数据库中对一段包含几百个单词的文字进行比对。尽管如此,这个软件还是很有用的。在eTBLAST的帮助下,我可以通过逐段理解的方式,顺利通读学术论文。当我收到一份研究生的开题报告时,我就可以迅速了解与之相关的文献情况。我和研究搭档甚至与谷歌公司讨论过这款软件的商业化,最终,因为不符合谷歌公司的商业模式而作罢。

然而,接下来的事情就有些出乎意料了。在学生们的开题报告中,我多次发现与未引用文献完全相同的文字。这些学生因此接受了学术道德再教育,而我则收获了一个改变我的研究方向的课题:在生物医学领域,有多少专业文献涉及剽窃?

 

建立数据库

我开始研究这个新课题之前,生物医学领域对剽窃问题的研究以匿名调查为主。在我找到的最近一次调查中,有1.4%的被调查者承认有过剽窃行为。然而,这个数字的准确性取决于调查对象的诚信度,有了eTBLAST,我们就可以知道,他们是否说了实话。

我们配备了一台性能足够强大的计算机,招募了足够多的学生,然后,我们就开始从Medline中随机选取一些摘要,作为eTBLAST的检索对象,用计算机将检索对象的内容与整个Medline数据库的内容进行比对,寻找相似之处,得到一个相似度较高的结果的列表。列表中每一条结果后面,都附有一个相似度分数(similarity score),代表这条结果与检索对象之间的相似程度。当然,检索对象本身必然排在这个结果列表中的第一条,因为相似度分数是100%。列表中第二条结果的相似度分数通常在30%以下,但个别情况下,我们会发现,第二条甚至第三条结果的相似度分数也接近100%。进行了数千次检索后,我们发现,大约5%的检索结果的相似度分数高得可疑。我们亲自检查了这些可疑的摘要,以确定软件给出的高相似度结果,在我们亲眼目睹时也会认定为高度相似。然后,我们又比较了那些相似度高得可疑的摘要对应的论文全文。

不久之后,我们发现了一些赤裸裸的剽窃:不仅字句重复,甚至通篇照搬。这种情况令人震惊,让人失望。尽管我们已经知道,有1.4%的研究者承认剽窃,但当我们看到这些剽窃的实际情况时,那种感觉是完全不同的。对参与这项工作的学生来说尤其如此,他们仿佛是在参与打击犯罪的行动,从某种程度上来说,也确实如此。

接下来,我们继续扩大分析规模。为了做得彻底,我们打算对Medline里每一条足够长的条目都进行检索。当时,这样的条目共有约900万条,平均每条包含300个单词。检索时,对每一个条目,都要与数据库中全部900万个条目进行比对。这项计算任务占用了我们实验室计算能力中相当大的一部分,耗时几个月才得以完成。我们对计算结果进行分析,把高度相似的结果归入一个数据库。我们将这个数据库命名为“似曾相识”(Deja Vu)。“似曾相识”数据库里逐渐堆满了彼此高度相似的Medline摘要,相似度超过56%的约有8万对。这些高度相似的结果中,绝大多数都可以用合理的原因来解释,比如,对原有文章的修订、会议综述。但除此之外的那些就值得怀疑了。

我们撰写了一篇论文,投稿给《自然》杂志,文章提供了剽窃和一稿多投(有时也称为“自我剽窃”)现象的统计数据,并详细介绍了“似曾相识”数据库所包含的内容和一些典型案例。这篇文章得到了《自然》杂志编辑的认可,但被律师拒绝了。律师给出的理由似乎很充分:只有编辑和道德审查委员会,才有权认定剽窃。我们只能呈现事实,比如,文本重叠的数量,或两篇学术文章之间的相似度。我们对论文进行了修改,最终得到了律师的认可。

我们的论文在《自然》杂志上发表后,立刻惹来了不少乱子。《自然》杂志的编辑们抱怨道,这下他们可有得忙了。为了保护版权,原始文章的编辑必定会要求对剽窃文章撤稿,而剽窃文章的出版方则必然陷入尴尬境地。科学家也被激怒了,因为我们提供的数据和分析结果,暴露了同行评议机制的漏洞。然而,大家都不得不承认的是,这是一个很重要的议题,也是一个很严重的问题。科学家和临床医生做出重要决策时,都会参考他们读过的学术文献。如果他们的决策建立在有瑕疵的研究之上,会造成怎样的后果呢?

最终,我们认定,专业出版物中有0.1%存在明目张胆的抄袭。我们还只是搜索了与其他文章几乎完全雷同的文章,想必还有很多只抄袭了一小部分内容的情况,但鉴于eTBLAST仅检索论文的摘要,因而无法对后一种情况进行认定。大约1%的情况属于自我剽窃。有一位作者的成果,几乎一字不差地出现在5种不同的期刊中。0.1%、1%,这两个比例看似很小,但别忘了,每年新发表的生物医学论文总数高达60万篇。

不久之后,我们注意到出版流程有了变化:期刊编辑们在审核稿件时,开始使用eTBLAST软件。我的身份也变了,我在自己的工作描述中,加上了“学术道德研究者”。

 

搜索软件挖出学术剽窃.jpg


惊人的剽窃

前面所作的研究已经颇具规模,但还只是个开始。要厘清剽窃的原因及其对学术发展的影响,我们还需要做更多的工作。文本重复的现象是从什么时候开始出现的?科学家是在什么境况下决定使用剽窃伎俩的?他们为什么要剽窃?文本分析技术还能揭露哪些不道德的行径?为了解答这些问题,我们进一步完善软件,扩充数据库,随即开始了新的研究。

在接下来的工作中,我们发现,剽窃行为其实也有一些出人意料的微妙区别。在某些情况下,不同文章中的文本高度相似,不仅是可以接受的,而且就应该这样。例如,一篇研究论文的方法描述部分,最重要的作用是说明重现研究结果需要进行的操作,此时,非原创的表述可以清楚地说明,以前的研究已经采用过同样的操作过程。

我们还发现了一些极端的学术不端案例。在一篇发表于《科学》杂志的论文中,我们列举了搜集到的最露骨的剽窃案例,并对这些案例进行了详尽的分析。在这些案例中,剽窃论文平均有86%的内容与原始论文雷同。我们对剽窃论文和原始论文雷同的地方做了标注,并将带标注的论文副本连同一份秘密调查问卷,通过电子邮件的方式发给论文作者及编辑,询问他们是否了解两篇文章的相似之处,以及对此作何解释。90%的被调查者作出了回应。

其中一些作者公开了令人震惊的学术不端行为。一些作者承认,自己在评审他人文章时剽窃了其中的内容,随后又对被评审文章做出负面评价,使其不能发表。也有一些作者将责任归咎于实际上并不存在的学生。有一个作者说,他剽窃文章只是为了开个玩笑,而此人竟是他们国家的全国学术道德委员会的副主席。不出意料的是,我们列举的那些涉及剽窃的论文,大多数都被撤稿了。

接下来,我们又发现了其他的学术不端行为。2012年初,我们开始寻找在科研基金上“两面沾光”(double-dipping on grants)的案例。所谓“两面沾光”,是指借助同一个研究项目,从不同的政府机构获取多重基金。我们搜集了大约86万份科研基金的概况,这些基金来自多个政府部门和私营机构,包括美国国立卫生研究院、美国国家科学基金会、国防部、能源部,以及苏珊·G·科曼乳腺癌基金会(Susan G. Komen for the Cure)。然后,我们用eTBLAST对这些资料进行处理。我们的这项研究需要进行大约80万乘以80万次(约为10的12次方)比对,因此,需要超级计算机才能完成。

我们审阅了1 600份最为相似的科研基金概况后发现,大约170对基金,在研究目标、理论假设上几乎完全相同。我们由此推断,“两面沾光”的行为由来已久,全美最具声望的一些大学也卷入其中,此类行为每年给生物医学研究领域带来的损失高达2亿美元。

 

文本分析的未来

总有一小部分人会破坏社会规范,在科学家群体中也不例外。在研究基金缩减,或者学术职位竞争加剧的情况下,一些研究人员可能会突破道德底线,铤而走险。事实上,近期低质量期刊的爆炸式出现,已经使得现在发表一篇文章比以往任何时候都简单,哪怕公然剽窃的文章,也可以顺利发表。

文本分析为我们提供了一种监督学术不端行为的高效工具。除了揭露剽窃行为,文本分析还能够以全新的方式,实现研究成果的共享。一个很有趣的构想是:采用维基百科的模式,为某个研究领域建立一个动态的电子资料库,由科学家持续不断地进行编辑和完善。在这种模式下,每一篇新发表的“论文”都在对这个不断发展的科学分支的知识系统添砖加瓦,而在这些“论文”中,重复性的研究方法描述就不那么必要了。

维基百科模式只是过渡阶段,最终,可以构建一个中央数据库,将所有学科、全部学术出版物囊括在内。作者和编辑可以利用文本挖掘,来验证某个研究思路的创新性,进而建立一个可靠的评价体系,评估某个新想法或新发现的影响力。理想情况下,一篇文章的影响力将不再取决于被引用次数,而取决于它对总体科学知识乃至全社会的影响。

4年前,我转到弗吉尼亚理工大学,继续苦苦支撑eTBLAST的运转,为数千用户提供服务。我的妻子金·梅尼尔(Kim Menier)也是我的商业合作伙伴,我们都看好文本分析的前景,致力于将这种基于段落相似度的搜索技术应用于其他领域,例如科研基金管理、市场分析,以及专利尽职调查。谁知道,我们会不会成为下一个谷歌呢?根据我的亲身经验,我敢断定,文本分析技术真的可以为我们展现许多东西。这项技术已经让我们真切地看到,芸芸众生都有缺点,科学家也不例外。


全部评论

你的评论