搜索软件挖出学术剽窃

admin 发表于 2017年12月02日

搜索软件挖出学术剽窃

一款辅助阅读文献的私人软件，意外揭露了大量学术剽窃行为，以及涉及数亿美元经费的学术欺诈案。

撰文哈罗德 ·“斯基普”· 加纳（Harold "Skip" Garner）翻译刘爽

那时候，我就对人类基因组计划有所耳闻：这个计划的目标是破解人类染色体约30亿个DNA碱基对的序列信息，换句话说，也就是人类的遗传密码。我被这个计划迷住了。碰巧，当时我从《科学美国人》杂志上的文章中了解到，人类基因组计划所需的某些技术手段尚待开发，这可是物理学家和工程师大显身手的时候。不久之后，我成了得克萨斯大学西南医学中心的教授，与一位遗传学家搭档，负责建设人类基因组计划最早期的研究中心之一。

在西南医学中心，一切都和以前不一样。同事们惯用医学思维，而我是地地道道的物理学思维。在物理学领域，最基本的几个方程几乎可以主宰一切，但在医学上，根本没有普遍适用的方程，只有大量观察结果、局部有效的知识，以及一大堆专业术语。在医学研讨班里，我把那些闻所未闻的生词记下来，然后花好几个小时来复习。平时，我也会常备一部医学辞典在手边，以便顺利阅读学术文献。

即便如此，遇到篇幅稍长一些的学术文章，我还是束手无策。于是，我决定开发一个程序，来改变这令人沮丧的局面。我想开发的是一个搜索引擎，输入一段文字后，就能搜出一系列参考文献，供我进一步阅读，通过这些文献的摘要或内容，我就可以迅速了解某个研究课题的基本情况。要达到这个目的并非易事。当时，网页搜索引擎刚刚起步，要搜出城市里最好的餐厅还成，但还完全无法理解一段包含诸多关联概念的文字，自然也就没法找到相关领域的延伸阅读资料。

我带着博士后和学生们，开始研究文本分析。我们共同开发出了eTBLAST软件（electronic Text Basic Local Alignment Search Tool，电子文本基本局部比对搜索工具）。之所以取名为eTBLAST，是受到另一款用于搜索DNA及蛋白质序列数据库的软件BLAST的启发。在BLAST中进行检索时，提交的通常是一串包含100～400个碱基的、较短的DNA序列，返回结果则是包含这个短序列的许多长序列。而在eTBLAST中，检索时提交的通常是包含100多个单词的一段文本。设计eTBLAST的搜索协议，比设计一款用来搜索一串字符的软件更难，因为eTBLAST搜索引擎不能只着眼于字符，必须能够识别同义词、缩写，乃至用不同单词表达的相似语义，还要考虑词序的影响。当检索用户提交一大段文字后，eTBLAST会从目标数据库中搜索，然后返回一个有序排列的结果列表，并标示出每一条检索结果的摘要与检索对象之间的相似度。

我们最先想到的目标数据库是Medline。这个数据库由美国国立卫生研究院（NIH）下属的美国国家医学图书馆（NLM）维护，囊括了与医学相关的所有生物学研究的信息。Medline收录了数千份同行评议期刊中数以百万计的学术论文的标题和摘要，通过PubMed的网站pubmed.org，就可以在Medline数据库中进行检索。Medline有一个基于关键词的搜索引擎，因此，用“乳腺癌基因”之类的关键词搜索，就能返回许多结果，而且往往附有论文全文的链接。然而，作为刚刚进入生物医药研究领域的新手，我常常连应该用什么关键词进行搜索都搞不清楚。

eTBLAST最初的几个版本需要花好几个小时，才能在Medline数据库中对一段包含几百个单词的文字进行比对。尽管如此，这个软件还是很有用的。在eTBLAST的帮助下，我可以通过逐段理解的方式，顺利通读学术论文。当我收到一份研究生的开题报告时，我就可以迅速了解与之相关的文献情况。我和研究搭档甚至与谷歌公司讨论过这款软件的商业化，最终，因为不符合谷歌公司的商业模式而作罢。

然而，接下来的事情就有些出乎意料了。在学生们的开题报告中，我多次发现与未引用文献完全相同的文字。这些学生因此接受了学术道德再教育，而我则收获了一个改变我的研究方向的课题：在生物医学领域，有多少专业文献涉及剽窃？

建立数据库

我开始研究这个新课题之前，生物医学领域对剽窃问题的研究以匿名调查为主。在我找到的最近一次调查中，有1.4%的被调查者承认有过剽窃行为。然而，这个数字的准确性取决于调查对象的诚信度，有了eTBLAST，我们就可以知道，他们是否说了实话。

我们配备了一台性能足够强大的计算机，招募了足够多的学生，然后，我们就开始从Medline中随机选取一些摘要，作为eTBLAST的检索对象，用计算机将检索对象的内容与整个Medline数据库的内容进行比对，寻找相似之处，得到一个相似度较高的结果的列表。列表中每一条结果后面，都附有一个相似度分数（similarity score），代表这条结果与检索对象之间的相似程度。当然，检索对象本身必然排在这个结果列表中的第一条，因为相似度分数是100%。列表中第二条结果的相似度分数通常在30%以下，但个别情况下，我们会发现，第二条甚至第三条结果的相似度分数也接近100%。进行了数千次检索后，我们发现，大约5%的检索结果的相似度分数高得可疑。我们亲自检查了这些可疑的摘要，以确定软件给出的高相似度结果，在我们亲眼目睹时也会认定为高度相似。然后，我们又比较了那些相似度高得可疑的摘要对应的论文全文。

不久之后，我们发现了一些赤裸裸的剽窃：不仅字句重复，甚至通篇照搬。这种情况令人震惊，让人失望。尽管我们已经知道，有1.4%的研究者承认剽窃，但当我们看到这些剽窃的实际情况时，那种感觉是完全不同的。对参与这项工作的学生来说尤其如此，他们仿佛是在参与打击犯罪的行动，从某种程度上来说，也确实如此。

接下来，我们继续扩大分析规模。为了做得彻底，我们打算对Medline里每一条足够长的条目都进行检索。当时，这样的条目共有约900万条，平均每条包含300个单词。检索时，对每一个条目，都要与数据库中全部900万个条目进行比对。这项计算任务占用了我们实验室计算能力中相当大的一部分，耗时几个月才得以完成。我们对计算结果进行分析，把高度相似的结果归入一个数据库。我们将这个数据库命名为“似曾相识”（Deja Vu）。“似曾相识”数据库里逐渐堆满了彼此高度相似的Medline摘要，相似度超过56%的约有8万对。这些高度相似的结果中，绝大多数都可以用合理的原因来解释，比如，对原有文章的修订、会议综述。但除此之外的那些就值得怀疑了。

我们撰写了一篇论文，投稿给《自然》杂志，文章提供了剽窃和一稿多投（有时也称为“自我剽窃”）现象的统计数据，并详细介绍了“似曾相识”数据库所包含的内容和一些典型案例。这篇文章得到了《自然》杂志编辑的认可，但被律师拒绝了。律师给出的理由似乎很充分：只有编辑和道德审查委员会，才有权认定剽窃。我们只能呈现事实，比如，文本重叠的数量，或两篇学术文章之间的相似度。我们对论文进行了修改，最终得到了律师的认可。

我们的论文在《自然》杂志上发表后，立刻惹来了不少乱子。《自然》杂志的编辑们抱怨道，这下他们可有得忙了。为了保护版权，原始文章的编辑必定会要求对剽窃文章撤稿，而剽窃文章的出版方则必然陷入尴尬境地。科学家也被激怒了，因为我们提供的数据和分析结果，暴露了同行评议机制的漏洞。然而，大家都不得不承认的是，这是一个很重要的议题，也是一个很严重的问题。科学家和临床医生做出重要决策时，都会参考他们读过的学术文献。如果他们的决策建立在有瑕疵的研究之上，会造成怎样的后果呢？

最终，我们认定，专业出版物中有0.1%存在明目张胆的抄袭。我们还只是搜索了与其他文章几乎完全雷同的文章，想必还有很多只抄袭了一小部分内容的情况，但鉴于eTBLAST仅检索论文的摘要，因而无法对后一种情况进行认定。大约1%的情况属于自我剽窃。有一位作者的成果，几乎一字不差地出现在5种不同的期刊中。0.1%、1%，这两个比例看似很小，但别忘了，每年新发表的生物医学论文总数高达60万篇。

不久之后，我们注意到出版流程有了变化：期刊编辑们在审核稿件时，开始使用eTBLAST软件。我的身份也变了，我在自己的工作描述中，加上了“学术道德研究者”。

搜索软件挖出学术剽窃.jpg

惊人的剽窃

前面所作的研究已经颇具规模，但还只是个开始。要厘清剽窃的原因及其对学术发展的影响，我们还需要做更多的工作。文本重复的现象是从什么时候开始出现的？科学家是在什么境况下决定使用剽窃伎俩的？他们为什么要剽窃？文本分析技术还能揭露哪些不道德的行径？为了解答这些问题，我们进一步完善软件，扩充数据库，随即开始了新的研究。

在接下来的工作中，我们发现，剽窃行为其实也有一些出人意料的微妙区别。在某些情况下，不同文章中的文本高度相似，不仅是可以接受的，而且就应该这样。例如，一篇研究论文的方法描述部分，最重要的作用是说明重现研究结果需要进行的操作，此时，非原创的表述可以清楚地说明，以前的研究已经采用过同样的操作过程。

我们还发现了一些极端的学术不端案例。在一篇发表于《科学》杂志的论文中，我们列举了搜集到的最露骨的剽窃案例，并对这些案例进行了详尽的分析。在这些案例中，剽窃论文平均有86%的内容与原始论文雷同。我们对剽窃论文和原始论文雷同的地方做了标注，并将带标注的论文副本连同一份秘密调查问卷，通过电子邮件的方式发给论文作者及编辑，询问他们是否了解两篇文章的相似之处，以及对此作何解释。90%的被调查者作出了回应。

其中一些作者公开了令人震惊的学术不端行为。一些作者承认，自己在评审他人文章时剽窃了其中的内容，随后又对被评审文章做出负面评价，使其不能发表。也有一些作者将责任归咎于实际上并不存在的学生。有一个作者说，他剽窃文章只是为了开个玩笑，而此人竟是他们国家的全国学术道德委员会的副主席。不出意料的是，我们列举的那些涉及剽窃的论文，大多数都被撤稿了。

接下来，我们又发现了其他的学术不端行为。2012年初，我们开始寻找在科研基金上“两面沾光”（double-dipping on grants）的案例。所谓“两面沾光”，是指借助同一个研究项目，从不同的政府机构获取多重基金。我们搜集了大约86万份科研基金的概况，这些基金来自多个政府部门和私营机构，包括美国国立卫生研究院、美国国家科学基金会、国防部、能源部，以及苏珊·G·科曼乳腺癌基金会（Susan G. Komen for the Cure）。然后，我们用eTBLAST对这些资料进行处理。我们的这项研究需要进行大约80万乘以80万次（约为10的12次方）比对，因此，需要超级计算机才能完成。

我们审阅了1 600份最为相似的科研基金概况后发现，大约170对基金，在研究目标、理论假设上几乎完全相同。我们由此推断，“两面沾光”的行为由来已久，全美最具声望的一些大学也卷入其中，此类行为每年给生物医学研究领域带来的损失高达2亿美元。

文本分析的未来

总有一小部分人会破坏社会规范，在科学家群体中也不例外。在研究基金缩减，或者学术职位竞争加剧的情况下，一些研究人员可能会突破道德底线，铤而走险。事实上，近期低质量期刊的爆炸式出现，已经使得现在发表一篇文章比以往任何时候都简单，哪怕公然剽窃的文章，也可以顺利发表。

文本分析为我们提供了一种监督学术不端行为的高效工具。除了揭露剽窃行为，文本分析还能够以全新的方式，实现研究成果的共享。一个很有趣的构想是：采用维基百科的模式，为某个研究领域建立一个动态的电子资料库，由科学家持续不断地进行编辑和完善。在这种模式下，每一篇新发表的“论文”都在对这个不断发展的科学分支的知识系统添砖加瓦，而在这些“论文”中，重复性的研究方法描述就不那么必要了。

维基百科模式只是过渡阶段，最终，可以构建一个中央数据库，将所有学科、全部学术出版物囊括在内。作者和编辑可以利用文本挖掘，来验证某个研究思路的创新性，进而建立一个可靠的评价体系，评估某个新想法或新发现的影响力。理想情况下，一篇文章的影响力将不再取决于被引用次数，而取决于它对总体科学知识乃至全社会的影响。

4年前，我转到弗吉尼亚理工大学，继续苦苦支撑eTBLAST的运转，为数千用户提供服务。我的妻子金·梅尼尔（Kim Menier）也是我的商业合作伙伴，我们都看好文本分析的前景，致力于将这种基于段落相似度的搜索技术应用于其他领域，例如科研基金管理、市场分析，以及专利尽职调查。谁知道，我们会不会成为下一个谷歌呢？根据我的亲身经验，我敢断定，文本分析技术真的可以为我们展现许多东西。这项技术已经让我们真切地看到，芸芸众生都有缺点，科学家也不例外。

全部评论

你的评论

请登录发表评论

互动科普