【摘编】学术论文越来越趋于开放自由
选自Authorea
机器之心编译
参与:路雪、刘晓坤、李亚洲
摘编:incinc
arXiv 是当前最流行的预印本库。今天,arXiv
每个月发布文章超过 10000 篇,涉及高能物理学、计算机科学、定量生物学、统计学、计量金融等领域。arXiv
早期的成功来自于新技术的发展和合作共享文化的完善。自
1991 年创办以来,arXiv 为研究者提供了一个在正式同行评议之前分享预印本文章的平台。新技术使文档创建和分发更加便捷,文化实践推动合作和数据共享,这使得
arXiv 快速发展,日渐流行。
arXiv 在研究交流和
Web 历史上占据独特的位置,但是它自创建以来几乎很少改变。在此文章中,我们看一下
arXiv 的优势和缺点,进而探讨新技术可以给
arXiv 带来怎样的改变。
『arXiv 的优势』
arXiv 自创立以来,就提供最便捷和最强大的方式,使研究者能够共享研究成果。作者可以免费、快速、直接地与研究社区共享研究成果,同时也使公众可以免费地获取研究成果。arXiv
是一些世界上最重要研究的「故乡」,比如「庞加莱猜想的证明」(Perelman,
2002; Perelman, 2003; Perelman, 2003a)和「希格斯玻色子的发现」。1991
年之后的差不多 20 年内,大多数其他领域并未获得同样的信息自由交流待遇,直到近期大量
arXiv 的仿制品出现在新的领域。易用和实用恰恰贴合了
arXiv 所服务的研究社区(技术先进且具备长期分享和合作传统的研究者)的需求,还有网站的简洁性。
『arXiv 的劣势』
自创办以来,arXiv 迅速且持续的成功源于它乐于利用新技术(LaTex、电子邮件、网页服务器),且它本就是服务于协作、开放、共享的技术社区。然而,随着时间变化,arXiv
并未改进、反思自我,未能追随科学领域技术与社区实践的变化。阻碍
arXiv 迅速创新的最主要因素是什么?
1限制于单个社区
物理学领域之外的大部分研究人员,用
Microsoft Word 或其他 WYSIWYG 编辑器写草稿。使用
LaTex 渗透进了大部分研究领域(数学、统计学、物理学、天文、计算机科学),据统计,用
LaTex 编写的学术文章比例大约为
18%(2016,Pepe)。LaTex
的界面、语言、使用方式对不会编程或者只用过
WYSIWYG 编辑器的人来说都是陌生的。
以打印为主的「PDF」垃圾场
当你上传一个 LaTex 文件时,arXiv
会压缩它并创建一个 PDF 文档。这是标准的程序。在学术界,数十年来都是用
PDF 或 Postscript 格式交换、阅读文章的。PDF
是印刷手稿的一种有效、简单的方式,但它并不适合在网页上阅读、讨论和共享。PDF
文档(大多数)是静态、二维且不可编辑的,甚至可以说
PDF 只是纸质论文的数字图片。
2低可发现性
arXiv 支持的研究成果均为
PDF 格式。作者提交论文时提供的题目、摘要和作者名单是元数据,PDF
文档中包含这些内容,同时 HTML 文件中也有这些内容,以提高文章的可发现性。搜索引擎在
PDF 文本挖掘中的效果越来越好,但现在或以后的搜索引擎从稠密的两列论文中抽取和理解文本的可能性仍然很低。重点是,逆向工程对于
PDF 文档是无效的。那么我们为什么要把内容锁在机器不可读的格式中呢?
3数据
数据共享已经成为所有学科的基础惯例了。简单来说,如果公开的研究论文建立在数据之上,作者需要提供他们的研究所基于的资源(数据和代码)最小集。但这在
arXiv 的「LaTex to PDF」机制下不可能实现。从
2010 年到 2013 年,arXiv
尝试过在论文侧边处放置数据,但失败了。虽然该项目遇到了政府支持中断的情况,但我们认为失败的部分原因在于论文和数据独立存在。
现在人们如何共享数据呢?使用
kludgy 策略。例如天文和物理学领域的一种增长趋势是在发表或预印论文中添加数据集链接。这种做法使得数据更可见、更可信,因为数据集是链接到论文的。但最近的调查显示,加链接容易过期。
『未来的 arXiv』
如果能够重建 arXiv 以展望
arXiv 未来的样子,那么以上所列出来的与其说是挑战,不如说是机会,为了构建更好的
arXiv,我们将给出几个建议。
1网页原生性的和网页优先的
学术交流圈中越来越多的人一致认为学术出版需要超越
PDF 格式的限制,而且我们都相信未来的论文将是网页原生性的(web-native)(Goodman
2016)。照此,未来的 arXiv 将不得不允许以
HTML 的格式接收作品和论文。将学术论文转化为
HTML 是为未来的学术知识库铺平道路的第一步。你阅读的论文,无论是
PDF 还是 HTML 的格式,都将是网页优先的(web-first)。未来的
arXiv 将以网页原生性的原稿为主。
2多格式的和格式中性的
ArXiv 过分依赖于
LaTeX。LaTeX 只不过是用来插入数学符号、公式、表格的一种格式,而不能用来排版和格式化整篇原稿。用
LaTeX 排版原稿是很费时的 (Brischoux
2009),最重要的是它将文件锁定在一个格式上从而不能使用灵活的现代技术(比如,语义分析并嵌入知识网络促进论文的可发现性,提升影响力)。未来的
arXiv 将是格式中性的,并且可以按不同的内容使用不同的格式。
3数字对象标识符
数字对象标识符(digital
object identifier,DOI)是专用于学术出版的标识符,用以识别和追踪其它的着作。很多杂志都强制规定必须对引文使用
DOIs,以指定对应的数据集、预印本、研究文献、网站以及其它的学术著作。由于预印本的出版率上升很快(Berg
2016),并且基金机构也终于意识到了预印本的重要性,因此使用可靠的标准识别预印本是很关键的,未来的
arXiv 将是以 DOI 标识的预印本数据库。
4支持开放数据和开放研究
未来的 arXiv 不仅是带有文本和图像的
PDF 文档的集合,而是整合了数据、代码和所有重现研究结果所需资源的论文数据库。解决重现性危机的唯一方式就是使论文变成数据驱动性的。例如,文章中的一幅图,可使所有读者可以获取这幅图背后的数据。如果你在线阅读,你将能够点击图
中数据中的 Data 标记,查看、下载和研读该图表中的数据;点击
Code 标记,查看用来分析和可视化该图表的代码(Jupyter
Notebook 格式)。未来的 arXiv 将在论文中同时容纳数据和代码。
5评论和开放性的同行评议
arXiv 目前不支持读者和作者评论。其理念在于
arXiv 不是同行评议性质的,同行评议发生在其他地方,比如期刊级别。因此,评论和评议系统较难维护和运营,而且未必有用。而预印本提供了一个前所未有的机会来开放评论和评议系统,并借此提高手稿接受的评议和评论数量。我们不提倡替代传统的同行评议,而是用预印本开放的评议对其进行补充。我们认为(1)更多的学者应该参与同行评议中,(2)同行评议应该开放进行,这样评议才能成为发表(预印)研究的关键组成部分。鉴于论文发表数量的不断增加和每篇论文的平均作者人数,这看起来不仅自然而然,而且必要。这也表明当前的同行评议制度不可持续。未来的
arXiv 将在传统的同行评议之外支持开放的评论和评议。
6替代指标
学术界目前用来评估研究论文影响力的唯一权威指标是引用(或其他基于引用的指标)。arXiv
不公开替代指标(替代引用)的信息,如论文的下载量、tweet
转发量,或者博客转发量。不公开替代指标的一个重要但可疑的原因是这些指标易于操纵。如果这些指标成为确定研究者地位的权威系统,那么我们面临的是一个易于操纵的系统。我们认为这些指标对评估研究的影响力有重要的价值,作为传统的指标的添加,而不是取代。重要的是,有研究显示论文的下载量和转推量与引用次数有很强的相关。未来的
arXiv 将变得透明,并公开能够反映研究论文真实影响力的替代指标。
7可发现、结构化、语义、机器可读
用于一个基于 web 的知识库而不是
PDF 文档的最后一个重要优势是可发现性(discoverability)。论文的全部文本(不只是标题和摘要)可以通过搜索引擎和学术资料库进行检索,提升了内容的可见性。此外,基于
web 的文章具备更明确的语义结构,使之能够完全被机器阅读。
『结论』
从 arXiv 的历史来看,我们发现了其成为最流行的在线预印本知识库的一系列决定性因素。我们认为
arXiv 兴盛的原因之一在于它迎合了技术从业人员长久以来共享与合作的传统。该网站的简单性与
LaTex 中心的提交流程,保证了它在社区内的快速增长,被用于完全把控排字流程、编写含有大量公式的文档。
我们认为虽然 arXiv 很早就适应了科技行业,但从发布以来变化极小。这种不情愿或者没能力发展新技术和实用方式的态度,对社区更好的交流实践来说是种障碍。
我们建议未来的
arXiv 应该是纯网页或者以网页为主的,多格式或者格式中性的,以便于适应整个研究社区。为了发展其透明性与可重现性,它要建立在开放数据与开放研究之上,也要允许评论、开放同行审议。未来的
arXiv 将会成为一个由数字对象标识符(DOI)工具标识的预印论文的数据库,有极好的语义结构,便于机器读取,易于发现。未来,arXiv
也会是透明的,会公布关于某项研究的所有信息,包含决定该研究影响力的所有参数。
我们认为 arXiv 如果继续保持不变,将会被其他服务所取代,就像
arXiv 曾取代过其他服务一样。我们鼓励研究人员对该平台有更多的需求,且相信在网页时代,通过
PDF 共享研究的时代必将终结。未来,让我们创造更好的共享研究的新方式。
|