相关心理学论文

预印本的学术影响力研究——以arXiv自存档论文为例

发布时间:2019-09-03 18:24

  信息技术的快速发展催生并促进了学术出版的网络化发展与进程,同时也极大地改变了科学家的学术交流方式,非正式交流网络的民主化、正式交流的“ 去正规化” 是现代科学交流模式的新特征[1]。传统学术出版模式中存在论文发表周期长、传播范围受限、成本高等问题,而预印本将尚未在期刊发表的论文以自存档的形式进行知识共享和交流, 这是科学家共同体应对当前的“ 学术交流危机”而探索出来一种有别于传统期刊论文的学术交流方式, 它具有“ 免费发表”、“ 同行评议之前发表”,甚至是“无同行评议发表”的特征。

  关键词 预印本;arXiv;文献计量学;引用优势;学术影响力

  2002 年, 开放学会研究所 (Open Society Insti‐ tute, OSI) 正式发布“ 布达佩斯开放存取计划(Budapest Open Access Initiative,BOAI) ”[2],旨在促进和推动全球各学科领域研究论文免费获取,进而构建一个公平、开放、自由的新型学术交流环境。BOAI 提出了实现开放存取的两种途径, 即开放存取仓储 (Open Access Repository) 和开放存取期刊 (Open Access Journal), 国际上也有学者称为“ 绿色开放存取 (Green Open Access) ” 和 “ 金色开放存取(Gold Open Access) ” [3]。预印本系统作为开放存取仓储的一种,最初是出于与同行交流的目的,而为那些尚未在正式出版物上发表的科研论文或科技报告提供一个较为正式的开放交流平台[4], 发展至今, 已涵盖了学术论文、技术报告、会议报告以及科研数据等多种形式的自存档文件。预印本系统中的自存档论文主要包括两种:一是前印本(pre-print), 即未经同行评审或尚未发表的期刊论文; 二是后印本 (post-print), 即已在期刊发表的论文。预印本拓宽了知识的传播渠道和范围, 消减了知识传播障碍,提高了学术交流效率,同时为科研评价补充了新的数据来源[5-6]。

  2 国内外研究现状及发展动态

  1991 年 8 月美国物理学家Paul Ginsprarg 创立了首个预印本数据库 arXiv (arXiv.org), 发展至今已成为典范[7], 提供了物理、数学、计算机、计量生物学、计量金融学和统计学等领域预印本的存档、检索、发布和交流共享服务[8]。目前国际上较为著名的预印本平台还包括经济学领域的RePEc[9]、生物科学领域的 bioRxiv[10] 以及图书情报学领域的 e-LIS[11] 等。我国于 2003 年 12 月签署《柏林宣言》 以支持开放存取运动;同年教育部科技发展中心主办的中国科技论文在线 (http://www.paper.edu.cn.jsp) 正式上线; 2004 年 3 月, 中国预印本服务系统 也随之正式上线;2016 年,国内首个按照国际规范运行的预印本平台“ 中国科学院科技论文预发平台 (ChinaX‐ iv) ” 正式上线, 这是我国数字出版领域的一次重要尝试与变革[12]。2017 年 7 月 20 日, 中国科学院“ 预印本与新型学术交流” 开放研讨会在北京成功举办, 目的在于促进我国预印本平台的健康发展, 从而为科研人员打造更加便利、高效的学术交流环境,不断提高我国的国际科研学术影响力[13]。

  随着预印本学术交流形式日益被认可, 作者对预印本的引用行为也日益受到关注。学术界通常将论文的被引量作为学术影响力评价的一个重要指标[14]。自从 2001 年Lawrence[15] 提出开放存取论文具有引用优势后,自存档对论文学术影响力的作用效果便引起了学术界的广泛关注[16-22], Craig 等[23] 在2007 年对此进行了详尽的综述。由于预印本学术交流文化在不同学科中存在差异[24],因而对其学术影响力的研究是需要区分学科领域的[25-26]。Brown[25] 以 1991—1999 年 arXiv 中存储的 70144 篇物理学预印本为研究对象,发现它们被预印本引用的频次要比被期刊引用频次高出近 20 倍左右, 认为预印本正在成为物理学领域的重要学术交流载体。随后,Brown[27] 又对化学领域的预印本(Chemistry Preprint Server, CPS) 进行研究, 发现虽然 CPS 中的预印本没有被期刊论文所引用,但它们更容易获得广泛的讨论,并最终发表在高质量期刊中,认为CPS 在未来对于化学科学家之间的学术交流会发挥更大的积极作用。Harnad 等[28] 首先研究了自存档论文相比于非自存档论文的引用优势, 他们以arXiv 网站中物理和数学分类下的 1992—2003 年发表的论文作为分析对象, 发现同一本期刊中的arXiv 论文相比于非 arXiv 论文在 WoS 数据库中的被引量高 2.5~5.6 倍。Antelman[29] 将研究范围拓展到了哲学、政治学、电气与电子工程和数学领域, 虽然以上 4 个领域中 arXiv 论文的比例不同 (分别为 17%、 29%、37% 和 69%), 但均存在引用优势。Schwarz 等[30] 对1999—2002 年 The Astrophysical Journal 期刊上的论文进行研究发现, 高达 72% 的论文在arXiv 平台中有自存档,这些论文的被引频次是非自存档论文的

  2 倍以上。Metcalfe[31] 在天文物理学领域也得出了类似的结论。然而预印本引用优势研究中的一个关键挑战是难以对其影响因素建立一种因果解释。Kurtz 等[32] 于 2005 年提出了 3 个主要影响因素,即提前获取 (Early Access)、作者自存档偏好 (Self-selectionBias) 和开放获取 (Open Access), 但三者对不同领域预印本引用优势的影响程度存在差异[33-35]。国内对预印本的研究起步较晚, 且偏重于概念和描述性研究。乔冬梅[36-37] 系统梳理了e 印本文库(包含论文预印本及其元数据) 的基本原理、交流模式和交流理念, 阐释了arXiv 平台的运行机制和管理模式,提出了我国预印本平台的发展策略。秦珂[38] 以及董燕影等[39] 研究了自存档的版权问题,并提出协调期刊出版社与开放存取仓储之间的政策建议。余厚强等[40] 在研究新浪微博补充计量指标特征时发现,被新浪微博关注论文数量最多的期刊除了学术界著名的 Nature、Science 和 Cell 三大期刊外, 预印本平台arXiv 和开放存取期刊 PLoS ONE 也受到较多关注,特别是arXiv 平台,受关注度仅次于 Na‐ ture, 排名第 2 位。刘银华等[41] 对比分析了 7 种JCR(Journal Citation Reports) 物理学 1 区期刊的arXiv 论文和非arXiv 论文引用量, 发现前者具有显著引文优势。王欣等[42] 研究发现国内物理学期刊 Frontiers of Physics 中 发 表 的 arXiv 论 文 被 引 用 的 比 例(13.66%) 为非 arXiv 论文的 2.24 倍, 且 arXiv 论文的篇均被引量(4.23 次) 为非arXiv 论文的 3.58 倍。尽管自存档论文的引用优势已被证实存在于多个学科中,但这一结论依然有争议[23]。本文运用更为科学和严谨的研究方法对图书情报学领域和机器人领域中预印本的学术影响力进行探究。一方面, 随着科学的发展, arXiv 不但在物理、数学和经济学等传统优势学科的学科交流中发挥着重要的作用[43], 对图书情报学领域的影响也在逐渐加深[44]; 另一方面,以机器人学为代表的人工智能研究发展迅速,它是一门综合计算机科学、机械工程制造科学、生物科学以及心理学等多门学科的综合性学科,随着交叉学科的发展,预印本对综合性学科学术交流的作用也是值得探究的问题。本研究以arX‐iv 数据库和Web of Science (WoS) 核心合集数据库作为来源数据库, 从论文总体发展趋势、发表时滞、引用优势、引用趋势以及引用增长速度等多视角对比分析了图书情报学领域和机器人领域同一本期刊中arXiv 论文相比非arXiv 论文的学术影响力。

  3 数据来源

  在JCR (2016 年) 公布的 43 种图书情报学(In‐ formation Science & Library Science, LIS) 1 区和 2 区期刊中, 有 20 本期刊中有arXiv 自存档论文, 我们选取arXiv 论文数量较多 (时间截止至 2016 年 12 月 31 日) 的前 6 本期刊作为分析对象 (表 1), 这 6 本期刊的arXiv 论文数(278 篇) 占 20 本期刊中arX‐iv 论文总量的 94.56%。刊自 2014 年起更名为 Journal of the Association for Information Science and Technology 。

  由于JCR 中没有明确的机器人学科类别, 本研究的策略是在WoS 核心数据库中利用检索式“WC=ROBOTICS” 检索 2010-2017 (检索时间为 2017 年5 月 1 日) 发表的所有文献 (共 58799 篇), 其中发文量最高的 10 本出版物 (表 2) 中均存在 arXiv 自存档论文。本文选取arXiv 论文数较多 (时间截止至 2016 年 12 月 31 日) 的 5 种出版物作为研究对象, 这5 种出版物的arXiv论文数(864 篇) 占比为95.58%。

  本文考察的数据对象主要有三类: 一是 arXiv 自存档论文,这部分数据集为上述选取的图书情报领域和机器人领域出版物中的 arXiv 论文, 共计1142 篇; 二是这些出版物中的非arXiv 论文, 即这些论文被WoS 收录, 但并没有在arXiv 中存档, 本文称其为非arXiv 论文; 三是这些出版物发表的所有论文,本文称其为WoS 论文。论文的引用数据均来自WoS 数据库,为了数据的可验证性,本文记录的是论文自被 WoS 收录到 2017 年之前 (不包括2017 年) 的引用数据。

  4 数据分析

  4.1 arXiv 论文的总体趋势

  图书情报学领域 6 本期刊中arXiv 论文数占期刊所有论文数 (以下成为简称 WoS 论文) 的比例为2.17%, 尽管机器人领域 5 本出版物arXiv 论文的绝对数量较多, 但 arXiv 论文占 WoS 论文比例仅为0.27%。Larivière 等[45] 的研究表明, 2010 年 WoS 数据库中的论文在arXiv 中有自存档的比例已经达到了 3.6%,其中数学和物理学领域最高,分别为 21% 和 20%, 可见本文涉及的这两个研究领域中的作者还没有形成使用arXiv 预印本平台进行学术交流的习惯。对比两个领域中arXiv 论文数量的历年变化图 1), 图书情报学领域自 2001 年出现了 arXiv 论文,其每年提交量呈波浪式上升趋势,而机器人领域自 1994 年出现了arXiv 论文起, 呈现较为显著的增长趋势, 2016 年arXiv 论文提交量已达到 115 篇, 是图书情报领域 2016 年提交量 (35 篇) 的 3 倍以上。

  图1 图书情报学和机器人领域arXiv 论文数量增长趋势为了探究两个领域引用 arXiv 论文的情况, 本文提取了 11 个样本期刊 2002—2016 年发表的所有论文的参考文献, 并分别统计了参考文献中 arXiv 论文和非arXiv 论文的发表年份。每篇arXiv 论文在进行自存档时会具有唯一可识别标识符, 即arXiv identifier (通常简称为 arXiv ID), 通过此标识符可以实现自存档arXiv 论文的引用和追踪。本文对包含在两个领域WoS 论文参考文献中的arXiv ID 号进行识别和提取,并统计了其每年的占比情况,其变化趋势如图 2 所示。

  2016 年已经达到了 0.76%, 显著高于图书情报领域(0.21%)。尽管如此, 这一结果其实低估了期刊论文参考文献中预印本的引用比例,由于预印本通常为未经同行评审的论文,有些期刊编辑部对其引用的态度会比较谨慎,如果在论文评审过程中引用的预印本已经发表,多数作者会将其更新为对应的期刊版本。

  许多研究发现, 预印本可以缩短参考文献的平均年龄[45-46]。本研究中的样本期刊 2002—2016 年引用的arXiv 论文和非arXiv 论文的年龄分布如图 3 所示。图中横坐标代表参考文献的年龄,纵坐标代表相应年龄的参考文献数占所有参考文献数的比例。由于引文年龄分布范围极其广泛(从-10 到 784), 而本研究关注主要的分布趋势, 因而图 3 只呈现了各领域中所占比例在 30% 以上的引文年龄分布。从图中可见, 两个领域中arXiv 引文的年龄分布显然较为集中,且都明显比非arXiv 引文年龄小 (即更新),如图中虚线所示,arXiv 引文的年龄峰值为 1, 而非arXiv 引文的峰值为 2。

  图书情报学和机器人领域WoS 论文的参考文献中arXiv 论文的平均占比分别为 0.09% 和 0.14%, 相比物理学 (1.4%) 和数学 (1%) [45] 领域较低。机器人领域自 2011 年以后这一比例大幅提高, 到计算得出图书情报和机器人领域的arXiv 引文年龄均值分别为 3.36 和 2.36, 而非 arXiv 引文年龄均值分别为 9.93 和 8.30, 这一结果支持了预印本可以缩短参考文献平均年龄的结论,也证明预印本加速了科学交流。

  图3 参考文献中arXiv 论文和非arXiv 论文的年龄分布

  4.2 arXiv 论文的发表时滞

  论文发表时滞, 又称出版周期, 通常是指期刊论文的收稿时间与正式发表时间的时间间隔[47]。而为了研究arXiv 论文的发表时滞, 本文计算的是论文在 arXiv 中自存档时间与期刊发表间的时间差。缩短论文的发表时滞是开放存取运动的目的之一[3],arXiv 平台对其提交论文实施认证制度来确保稿件质量,通过取消与同行评审相关的编辑工作加速了知识传播[48]。本文将arXiv 论文分进一步细分为前印本 (pre-print) 和后印本 (post-print), 先于期刊发表前将论文自存档于arXiv 平台的为前印本,反之则为后印本。图书情报学领域和机器人领域内前印本和后印本的发表时滞如图 4 所示, 其中横坐标代表的是arXiv 论文的存档时间与期刊发表时间的时间差,差值为负即为前印本,差值为正则为后印本。

  图4 arXiv 论文的发表时滞分布

  注:左图统计的时间差单位是年;而对那些arXiv 存储时间和发表于期刊的时间在同一年的论文,

  我们对其进行了月份差统计(右图)。在此需要说明的是,虽然某些 arXiv 论文的作者声明此论文已经在期刊中发表,但在WoS 数据库中我们依然无法找到与此论文作者、标题或摘要等信息相匹配的版本,导致无法获取其确切的期刊发表时间,这部分论文(图书情报学领域 7 篇,机器人领域 41 篇) 不在本文的统计范围内。

  本研究数据源中 arXiv 论文的自存档时间分布在 1994—2016 年,其发表于期刊的时间分布也同样在 1994—2016 年。 1994 年, Lecture Notes in Com‐ puter Science 发表了机器人领域的第一篇 arXiv 论文, 该论文于 1994 年 6 月在 arXiv 进行了自存档, 但直到 2005 年才出现了其相应的期刊电子版本。从统计结果和趋势来看,图书情报学领域约 78% 的论文是在发表于期刊的前一年或同年在arXiv 中进行自存档,其中提前一年进行自存档的论文比例占到40% 以上, 而机器人领域约 80% 的论文是在发表于期刊的前后两年内将其自存档在arXiv 服务系统中, 其中有 50% 以上的论文在发表于期刊的同年进行自存档。此外, 图书情报学领域期刊中前印本比例(57.3%) 显著高于后印本(36.5%),而机器人领域则比例相当, 分别为 47.4% 和 41.6%。由于多数作者会在将论文投稿期刊的同时进行自存档,有研究表明约有 73% 以上的arXiv 论文会最终在期刊中发表[45], 而图 4 的时滞分布表明图书情报领域的期刊审稿周期长于机器人领域,这一结果一方面与学科性质相关,机器人领域的这 5 本出版物主要涉及计算机科学,其知识更新速度相比图书情报更快;另一方面,会议论文集是机器人领域主要的学术交流出版物,而会议论文的审稿周期通常短于期刊论文。

  4.3 arXiv 预印本平台对论文学术影响力的作用效果

  4.3.1 arXiv 论文的引用优势

  目前国际学术界对开放获取论文的引用优势讨论较多, 所谓开放获取引用优势是指相对于非 OA 论文, OA 论文在被引次数上所具有的优势[28]。本文以ANA 代表arXiv 论文的引用优势, 其计算方法为MCa - MCna其 中 Journal of the American Society for Information Science and Technology 期刊的引用优势最为明显, 高达 249.24%。机器人领域篇均被引量总体上低于图书情报领域,但arXiv 论文的引用优势依然明显, 篇均被引量是非arXiv 论文的 1.5 倍左右, 引用优势为 83.56%, International Journal of Advanced Robotic其中, MCa 代表arXiv 论文的篇均被引量; MCna 代表非arXiv 论文的篇均被引量。本文对比分析了同一本期刊中arXiv 论文、非arXiv 论文和所有论文的篇均被引量,以及arXiv 论文的引用优势 (ANA), 结果如图 5 和表 3 所示。

  在篇均被引量方面, 图书情报领域 arXiv 论文是非arXiv 论文的 2.1 倍左右,引用优势为 108.95%,4.3.2 arXiv 论文的引用趋势本文在前文中提到, arXiv 平台中的预印本又分为前印本和后印本,这两种在引用趋势上是否相同?相比于期刊中所有论文和高被引论文(本文选择每本期刊的 Top 1% 作为高被引论文) 的引用趋势,这两类自存档论文在引用趋势和引用量的上升持续周期上有何特征?为回答这些问题,本文绘制了上述 4 类文献的引用趋势图(图 6), 横坐标为论文发表于期刊后的年份数 (如数字 1 代表发表于期刊后 1 年), 纵坐标为论文的篇均被引量 (右侧的纵坐标为高被引论文的篇均被引量)。

  印本平台中呢? 论文的被引频次在存储到arXiv 后有何变化呢?为了解答上述疑惑,本文对后印本提交arXiv 平台前后 6 年的引用率进行了对比,计算公式分别为其中,CR 代表引用速度;Ct = -1 代表是时间差值为 i 时的篇均被引量。考虑本文对比的是论文进行自存档前后引用速度的变化, 不易选取较长的时间窗口, 通过观察本文的数据结果, 选择 6 年较为合适5 年, 数值 5 代表将论文提交至 arXiv 后的第 5 年, 纵坐标代表篇均被引量。经计算,图书情报领域后印本在进行自存档前后的引用速度分别为 0.37 和0.44, 机器人领域分别为 0.04 和 0.35, 可见两个领域的后印本在arXiv 中进行自存档后的引用速度都得到了不同程度的提升。

  5 结论与展望

  图6 四类论文的总体引用趋势(1994—2016)从期刊中的前印本(pre-)、后印本 (post-) 与高被引论文(high-) 以及期刊所有文献(wos-) 显现出来的篇均被引量变化趋势来看, arXiv 自存档论文的篇均被引量在发表于期刊后最初几年的增长趋势与高被引论文更为接近,且比WoS 论文的篇均被引量有更长的上升持续时间。自存档论文在发表后的最初 6 年内篇均被引量上升迅速, 之后呈现下降趋势,而WoS 论文的篇均被引量大约在发表后第4 年便开始呈现出下降趋势。此外,我们还发现, 在图书情报领域,前印本的篇均被引量总体上比后印本的高,而在机器人领域则相反,在发表后的 3~5 年更为明显。这一结果表明,图书情报领域arXiv 自存档论文中前印本比例较高的原因之一,除了是因为期刊发表时滞长以外,还由于其相比于后印本更有可能获得更高的被引量。

  已有研究验证了自存档论文具有引用优势的原因之一是其可以“提前获取”[32],而为什么有些作者会在论文发表于期刊后依然选择将论文提交到预本文对图书情报学和机器人领域的 arXiv 自存档论文的发文数量、发表时滞、引用优势、引用趋势及其引用速度等方面进行了对比分析,得出以下结论:

  (1) 图书情报学领域和机器人领域 arXiv 论文的比例均偏低,但每年的提交量有不同幅度的增加。机器人领域第一篇被WoS 收录并在arXiv 进行自存档的论文比图书情报领域早出现了近 10 年, 且其增长趋势更为显著。

  (2) 两个领域的主要刊物中引用的 arXiv 论文量分别占所有参考文献总量的 0.09% 和 0.14%, 相比于物理学和数学领域偏低。自 2011 年以后,机器人领域引用的arXiv 论文比例增幅明显,到 2016 年已经达到了 0.76%, 显著高于图书情报学领域(0.21%)。

  (3) 预印本学术交流模式有助于缩短论文的发表时滞。两个领域前印本的比例均高于后印本,其中以期刊为主要发文阵地的图书情报领域更为明显。约 78% 的论文是在正式发表于期刊的前一年或同年在arXiv 中进行自存档,其中提前一年进行了自存档的论文数量最多。

  (4) 同一本出版物中arXiv 论文相比非arXiv 论

  文具有显著引用优势。图书情报学领域自存档论文的篇均被引量大约为非自存档论文 2.1 倍, 机器人领 域 中 这 一 比 例 为 1.5, 但 均 低 于 物 理 学 领 域(3.5 倍) [45]。

  (5) arXiv 论文的引用趋势特征不同于非arXiv 论文,而与高被引论文的引用趋势更为相似。总体来看, arXiv 论文篇均被引量变化趋势线处于 WoS 论文和高被引论文之间,其上升周期持续时间约为6 年, 高于 WoS 论文的平均上升周期持续时间 (4 年左右)。此外, arXiv 论文的篇均被引量增长速度较快,但下降速度也快,说明预印本具备成为某段时间的研究热点话题的特征。

  (6) arXiv 论文中前印本和后印本在两个领域内的引用趋势不同。图书情报学领域前印本的篇均被引量总体上比后印本的高,而在机器人领域则相反, 在发表于期刊后的 3~5 年尤为明显。这一结果表明,图书情报学领域arXiv 论文中前印本比例较高的可能解释因素中除了期刊发表时滞长以外,还由于其相比后印本更有可能获得更高的被引量。

  (7) 期刊论文自存档于 arXiv 平台后的引用速度得到提升。后印本提交arXiv 平台后的篇均被引量增长速度明显大于提交前,说明自存档增加了论文的可见度,提升了论文的学术影响力。

  本文的研究结果表明, 无论是图书情报学领域还是机器人领域, arXiv 论文相比非arXiv 论文具有明显的引用优势,不但篇均被引量较高,而且在较短的时间内可以获得更多的引用量,说明预印本学术交流提升了知识传播效率,增加了论文的学术影响力,促进了学术交流的开放获取发展进程。尽管本文所研究的两个学科领域中还有相当一部分论文并没有在 arXiv 中进行自存档, 但不可否认的是, 加速知识的开放共享是未来学术交流的主流趋势。我国开放存取仓储目前还处于初级发展阶段,这是一项长期性、基础性和公益性的事业,需要来自社会各界的共同支持和参与,在借鉴国际先行的论文自存档服务系统发展经验基础上,营造更加自由、开放、和谐和国际化的学术交流环境。

毕业论文:http://www.3lunwen.com/sk/xlx/3504.html

上一篇:以学生为中心多元教学融合评价机制

下一篇:没有了

     移动版:预印本的学术影响力研究——以arXiv自存档论文为例

本文标签:
最新论文