为应对“AI垃圾”满天飞,arXiv脱离康奈尔大学单独运营

点击查看原文>

全球最具影响力的科学预印本平台 arXiv 正在迎来一次关键转型。

近日,这一创立于 1991 年的开创性学术平台宣布,将于今年 7 月 1 日正式脱离康奈尔大学,转型为一家独立运营的非营利组织。

过去二十多年,arXiv 一直由康奈尔大学负责托管和运营。作为全球最早的预印本服务器,它开创了一种全新的学术传播模式:研究成果无需等待漫长的同行评审周期,即可快速公开发布。

如今,这一模式已经成为主流。在物理学、计算机科学、数学等领域,大量论文都会先在 arXiv 发布,再进入期刊或会议流程。

康奈尔科技学院院长兼副教务长格雷格·莫里塞特表示,此次独立将使 arXiv 能够从更广泛的捐助者群体中筹集资金,从而更好地支撑平台持续增长的运营需求。

他强调,短期内用户几乎不会感受到变化:“arXiv 目前运行良好,我们希望它继续成功,并最终带来积极的改进。”

投稿量爆发:一年或超 30 万篇

推动这一结构性调整的核心原因,是 arXiv 正面临前所未有的增长压力。

数据显示,平台的投稿量近年来持续攀升,预计 2026 年将突破 30 万篇。自 2022 年以来,投稿规模已增长约 50%。为应对这一趋势,arXiv 团队规模也扩展至 27 人。

arXiv 计算机科学编辑委员会主席、俄勒冈州立大学教授托马斯·迪特里希指出,这一增长与人工智能研究的爆发密切相关。过去几年,大模型、生成式 AI 等方向的快速发展,直接推动了相关论文数量激增。

但与此同时,增长也带来了新的问题。

在官方表述中,一个值得关注的关键词是:“人工智能生成的垃圾”(AI-generated junk)。

这类内容通常指完全由 AI 生成、缺乏实质贡献,甚至带有误导性或欺诈性质的论文。随着生成式模型能力的提升,这类论文的生产成本正在迅速降低,对学术平台的审核机制构成压力。

莫里塞特坦言,未来筹集的资金将部分用于应对这一挑战,包括提升审核能力、优化技术系统,以及加强内容质量控制。

这一问题并非 arXiv 独有,而是整个学术出版体系正在共同面对的系统性风险。

财务压力浮现:运营进入“紧平衡”

快速扩张同样带来了财务上的压力。

过去两年,arXiv 已出现运营赤字。预计 2025 年赤字将达到 29.7 万美元。在整体运营成本约 670 万美元的情况下,康奈尔大学不仅填补了超支部分,还提供了约 81.9 万美元的实物支持(包括基础设施和人力资源)。

目前,arXiv 的资金来源主要包括:

  • 来自 270 多个机构的会员费(最高每年 1 万美元)

  • 学术图书馆联盟支持

  • 顶级科研机构资助

  • 基金会捐赠(如西蒙斯基金会、施密特科学公司)

其中,会员费与机构发表论文数量挂钩,同时也赋予会员一定的治理参与权和数据访问权限。

但在投稿量持续增长、审核压力加大的背景下,现有模式已接近极限,独立运营被视为更具弹性的解决方案。

这一转型也引发了部分科学家的担忧。

在社交媒体上,有声音质疑:脱离大学体系后,arXiv 是否会逐步走向商业化,从而改变其“免费开放”的核心原则。

对此,莫里塞特回应称,arXiv 仍将坚持非营利定位,短期内不会发生方向性变化。

但从更长期来看,这一问题仍值得关注:在成本持续上升、内容质量压力加大的情况下,预印本平台如何在开放性与可持续性之间取得平衡,仍是一个未解命题。

参考链接:

https://www.science.org/content/article/arxiv-pioneering-preprint-server-declares-independence-cornell


本文来源:InfoQ