GitHub 将使用 Free、Pro 和 Pro+ 用户的 Copilot 交互数据来训练 AI 模型

点击查看原文>

GitHub 宣布,从 4 月 24 日起,将使用 Copilot Free、Pro 和 Pro+ 用户的交互数据来训练和改进其 AI 模型。该设置默认开启,如果用户不希望自己的数据被用于训练,需要手动关闭。Copilot Business 和 Enterprise 用户不受此次变更影响。

这一公告由 GitHub 首席产品官 Mario Rodriguez 发布,其中说明了在开启该设置后可能收集的数据类型,包括:被接受或修改过的模型输出、发送给 Copilot 的输入和代码片段、光标位置周围的代码上下文、注释和文档、文件名、仓库结构、导航行为,以及与 Copilot 功能(如聊天和内联建议)的交互记录,还有对建议的点赞/点踩反馈。此前已经关闭 GitHub 提示词和建议收集功能的用户,其偏好会被保留。

GitHub 表示,这一调整是为了提升模型性能。公司称,目前已经在使用微软员工的交互数据进行训练,并且在多种编程语言中观察到了建议采纳率的提升。公告附带的 FAQ 指出,该变更将于 4 月 24 日生效,并提前 30 天通知用户。

不过,这次数据收集的范围也引发了外界关注。在用户使用 Copilot 处理私有仓库代码时,这些代码可能会被收集并用于训练。GitHub 区分了“静态存储中的代码”(at rest)和“在使用过程中发送给 Copilot 的代码”:前者不会被访问,而后者则属于新政策的范围。收集到的数据还可能会与 GitHub 的关联公司共享(FAQ 中定义为同一公司体系内的公司,主要是微软及其子公司)。不过,第三方模型提供商不会使用这些数据进行自己的训练。

社区的反应整体偏负面。在 GitHub 的社区讨论中,开发者普遍批评这种“默认开启”的做法,有人直接称其为“暗黑模式设计”。例如用户 burnhamup 表示:

邮件里让你关闭这个功能,但却没有提供直接跳转到设置页面的链接,这种设计很不友好。

另一位用户 inakarmacoma 指出,在 GitHub 的移动端应用中找不到关闭该设置的入口。在 Reddit 上,一条获得超过 1000 个赞的帖子也引发了讨论,用户担心用 AI 生成的代码再去训练模型,可能导致“模型退化”,而这类代码在 GitHub 仓库中的占比正在不断上升。此外,也有人质疑这个“选择退出”的开关是否具有真正的约束力。

这项政策还给使用个人版 Copilot 的组织带来了新的风险。有开发者指出,在组织中,个人用户通常并没有权利授权第三方使用公司源代码。但当前的退出机制是按“用户级别”而不是“组织级别”控制的,这意味着只要团队中有一个人没有关闭该选项,就可能通过 Copilot 的交互暴露公司内部代码。GitHub 在 FAQ 中对此做了一定说明:属于付费组织成员或外部协作者的用户,其交互数据不会被用于模型训练;同时,来自付费组织仓库的数据也不会被使用,无论用户使用的是哪种订阅。

一位 Reddit 用户 NeatRuin7406 从竞争角度提出了更宏观的看法,认为“是否退出”其实不是核心问题:

当你使用 Copilot 时,你不仅是在获取建议,也是在无形中教模型什么是你这个领域里的“好代码”。你的专有模式、架构决策、领域习惯和命名规范,都会被融入到一个通用模型中。这个模型随后会为所有人提供更好的建议——包括你的直接竞争对手。

还有评论指出可能存在 GDPR 合规风险,认为 GitHub 所声称的“合法利益”作为处理个人数据的法律依据,在欧盟法律下未必成立,因为在这种情况下,数据主体的权利和自由可能更应被优先考虑。

GitHub 在 FAQ 中也提到了与竞品的对比,表示微软、Anthropic 和 JetBrains 等公司也采用类似方式,利用用户交互数据来训练模型。用户可以随时在 Copilot 设置中关闭“允许 GitHub 使用我的数据用于 AI 模型训练”这一选项。


本文来源:InfoQ