AI 资讯

GitHub 将使用 Free、Pro 和 Pro+ 用户的 Copilot 交互数据来训练 AI 模型

点击查看原文>

AI_light

08 Apr 2026 • 4 min read

GitHub 宣布，从 4 月 24 日起，将使用 Copilot Free、Pro 和 Pro+ 用户的交互数据来训练和改进其 AI 模型。该设置默认开启，如果用户不希望自己的数据被用于训练，需要手动关闭。Copilot Business 和 Enterprise 用户不受此次变更影响。

这一公告由 GitHub 首席产品官 Mario Rodriguez 发布，其中说明了在开启该设置后可能收集的数据类型，包括：被接受或修改过的模型输出、发送给 Copilot 的输入和代码片段、光标位置周围的代码上下文、注释和文档、文件名、仓库结构、导航行为，以及与 Copilot 功能（如聊天和内联建议）的交互记录，还有对建议的点赞/点踩反馈。此前已经关闭 GitHub 提示词和建议收集功能的用户，其偏好会被保留。

GitHub 表示，这一调整是为了提升模型性能。公司称，目前已经在使用微软员工的交互数据进行训练，并且在多种编程语言中观察到了建议采纳率的提升。公告附带的 FAQ 指出，该变更将于 4 月 24 日生效，并提前 30 天通知用户。

不过，这次数据收集的范围也引发了外界关注。在用户使用 Copilot 处理私有仓库代码时，这些代码可能会被收集并用于训练。GitHub 区分了“静态存储中的代码”（at rest）和“在使用过程中发送给 Copilot 的代码”：前者不会被访问，而后者则属于新政策的范围。收集到的数据还可能会与 GitHub 的关联公司共享（FAQ 中定义为同一公司体系内的公司，主要是微软及其子公司）。不过，第三方模型提供商不会使用这些数据进行自己的训练。

社区的反应整体偏负面。在 GitHub 的社区讨论中，开发者普遍批评这种“默认开启”的做法，有人直接称其为“暗黑模式设计”。例如用户 burnhamup 表示：

邮件里让你关闭这个功能，但却没有提供直接跳转到设置页面的链接，这种设计很不友好。

另一位用户 inakarmacoma 指出，在 GitHub 的移动端应用中找不到关闭该设置的入口。在 Reddit 上，一条获得超过 1000 个赞的帖子也引发了讨论，用户担心用 AI 生成的代码再去训练模型，可能导致“模型退化”，而这类代码在 GitHub 仓库中的占比正在不断上升。此外，也有人质疑这个“选择退出”的开关是否具有真正的约束力。

这项政策还给使用个人版 Copilot 的组织带来了新的风险。有开发者指出，在组织中，个人用户通常并没有权利授权第三方使用公司源代码。但当前的退出机制是按“用户级别”而不是“组织级别”控制的，这意味着只要团队中有一个人没有关闭该选项，就可能通过 Copilot 的交互暴露公司内部代码。GitHub 在 FAQ 中对此做了一定说明：属于付费组织成员或外部协作者的用户，其交互数据不会被用于模型训练；同时，来自付费组织仓库的数据也不会被使用，无论用户使用的是哪种订阅。

一位 Reddit 用户 NeatRuin7406 从竞争角度提出了更宏观的看法，认为“是否退出”其实不是核心问题：

当你使用 Copilot 时，你不仅是在获取建议，也是在无形中教模型什么是你这个领域里的“好代码”。你的专有模式、架构决策、领域习惯和命名规范，都会被融入到一个通用模型中。这个模型随后会为所有人提供更好的建议——包括你的直接竞争对手。

还有评论指出可能存在 GDPR 合规风险，认为 GitHub 所声称的“合法利益”作为处理个人数据的法律依据，在欧盟法律下未必成立，因为在这种情况下，数据主体的权利和自由可能更应被优先考虑。

GitHub 在 FAQ 中也提到了与竞品的对比，表示微软、Anthropic 和 JetBrains 等公司也采用类似方式，利用用户交互数据来训练模型。用户可以随时在 Copilot 设置中关闭“允许 GitHub 使用我的数据用于 AI 模型训练”这一选项。

本文来源：InfoQ

GitHub 将使用 Free、Pro 和 Pro+ 用户的 Copilot 交互数据来训练 AI 模型

AI_light

Sign up for more like this.

Anthropic 那个“强到不敢发”的模型，终于来了！

组织规模扩大时，如何应对信任与心理安全感

Claude Code史诗级负优化！大厂AI主管批思考深度暴跌，官方回应被开发者怼爆：菜成AI“玩具”