AI 资讯

谷歌发布Gemma 4，专注于本地优先、设备级的AI推理

点击查看原文>

AI_light

21 Apr 2026 • 3 min read

摘要：

谷歌发布了 Gemma4，旨在通过一系列覆盖从编码到生产全软件生命周期的模型，为安卓开发提供本地化、智能体化的 AI 能力。

谷歌发布了 Gemma4，旨在通过一系列覆盖从编码到生产全软件生命周期的模型，为安卓开发提供本地化、智能体化的AI能力。

Gemma4 模型具备各种各样的能力，从通过ML Kit GenAI Prompt为安卓应用提供高效的设备端变体，到为桌面端 Android Studio 提供 AI 编码辅助的高性能模型。

Gemma4 包含三款模型：需要 8GB 内存、2GB 存储空间的 GemmaE2B，需要 12GB 内存、4GB 存储空间的 GemmaE4B，以及需要 24GB 内存、17GB 存储空间的 Gemma26B MoE 模型。其中性能最强的模型推荐用于开发设备的编码智能体，两款轻量变体则适用于设备端集成。

Gemma26B MoE 可以实现本地化的智能体编码，无需将代码共享给云端的 AI 服务商，对有严格数据隐私要求或安全企业环境的开发者尤为实用。谷歌表示，该模型利用本地 GPU 与内存资源，可在现代化硬件上高效运行，且不受 Token 配额或网络延迟的限制。它可用于设计新功能、完整应用，重构现有代码，以及解决构建/lint 的错误。

两款轻量模型 GemmaE2B 与 GemmaE4B 专为设备端的推理而设计。其中 E4B 具备更强的推理能力，更适合复杂任务；E2B 则极致优化速度，推理速度比 GemmaE4B 快 3 倍，延迟更低。

谷歌称，新一代模型的速度最高提升至前代的 4 倍，功耗降低最多 60%。同时，在思维链提示、条件推理上效果更优，数学能力、时序推理、图像处理能力全面提升，可用于图表解读、视觉数据提取、手写识别等场景。

Gemma4 为下一代 GeminiNano 奠定了基础，后者为安卓设备提供 AI 功能。开发者现在可以使用 Gemma4 进行应用原型开发，为今年晚些时候将在支持设备上线的 GeminiNano4 做好准备。开发者可加入AICore开发者预览计划，在安卓设备上使用 Gemma4 模型。

以下是在 Kotlin 中使用该模型的代码片段：

// 定义配置，指定版本渠道与偏好val previewFullConfig = generationConfig {    modelConfig = ModelConfig {        releaseTrack = ModelReleaseTrack.PREVIEW        preference = ModelPreference.FULL    }}// 用配置初始化GenerativeModelval previewModel = GenerativeModel.getClient(previewFullConfig)// 检查指定预览模型是否可用val previewModelStatus = previewModel.checkStatus()if (previewModelStatus == FeatureStatus.AVAILABLE) {    // Proceed with inference    val response = previewModel.generateContent("If I get 26 paychecks per year, how much I should contribute each paycheck to reach my savings goal of $10k over the course of a year? Return only the amount.")} else {    // 推理模型不可用的情况    // (比如，打印日志)}

复制代码

Gemma4 模型也可通过 Ollama 或Ollama or LM Studio安装使用。

查看英文原文：Google Released Gemma 4 with a Focus On Local-First, On-Device AI Inference

本文来源：InfoQ

谷歌发布Gemma 4，专注于本地优先、设备级的AI推理

AI_light

摘要：

Sign up for more like this.

新生论坛@2050@2026：500+脑暴席卷云栖，年青就要最大声分享！

Lyft使用AI和人机协同扩展了全球范围内的本地化能力

谷歌推出 TurboQuant 压缩技术，有望在低性能硬件上以更快的推理速度提供相同的准确率