谷歌发布Gemma 4,专注于本地优先、设备级的AI推理
点击查看原文>
摘要:
谷歌发布了 Gemma4,旨在通过一系列覆盖从编码到生产全软件生命周期的模型,为安卓开发提供本地化、智能体化的 AI 能力。
谷歌发布了 Gemma4,旨在通过一系列覆盖从编码到生产全软件生命周期的模型,为安卓开发提供本地化、智能体化的AI能力。
Gemma4 模型具备各种各样的能力,从通过ML Kit GenAI Prompt为安卓应用提供高效的设备端变体,到为桌面端 Android Studio 提供 AI 编码辅助的高性能模型。
Gemma4 包含三款模型:需要 8GB 内存、2GB 存储空间的 GemmaE2B,需要 12GB 内存、4GB 存储空间的 GemmaE4B,以及需要 24GB 内存、17GB 存储空间的 Gemma26B MoE 模型。其中性能最强的模型推荐用于开发设备的编码智能体,两款轻量变体则适用于设备端集成。
Gemma26B MoE 可以实现本地化的智能体编码,无需将代码共享给云端的 AI 服务商,对有严格数据隐私要求或安全企业环境的开发者尤为实用。谷歌表示,该模型利用本地 GPU 与内存资源,可在现代化硬件上高效运行,且不受 Token 配额或网络延迟的限制。它可用于设计新功能、完整应用,重构现有代码,以及解决构建/lint 的错误。
两款轻量模型 GemmaE2B 与 GemmaE4B 专为设备端的推理而设计。其中 E4B 具备更强的推理能力,更适合复杂任务;E2B 则极致优化速度,推理速度比 GemmaE4B 快 3 倍,延迟更低。
谷歌称,新一代模型的速度最高提升至前代的 4 倍,功耗降低最多 60%。同时,在思维链提示、条件推理上效果更优,数学能力、时序推理、图像处理能力全面提升,可用于图表解读、视觉数据提取、手写识别等场景。
Gemma4 为下一代 GeminiNano 奠定了基础,后者为安卓设备提供 AI 功能。开发者现在可以使用 Gemma4 进行应用原型开发,为今年晚些时候将在支持设备上线的 GeminiNano4 做好准备。开发者可加入AICore开发者预览计划,在安卓设备上使用 Gemma4 模型。
以下是在 Kotlin 中使用该模型的代码片段:
// 定义配置,指定版本渠道与偏好val previewFullConfig = generationConfig {modelConfig = ModelConfig {releaseTrack = ModelReleaseTrack.PREVIEWpreference = ModelPreference.FULL}}// 用配置初始化GenerativeModelval previewModel = GenerativeModel.getClient(previewFullConfig)// 检查指定预览模型是否可用val previewModelStatus = previewModel.checkStatus()if (previewModelStatus == FeatureStatus.AVAILABLE) {// Proceed with inferenceval response = previewModel.generateContent("If I get 26 paychecks per year, how much I should contribute each paycheck to reach my savings goal of $10k over the course of a year? Return only the amount.")} else {// 推理模型不可用的情况// (比如,打印日志)}
Gemma4 模型也可通过 Ollama 或Ollama or LM Studio安装使用。
查看英文原文:Google Released Gemma 4 with a Focus On Local-First, On-Device AI Inference
本文来源:InfoQ