在大模型竞争仍主要围绕「参数越大越强」的背景下,Google DeepMind 给出了另一种答案:能力提升并不必然依赖规模扩张。
近期,Google DeepMind 推出 Gemma 4 系列新成员——Gemma 4 12B。这是一款约 120 亿参数的统一多模态模型,但在多项主流基准测试中,其表现已接近 260 亿参数级别的 MoE 架构模型。在推理能力、代码生成以及跨模态理解任务中,Gemma 4 12B 已逼近更高规格的 Gemma 4 26B,并在部分视觉理解与 Agent 任务上达到同级开源模型中的领先水平。更值得注意的是,该模型在硬件需求上显著下降,仅需约 16GB 显存或统一内存即可在消费级设备上本地运行,实现了性能与部署成本之间的高效平衡。
作为 Gemma 系列中首个原生支持音频输入的中等规模模型,Gemma 4 12B 的关键突破并不在于参数扩展,而在于架构层面的重新设计。传统多模态模型通常采用“视觉编码器 + 语音编码器 + 大语言模型”的级联结构:图像与音频分别经由独立编码器处理后,再交由语言模型进行统一推理。这种设计虽然成熟稳定,但也不可避免地引入了额外的计算冗余、更高的显存占用以及更长的推理延迟。
为了解决这一问题,Google DeepMind 为 Gemma 4 12B 设计了一套全新的 Encoder-Free(无编码器)架构。图像经过轻量级嵌入模块后直接进入 LLM 主干网络,而音频则被直接投射到与文本 Token 相同的表示空间,由同一个 Decoder-Only Transformer 统一处理文本、图像和声音三种模态。官方表示,这种设计显著降低了多模态推理延迟,同时减少了系统复杂度和内存占用。
除了统一多模态架构之外,Gemma 4 12B 还支持 256K 超长上下文窗口、可切换的 Thinking 深度推理模式、原生 Function Calling 以及 Agent 工作流能力。在标准评测中,其综合性能已接近体量超过两倍的 Gemma 4 26B MoE 模型,而运行成本却不到后者的一半。对于希望在本地部署先进 AI 能力的开发者而言,这意味着无需昂贵 GPU,也能够获得接近当前顶级多模态模型的推理与 Agent 体验。
目前,OpenBayes 官网已上线「Gemma4 12B-it:图文音统一多模态模型」教程,以 Notebook 的形式降低部署门槛,便于广大开发者快速验证模型。
在线运行链接:https://go.openbayes.com/MgPnI
Demo 运行
01Demo 运行阶段
1.登录 OpenBayes.com,在「公共教程」页面,搜索并选择「Gemma4 12B-it:图文音统一多模态模型」教程。
2.页面跳转后,点击右上角「克隆」,将该教程克隆至自己的容器中。
3.选择「NVIDIA RTX 5090」以及「PyTorch」镜像,点击「继续执行」。
新用户使用下方邀请链接注册,即可获得满 ¥10 赠 ¥10 优惠券,更有机会获得 ¥15 赠金!
小贝总专属邀请链接(直接复制到浏览器打开):https://go.openbayes.com/9S6Dr
4.等待分配资源,当状态变为「运行中」后,点击「打开工作空间」进入 Jupyter Workspace。
02效果演示
1.页面跳转后,点击左侧 README.ipynb 文件,进入后运行文件。
2.待运行完成,打开终端,执行命令启动 Open WebUI,点击右侧 API 地址跳转至 demo 页面。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用。你还可以使用@来通知其他用户。