Google 发布 Gemma 4 12B 开源模型 16GB 笔记本跑全模态

2026-06-04 09:32:41 拥抱智能未来科技

Google 发布 Gemma 4 12B 开源模型
16GB 笔记本跑全模态 AI
Gemma 4 12B 采用了一种叫"Unified"的无编码器架构，让文字、图像、音频、视频四种输入直接进入同一个 Transformer 主干网络处理。
模型可直接处理原始的图像和声音
用一个类比讲清楚
传统多模态模型处理图片和音频的方式，类似于一个只会中文的老板配了两个翻译：一个英文翻译（视觉编码器），一个日文翻译（音频编码器）。
每次有英文或日文材料进来，必须先让翻译转成中文，老板才能看懂。翻译本身占工位（显存），翻译过程要排队等（延迟），而且老板拿到的是翻译加工过的版本，不是原文。
Gemma 4 12B 做的事情是：把两个翻译都裁了，让老板自己学会了直接看英文和日文。
几个关键数字：
16GB 显存或统一内存能跑，4-bit 量化低到 8GB，目标就是在普通笔记本上本地运行
256K Token 上下文窗口，支持 140+ 种语言
内置 Thinking 模式（逐步推理）和原生 Function Calling