塔斯娱乐资讯网

Google 发布 Gemma 4 12B 开源模型 16GB 笔记本跑全模态

Google 发布 Gemma 4 12B 开源模型
16GB 笔记本跑全模态 AI
Gemma 4 12B 采用了一种叫"Unified"的无编码器架构,让文字、图像、音频、视频四种输入直接进入同一个 Transformer 主干网络处理。
模型可直接处理原始的图像和声音
用一个类比讲清楚
传统多模态模型处理图片和音频的方式,类似于一个只会中文的老板配了两个翻译:一个英文翻译(视觉编码器),一个日文翻译(音频编码器)。
每次有英文或日文材料进来,必须先让翻译转成中文,老板才能看懂。翻译本身占工位(显存),翻译过程要排队等(延迟),而且老板拿到的是翻译加工过的版本,不是原文。
Gemma 4 12B 做的事情是:把两个翻译都裁了,让老板自己学会了直接看英文和日文。
几个关键数字:
16GB 显存或统一内存能跑,4-bit 量化低到 8GB,目标就是在普通笔记本上本地运行
256K Token 上下文窗口,支持 140+ 种语言
内置 Thinking 模式(逐步推理)和原生 Function Calling