Midjourney操作界面

谷歌发布 Gemma 3 QAT 模型:一张3090显卡也能轻松驾驭

4.8
0热度

谷歌近期推出了 Gemma3系列的全新版本,这一消息让众多 AI 爱好者为之振奋。仅在上线一个月后,谷歌便发布了经过量化感知训练(QAT)优化的 Gemma3,旨在显著降低内存需求的同时,保持模型的高质量。具体来说,经过 QAT 优化的 Gemma327B 模型,其显存需求从54GB 大幅降低到14.1GB,意味着用户现在可以在 NVIDIA RTX3090等消费级 GPU 上本地运行这一大型模型

谷歌近期推出了 Gemma3系列的全新版本,这一消息让众多 AI 爱好者为之振奋。仅在上线一个月后,谷歌便发布了经过量化感知训练(QAT)优化的 Gemma3,旨在显著降低内存需求的同时,保持模型的高质量。

具体来说,经过 QAT 优化的 Gemma327B 模型,其显存需求从54GB 大幅降低到14.1GB,意味着用户现在可以在 NVIDIA RTX3090等消费级 GPU 上本地运行这一大型模型。通过简单的测试,配备 RTX3070的机器也能运行 Gemma3的12B 版本,尽管其 token 输出速度稍显不足,但整体性能仍在可接受范围之内。

image.png

QAT 的神奇之处在于,它在训练过程中直接融入量化操作,与传统的训练完成后再进行量化的方法不同。这种方法能够有效模拟低精度运算,从而在后续量化为更小版本时,尽量减少性能损失。谷歌进行了约5000步的 QAT 训练,成功将困惑度下降了54%,这让模型在小型设备上也能保持较高的运行效果。

image.png

现在,Gemma3的不同版本都可以在各类 GPU 上运行。以 Gemma327B 为例,只需单张 NVIDIA RTX3090(24GB VRAM)便能轻松实现本地运行,而 Gemma312B 则可以在 NVIDIA RTX4060等更轻便的设备上高效执行。这种模型的降维设计使得更多用户能够体验到强大的 AI 功能,甚至在资源有限的系统上(如手机)也能获得支持。

谷歌还与多个开发者工具合作,提供用户无缝体验的方式,如 Ollama、LM Studio 和 MLX 等工具都已支持 Gemma3QAT 模型的使用。值得一提的是,许多用户对此表示极大的兴奋,纷纷表示希望谷歌进一步探索更高效的量化技术。

点赞(0)

评论列表 共有 0 条评论

暂无评论
发表
评论
顶部