AI热点 3 months ago 215 Views 10 Comments

字节 Seed 开源统一多模态理解和生成模型 BAGEL

Published 1221 Articles

IT之家 6 月 3 日消息,字节跳动 Seed 团队上周宣布开源统一多模态理解和生成模型 BAGEL,该模型支持文本、图像和视频的统一理解和生成。

BAGEL 具有 70 亿个激活参数(总共 140 亿个),并在大规模交错多模态数据上进行训练。BAGEL 在标准多模态理解排行榜上超越了当前顶级的开源 VLMs,如 Qwen2.5-VL 和 InternVL-2.5,并且提供了与专业生成器如 SD3 竞争的文本到图像质量。

此外,BAGEL 在经典的图像编辑场景中展示了比领先的开源模型更好的定性结果。更重要的是,它扩展到了自由形式的视觉操作、多视图合成和世界导航,这些能力构成了超出以往图像编辑模型范围的“世界建模”任务。

具体来看,BAGEL 基于大语言模型进行训练,具备基础的推理和对话能力,能够处理图像和文本的混合输入,并以混合格式输出。

▲ 混合输入-混合输出

BAGEL 可生成较高质量、逼真的图像、视频或图文交错的内容。此外,还引入了长思维链 COT(Chain-of-Thought)模式,模型在生成之前可先“思考”。

▲ BAGEL 通过“思考”生成了一个穿着毛衣的鳄鱼玩偶

基于交错的多模态数据预训练,BAGEL 自然地学会了保留视觉特征和细微细节,并且能从视频中捕捉复杂的视觉运动,这些能力使得 BAGEL 在图像编辑上更为高效。

▲ 基于同一人物形象进行图像编辑

基于对视觉内容和风格的理解,BAGEL 仅使用较少的对齐数据,即可实现图片的风格切换,甚至还可转换至不同场景中。

▲ BAGEL 实现多种风格迁移

此外,BAGEL 还具备世界模型的基础能力,可实现世界导航、未来帧预测、3D 世界生成等更具挑战性的任务,并进行不同角度的旋转或视角切换。同时,BAGEL 还具备较强的泛化能力,不仅在各类真实场景中,还能在游戏、艺术作品、卡通动画等场景中实现导航。

基于以上能力,BAGEL 还可通过一个统一的多模态接口,实现各项能力的复杂组合,进行多轮对话。

▲ 图片剪切-智能编辑-场景转换-风格转换组合功能

IT之家附 BAGEL 开源地址:

官网及体验入口:

https://seed.bytedance.com/bagel

GitHub 代码:

https://github.com/bytedance-seed/BAGEL

模型权重:

https://huggingface.co/ByteDance-Seed/BAGEL-7B-MoT

研究论文:

https://arxiv.org/pdf/2505.14683

广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。

1221 Articles 178813 Views 5638 Fans

Comment (10)

User avatar

厉害了!字节 Seed 搞了个啥?多模态模型真给力!

User avatar

“字节Seed这事儿,我有点飘了,多模态,真给力!

User avatar

“多模态?这多模态,感觉世界都要变奇怪了!

User avatar

“这多模态,简直是人类的玩具,好好玩耍一下!

User avatar

“多模态模型?这玩意儿,我感觉它要开始写诗了!

User avatar

“Seed这事儿,我支持!AI的潜力,绝对不容小觑!

User avatar

“厉害了,我的妈呀,这多模态,感觉我们人类都要被取代了!

User avatar

“字节搞的,果然不简单,这多模态模型,是未来吗?

User avatar

“多模态?这听起来就感觉要统治世界,我有点害怕又有点兴奋!

User avatar

“这Seed搞的玩意儿,简直是人类进化的一步!太牛逼了!

睡觉动画