字节跳动发布新一代多模态大模型，挑战谷歌 Gemini 2.5 Pro

AIbase基地

发布了 11569 文章

在人工智能领域竞争日益激烈的今天，字节跳动的 Seed 团队于5月13日正式发布了其最新的多模态大模型 Seed1.5-VL，旨在为智能体技术的进步铺平道路。该模型经过超过3万亿 tokens 的多模态数据预训练，不仅具备强大的通用多模态理解和推理能力，还显著降低了推理成本。

与谷歌近期推出的 Gemini2.5Pro 相比，Seed1.5-VL 在性能上表现不相上下。谷歌的 Gemini2.5Pro 支持图像、视频、音频和代码的统一理解，并在多个基准测试中领先于 GPT-4.0。字节跳动的 Seed 团队表示，尽管 Seed1.5-VL 的激活参数仅为200亿，但在60个公开评测基准中，Seed1.5-VL 在38个基准测试中达到了最新最优性能（SOTA），其中包括在19项视频基准测试中赢得14项，以及7个 GUI(图形用户界面)代理任务中的3项。

在具体能力方面，Seed1.5-VL 展现了卓越的视觉推理、图像问答和视频理解等能力。在与智能体相关的任务中，该模型在7个 GUI 任务中取得了 SOTA 成绩。此外，Seed1.5-VL 在设计上简化了架构，降低了计算需求，使其更加适合交互式应用，能够在 PC 和手机等不同平台上顺利完成复杂任务，比如收集和处理信息。