
字节跳动发布新一代多模态大模型,挑战谷歌 Gemini 2.5 Pro
在人工智能领域竞争日益激烈的今天,字节跳动的 Seed 团队于5月13日正式发布了其最新的多模态大模型 Seed1.5-VL,旨在为智能体技术的进步铺平道路。该模型经过超过3万亿 tokens 的多模态数据预训练,不仅具备强大的通用多模态理解和推理能力,还显著降低了推理成本。与谷歌近期推出的 Gemini2.5Pro 相比,Seed1.5-VL 在性能上表现不相上下。谷歌的 Gemini2.5Pr
在人工智能领域竞争日益激烈的今天,字节跳动的 Seed 团队于5月13日正式发布了其最新的多模态大模型 Seed1.5-VL,旨在为智能体技术的进步铺平道路。该模型经过超过3万亿 tokens 的多模态数据预训练,不仅具备强大的通用多模态理解和推理能力,还显著降低了推理成本。
与谷歌近期推出的 Gemini2.5Pro 相比,Seed1.5-VL 在性能上表现不相上下。谷歌的 Gemini2.5Pro 支持图像、视频、音频和代码的统一理解,并在多个基准测试中领先于 GPT-4.0。字节跳动的 Seed 团队表示,尽管 Seed1.5-VL 的激活参数仅为200亿,但在60个公开评测基准中,Seed1.5-VL 在38个基准测试中达到了最新最优性能(SOTA),其中包括在19项视频基准测试中赢得14项,以及7个 GUI(图形用户界面)代理任务中的3项。
在具体能力方面,Seed1.5-VL 展现了卓越的视觉推理、图像问答和视频理解等能力。在与智能体相关的任务中,该模型在7个 GUI 任务中取得了 SOTA 成绩。此外,Seed1.5-VL 在设计上简化了架构,降低了计算需求,使其更加适合交互式应用,能够在 PC 和手机等不同平台上顺利完成复杂任务,比如收集和处理信息。
不过,Seed1.5-VL 仍面临一些挑战。在细粒度视觉感知方面,模型在目标计数、图像差异识别和复杂空间关系解释时遇到了一些困难,尤其是在处理不规则排列、颜色相似或部分遮挡的情况下。此外,模型在高层次推理任务上,有时会出现无根据的假设或不完整的响应,表明其在这些任务中还有提升空间。
尽管如此,Seed1.5-VL 的发布标志着字节跳动在多模态技术上的持续进步。该模型目前已在火山引擎上开放 API,用户可以直接体验这一新技术。
发表评论 取消回复