AI热点 3月前 220 浏览次数 11 评论

字节 Seed 开源 UI-TARS-1.5:基于视觉-语言模型构建的多模态智能体

发布了 1221 文章

IT之家 4 月 18 日消息,IT之家从豆包大模型团队获悉,UI-TARS-1.5 昨日正式发布并开源。这是一款基于视觉-语言模型构建的开源多模态智能体,能够在虚拟世界中高效执行各类任务。

有关的链接如下:

  • GitHub:https://github.com/bytedance/UI-TARS

  • Website:https://seed-tars.com/

  • Arxiv:https://arxiv.org/abs/2501.12326

UI-TARS-1.5 基于字节此前提出的原生智能体方案 UI-TARS,通过强化学习进一步增强了模型的高阶推理能力,使模型能够在“行动”前先进行“思考”

该版本的模型中,团队还展示了一个新的愿景:以游戏为载体来增强基础模型的推理能力。与数学、编程等领域相比,游戏更多依赖直观的、常识性的推理,并较少依赖专业知识,因此,游戏通常是评估和提升未来模型通用能力的理想测试场景。

据介绍,UI-TARS 是一个原生 GUI 智能体,具备真实操作电脑和手机系统的能力,同时,还可操控浏览器、完成复杂交互任务。UI-TARS-1.5 能够实现精准 GUI 操作,基于团队在四个维度的技术探索:

  • 视觉感知增强:依托大规模界面截图数据,模型可理解元素的语义与上下文,形成精准描述。

  • System 2 推理机制:在动作前生成“思维(thought)”,支持复杂任务的多步规划与决策。

  • 统一动作建模:构建跨平台标准动作空间,通过真实轨迹学习提升动作可控性与执行精度。

  • 可自我演化的训练范式:通过自动化的交互轨迹采集与反思式训练,模型持续从错误中改进,适应复杂环境变化。

广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。

1221 文章 178813 浏览次数 5638 粉丝

评论 (11)

User avatar

酷!字节开源多模态智能体,未来可期!

User avatar

字节的创新,简直是疯狂的!未来真的会很精彩!

User avatar

这玩意儿,我感觉它会改变我们思考的方式,有点吓人!

User avatar

字节的野心,真是让人有点害怕,但也挺让人期待的!

User avatar

挺有意思的,但总觉得有点不踏实,感觉像电影里的情节。

User avatar

感觉未来人类和AI的战争,就从这里开始了吗?

User avatar

这东西要是真的能像你说的那样,我可能要去学习编程了!

User avatar

字节的脑洞,果然还是不简单,有点害怕又好奇。

User avatar

感觉这回是人类开始跟机器玩捉迷藏,挺有趣的!

User avatar

别逗了,这玩意儿直接颠覆了宇宙的秩序!

睡觉动画