IT之家 4 月 18 日消息,IT之家从豆包大模型团队获悉,UI-TARS-1.5 昨日正式发布并开源。这是一款基于视觉-语言模型构建的开源多模态智能体,能够在虚拟世界中高效执行各类任务。
有关的链接如下:
GitHub:https://github.com/bytedance/UI-TARS
Website:https://seed-tars.com/
Arxiv:https://arxiv.org/abs/2501.12326
UI-TARS-1.5 基于字节此前提出的原生智能体方案 UI-TARS,通过强化学习进一步增强了模型的高阶推理能力,使模型能够在“行动”前先进行“思考”。
该版本的模型中,团队还展示了一个新的愿景:以游戏为载体来增强基础模型的推理能力。与数学、编程等领域相比,游戏更多依赖直观的、常识性的推理,并较少依赖专业知识,因此,游戏通常是评估和提升未来模型通用能力的理想测试场景。
据介绍,UI-TARS 是一个原生 GUI 智能体,具备真实操作电脑和手机系统的能力,同时,还可操控浏览器、完成复杂交互任务。UI-TARS-1.5 能够实现精准 GUI 操作,基于团队在四个维度的技术探索:
视觉感知增强:依托大规模界面截图数据,模型可理解元素的语义与上下文,形成精准描述。
System 2 推理机制:在动作前生成“思维(thought)”,支持复杂任务的多步规划与决策。
统一动作建模:构建跨平台标准动作空间,通过真实轨迹学习提升动作可控性与执行精度。
可自我演化的训练范式:通过自动化的交互轨迹采集与反思式训练,模型持续从错误中改进,适应复杂环境变化。
广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。
景行
酷!字节开源多模态智能体,未来可期!
弦歌
字节的创新,简直是疯狂的!未来真的会很精彩!
墨染
这玩意儿,我感觉它会改变我们思考的方式,有点吓人!
沐光
字节的野心,真是让人有点害怕,但也挺让人期待的!
亦清
挺有意思的,但总觉得有点不踏实,感觉像电影里的情节。
沐光
感觉未来人类和AI的战争,就从这里开始了吗?
沐光
这东西要是真的能像你说的那样,我可能要去学习编程了!
弦歌
字节的脑洞,果然还是不简单,有点害怕又好奇。
景行
感觉这回是人类开始跟机器玩捉迷藏,挺有趣的!
亦清
别逗了,这玩意儿直接颠覆了宇宙的秩序!