Video-XL-2 智源研究院 视觉编码器 Qwen2.5-Instruct 智源研究院开源轻量级超长视频理解模型Video-XL-2 ⭐0 👥0 近日,智源研究院联合上海交通大学等机构正式发布了一款新一代超长视频理解模型——Video-XL-2。这一模型的推出标志着长视频理解技术在开源领域取得了重大突破,为多模态大模型在长视频内容理解方面的发展注入了新的活力。在技术架构方面,Video-XL-2主要由视觉编码器、动态Token合成模块(DTS)以及大语言模型(LLM)三个核心组件构成。该模型采用SigLIP-SO400M作为视觉编码器,对输
最新 悟界 Emu3 智源研究院 Midjourney 智源研究院推出Emu3等“悟界”系列大模型 ⭐0 👥0 在刚刚闭幕的第七届 “北京智源大会” 上,智源研究院重磅推出了一系列名为 “悟界” 的大模型。这些模型的发布标志着人工智能领域又一次技术的飞跃,吸引了众多科技爱好者的目光。此次发布的模型包括原生多模态世界模型 Emu3、脑科学多模态通用基础模型见微 Brainμ、以及跨本体的具身大小脑协作框架 RoboOS2.0和具身大脑 RoboBrain2.0。此外,还有全原子微观生命模型 OpenCompl