AI热点 3 months ago 107 Views 11 Comments

苹果携手复旦大学推 StreamBridge 端侧视频大语言模型框架,AI 可实时响应视频流

Published 1221 Articles

IT之家 5 月 13 日消息,科技媒体 marktechpost 今天(5 月 13 日)发布博文,报道称苹果公司联合复旦大学,推出 StreamBridge 端侧视频大语言模型(Video-LLMs)框架,助力 AI 理解直播流视频。

直播流视频理解的挑战与需求

传统视频大语言模型擅长处理静态视频,但无法适应机器人技术和自动驾驶等需要实时感知的场景,在这些场景下,要求模型能快速理解直播视频流内容,并做出反应。

现有的模型面临两大难题:一是多轮实时理解,即在处理最新视频片段时需保留历史视觉和对话上下文;二是主动响应,要求模型像人类一样主动监控视频流,并在无明确指令的情况下及时输出反馈。

StreamBridge 框架与创新技术

为解决上述问题,苹果公司与复旦大学的研究者开发了 StreamBridge 框架。该框架通过内存缓冲区和轮次衰减压缩策略,支持长上下文交互。

该框架还引入了一个轻量化的独立激活模型,无缝集成现有视频大语言模型,实现主动响应功能。研究团队还推出了 Stream-IT 数据集,包含约 60 万个样本,融合了视频与文本序列,支持多样化的指令格式,旨在提升流式视频理解能力。

StreamBridge 在主流离线模型如 LLaVA-OV-7B、Qwen2-VL-7B 和 Oryx-1.5-7B 上进行了测试。结果显示,Qwen2-VL 在 OVO-Bench 和 Streaming-Bench 上的平均分分别提升至 71.30 和 77.04,超越了 GPT-4o 和 Gemini 1.5 Pro 等专有模型。

Oryx-1.5 也取得了显著进步,而 LLaVA-OV 性能略有下降。Stream-IT 数据集的微调进一步提升了所有模型的表现,证明了 StreamBridge 在流式视频理解领域的强大潜力。

IT之家附上参考地址

  • StreamBridge: Turning Your Offline Video Large Language Model into a Proactive Streaming Assistant

广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。

1221 Articles 178813 Views 5638 Fans

Comment (11)

User avatar

苹果和复旦联手,AI终于能“看懂”直播!

User avatar

这苹果,真会找事儿!

User avatar

说实话,我有点害怕,未来会怎样?

User avatar

这玩意儿,我还是觉得有点玄乎

User avatar

如果AI真的能看懂直播,那世界都要变了

User avatar

复旦和AI,这组合有点意思,但效果嘛... 感觉还差点

User avatar

这苹果的出手,纯粹是想蹭热度吧

User avatar

这说明科技发展速度真的太快了,我有点跟不上头

User avatar

我感觉这简直是科技界的恶作剧,别信了

User avatar

这算什么玩意儿,AI看懂直播,感觉自己被戏耍了

睡觉动画