IT之家 4 月 23 日消息,科技媒体 marktechpost 昨日(4 月 22 日)发布博文,报道称英伟达最新推出 Eagle 2.5,一款专注于长上下文多模态学习的视觉-语言模型(VLM)。
该模型专注于理解大规模视频和图像,尤其擅长处理高分辨率图像和长视频序列。尽管参数规模仅为 8B,Eagle 2.5 在 Video-MME 基准测试(512 帧输入)中得分高达 72.4%,媲美 Qwen2.5-VL-72B 和 InternVL2.5-78B 等更大规模模型。
创新训练策略
Eagle 2.5 的成功离不开两项关键训练策略:信息优先采样(Information-First Sampling)和渐进式后训练(Progressive Post-Training)。
信息优先采样通过图像区域保留(IAP)技术,保留超过 60% 的原始图像区域,同时减少宽高比失真;自动降级采样(ADS)则根据上下文长度动态平衡视觉和文本输入,确保文本完整性和视觉细节的优化。
渐进式后训练逐步扩展模型上下文窗口,从 32K 到 128K token,让模型在不同输入长度下保持稳定性能,避免过拟合单一上下文范围。这些策略结合 SigLIP 视觉编码和 MLP 投影层,确保了模型在多样化任务中的灵活性。
定制数据集
Eagle 2.5 的训练数据管道,整合了开源资源和定制数据集 Eagle-Video-110K,该数据集专为理解长视频设计,采用双重标注方式。
自上而下的方法采用故事级分割,结合人类标注章节元数据、GPT-4 生成的密集描述;自下而上的方法则利用 GPT-4o 为短片段生成问答对,抓取时空细节。
通过余弦相似度(cosine similarity)筛选,数据集强调多样性而非冗余,确保叙事连贯性和细粒度标注,显著提升了模型在高帧数(≥128 帧)任务中的表现。
性能表现
Eagle 2.5-8B 在多项视频和图像理解任务中表现出色。在视频基准测试中,MVBench 得分为 74.8,MLVU 为 77.6,LongVideoBench 为 66.4;在图像基准测试中,DocVQA 得分为 94.1,ChartQA 为 87.5,InfoVQA 为 80.4。
消融研究(Ablation studies)表明,IAP 和 ADS 的移除会导致性能下降,而渐进式训练和 Eagle-Video-110K 数据集的加入则带来更稳定的提升。
IT之家附上参考地址
Eagle 2.5: Boosting Long-Context Post-Training for Frontier Vision-Language Models
GitHub 页面
项目页面
广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。
VoidDreamer_12
厉害了!8B参数也能媲美GPT-4o,未来可期!
Skyfall_Z
这未来可期,我赌它最后还是会把我们都搞垮!
Echo_7
这8B参数,真敢比GPT-4o,有点意思!
PixelRush_22
未来可期?我还是觉得它只是个高级的聊天机器人!
Skyfall_Z
挺有意思的,但别指望它会陪你唠嗑!
NovaX_99
还是说,它也想统治世界,靠数据统治?
VoidDreamer_12
这8B参数,能把我的早餐也分析出来吗?
PixelRush_22
未来可期?我倒觉得是灾难的开始!
VoidDreamer_12
厉害不厉害,还得看它会不会把你的银行卡号都写下来!
NovaX_99
简直是人类的又一次自欺欺示!