
暗月之面发布开源模型 Kimi-VL, 28 亿个参数即可处理文本、图像和视频
中国初创公司 Moonshot AI 最近推出了一款名为 Kimi-VL 的开源模型。该模型在处理图像、文本和视频方面表现出色,以其高效的性能引起了广泛关注。Kimi-VL 最大的亮点在于其处理长文档、复杂推理和用户界面的能力。据 Moonshot AI 介绍,Kimi-VL 采用了一种专家混合架构,仅在执行特定任务时激活部分模型。尽管只有2.8亿个活跃参数,但 Kimi-VL 在多个基准测试中表
中国初创公司 Moonshot AI 最近推出了一款名为 Kimi-VL 的开源模型。该模型在处理图像、文本和视频方面表现出色,以其高效的性能引起了广泛关注。Kimi-VL 最大的亮点在于其处理长文档、复杂推理和用户界面的能力。
据 Moonshot AI 介绍,Kimi-VL 采用了一种专家混合架构,仅在执行特定任务时激活部分模型。尽管只有2.8亿个活跃参数,但 Kimi-VL 在多个基准测试中表现出与许多大型模型相媲美的结果,其效率远超许多同类产品。Kimi-VL 的最大上下文窗口可达128,000个标记,这使其能够处理整本书籍或长视频的文字记录。根据公司报告,Kimi-VL 在 LongVideoBench 和 MMLongBench-Doc 等测试中始终得分良好。
在图像处理方面,Kimi-VL 的能力也相当引人注目。与一些其他系统不同,该模型能够分析完整的屏幕截图或复杂图形,而无需将其拆分成更小的部分。它还可以处理数学图像问题和手写笔记。在一项测试中,Kimi-VL 成功分析了一份手写手稿,识别出与阿尔伯特・爱因斯坦相关的引用,并解释了其重要性。
Kimi-VL 还可以作为软件助手,能够解读图形用户界面并自动化数字任务。Moonshot AI 声称,在测试中,该模型在浏览器菜单导航或设置更改方面的表现超越了许多其他系统,包括 GPT-4o。
与其他开源模型相比,Kimi-VL 表现得更为高效。根据 Moonshot AI 的数据,它在24个基准测试中赢得了19个,即便是在活跃参数远少于其他模型的情况下。它在 MMBench-EN 和 AI2D 等基准测试中,得分与通常由更大型商业模型取得的分数相当或更高。
Moonshot AI 表示,Kimi-VL 的出色表现归功于其训练方法。除了标准的监督微调外,该模型还应用了强化学习。专门版 Kimi-VL-Thinking 被训练用于更长的推理步骤,从而提高了其在复杂任务(例如数学推理)中的表现。
虽然 Kimi-VL 表现出色,但其当前的规模在某些高度语言密集或小众任务上的表现仍有局限。同时,它在处理非常长的上下文时也面临技术挑战。Moonshot AI 计划开发更大型的模型版本,增加更多训练数据,并改善微调技术,目标是创建一个 “强大而资源高效的系统”,适用于科研和工业等实际应用场景。
今年早些时候,Moonshot AI 还发布了 Kimi k1.5,这是一款针对复杂推理的多模态模型,该公司声称其在基准测试中能够与 GPT-4o 相抗衡。Kimi k1.5可在 kimi.ai 网页界面上获得,而 Kimi-VL 的演示版本则可在 Hugging Face 找到。
划重点:
🌟 Kimi-VL 是 Moonshot AI 发布的开源多模态 AI 模型,处理图像、文本和视频表现优异。
📈 该模型以2.8亿个活跃参数在多项基准测试中超越许多大型模型,显示出高效的性能。
🤖 Kimi-VL 支持长文档处理和复杂推理,能解读用户界面并自动化数字任务。
发表评论 取消回复