开源项目 1天前 155 浏览次数 0 评论

360开源全球最强图文模型FG-CLIP2:中英文任务双双登顶 SOTA!

AI-GitHub

发布了 56 文章

FG-CLIP2是360 人工智能研究院开源的图文模型,作为新一代文本-图像跨模态模型,在细粒度理解方面表现卓越。

在涵盖图文检索、目标检测等 8 大类 29 项国际权威测试中,全面超越谷歌 SigLIP 2 和 Meta 的 MetaCLIP 2,中英文任务双双登顶 SOTA,标志着中国模型首次在该核心赛道实现全方位领先。

技术创新

数据层面:构建FineHARD大规模中英双语数据集,不仅包含图片的详细描述(长达150词以上),还涵盖4000万个边界框及区域描述文本,实现真正的局部细粒度对齐。

算法创新:采用两阶段训练策略,结合独家TIC损失函数,专门针对语义相近的表述进行优化,提升模型的辨微能力。

架构优势:采用显式双塔结构,图像和文本编码器分离,支持海量数据的预提取和缓存,确保毫秒级响应速度,为实际应用奠定基础。

应用场景

电商零售:精准匹配材质、受众、季节等多维度需求,搜索转化率提升的同时降低退货率;

AIGC 创作:作为文生图的质量裁判,确保生成内容精准贴合细节指令,避免logo 位置错误等常见偏差;

智能安防:支持自然语言精准检索视频,调查人员输入复杂描述即可快速定位目标线索,提升应急响应效率;

具身智能:助力机器人准确理解细粒度指令,将机器对物理世界的感知精度提升至毫米级。

测试数据显示,FG-CLIP2 在复杂指令执行准确率、细粒度特征识别等关键指标上,较主流模型提升超 37%,为 AI 实用化落地开辟了新路径。

Github :https://github.com/360CVGroup/FG-CLIP

#AI开源项目推荐##github##AI技术##360开源#AI大模型##AI图文模型

AI-GitHub

AI-GitHub

56 文章 9528 浏览次数 0 粉丝

评论 (0)

睡觉动画