AI热点 2月前 127 阅读 0 评论

英伟达开源 OCR 代码推理 AI 模型:LiveCodeBench 基准超 OpenAI o3-Mini 和 o1(low)

作者头像

AI技术专栏作家 | 发布了 246 篇文章

英伟达开源 OCR 代码推理 AI 模型:LiveCodeBench 基准超 OpenAI o3-Mini 和 o1(low)
英伟达开源 OCR 代码推理 AI 模型:LiveCodeBench 基准超 OpenAI o3-Mini 和 o1(low)

IT之家 5 月 9 日消息,科技媒体 marktechpost 昨日(5 月 8 日)发布博文,报道称英伟达开源其 Open Code Reasoning(OCR)模型套装,含 32B、14B 和 7B 三种参数规模,均采用 Apache 2.0 许可证发布,模型权重和配置已在 Hugging Face 平台开放下载。

OCR 模型套装提供三种参数规模,分别为 OpenCodeReasoning-Nemotron-32B、14B 和 7B,均使用 Nemotron 架构(一种为多语言、多任务学习优化的 transformer 框架)训练。

32B 模型面向高性能推理和研究场景,提供顶尖效果;14B 模型在降低计算需求的同时保持强大推理能力;7B 模型则适合资源受限的环境,仍能在基准测试中展现竞争力。

此外,32B 模型还推出了指令微调版本,支持与开放推理生态系统无缝兼容,适配 llama.cpp、vLLM、Hugging Face Transformers 和 TGI 等主流框架,方便开发者快速集成。

Open Code Reasoning(OCR)模型套装在代码推理领域展现出惊人实力。在 LiveCodeBench 基准测试中,这套模型全面超越 OpenAI 的 o3-Mini 和 o1 (low) 模型。

ModelLiveCodeBench Avg.CodeContest All
DeepSeek-R165.626.2
QwQ-32B61.320.2



Distilled 7B+ Models




Bespoke-Stratos-7B14.72.0
OpenThinker-7B25.55.0
R1-Distill-Qwen-7B38.011.1
OlympicCoder-7B40.910.6
OCR-Qwen-7B48.516.3
OCR-Qwen-7B-Instruct51.318.1



Distilled 14B+ Models




R1-Distill-Qwen-14B51.317.6
OCR-Qwen-14B57.722.6
OCR-Qwen-14B-Instruct59.423.6



Distilled 32B+ Models




Bespoke-Stratos-32B30.16.3
OpenThinker-32B54.116.4
R1-Distill-Qwen-32B58.118.3
OlympicCoder-32B57.418.0
OCR-Qwen-32B61.824.6
OCR-Qwen-32B-Instruct61.724.4

IT之家注:LiveCodeBench 是一个综合评估平台,专注于调试、代码生成和逻辑补全等真实开发者环境中的任务。

这一成就不仅得益于模型架构的优化,还归功于英伟达打造的定制“OCR 数据集”。该数据集聚焦高质量代码训练,强调指令遵循、推理能力和多步骤问题解决能力。

广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。

作者头像

AI前线

专注人工智能前沿技术报道,深入解析AI发展趋势与应用场景

246篇文章 1.2M阅读 56.3k粉丝

评论 (128)

用户头像

AI爱好者

2小时前

这个更新太令人期待了!视频分析功能将极大扩展AI的应用场景,特别是在教育和内容创作领域。

用户头像

开发者小明

昨天

有没有人测试过新的API响应速度?我们正在开发一个实时视频分析应用,非常关注性能表现。

作者头像

AI前线 作者

12小时前

我们测试的平均响应时间在300ms左右,比上一代快了很多,适合实时应用场景。

用户头像

科技观察家

3天前

GPT-4的视频处理能力已经接近专业级水平,这可能会对内容审核、视频编辑等行业产生颠覆性影响。期待看到更多创新应用!