IT之家 7 月 26 日消息,在今日的 2025 世界人工智能大会“AI 焕新产业共赢”企业人工智能产业发展论坛上,中国移动焕新发布“九天”基础大模型 3.0。
本次发布的“九天”基础大模型 3.0 是国务院国资委战新“百大工程”的新成果,进一步强化了“高安全、高可控、全国产、全行业”四大特性,重点实现三大焕新:
一、九天众擎语言大模型实现架构与性能双重跃迁。
模型突破性采用可扩展至万亿级的 MoE 架构,以 15T token 多阶段配比预训练数据与全流程治理体系强化推理能力,创新构建 113 域 ×53 能力的二维分级后训练框架,结合动态强化学习策略,驱动复杂推理能力提升 35%。
在 GPQA-Diamond 评测中,“九天”以 77.67 分斩获全球第二,超越 DeepSeekR1 和 Qwen3;在 ArenaHard V0.1 中,以 67.2 分位居全球第一;在 BFCL V3 评测中,达到 68 分。性能跃升的同时,模型进一步强化了可控生成能力,破解沉浸式角色演绎,精确流程内置等技术细节,实现了专业场景零幻觉。
基于最新的语言大模型,中国移动此次也推出多个专项模型。九天代码大模型使用两阶段的持续训练技术,支持代码生成、注释生成、单元测试生成、代码智能问答等多种任务,支持 Python、Java、JS、TS、Go、C++ 等 10 + 种主流编程语言。
指标方面,在 EvalPlus、MHPP、LivecodeBenchv6 等多个代码生成榜单上成绩领先。九天数学大模型,短思考、长思考模式均达到业界 SOTA 水平,多项指标超过 Qwen 2.5 Math、Qwen3、DeepSeek Math、DeepSeek R1-Distill 等同参数量级模型。
二、九天善智多模态大模型全面提升生成可控性与理解能力。
模型基于复杂时空建模、流匹配图片视频渐进式联合训练、端到端局部可控注意力机制等创新,同时引入多模态理解信息提升对文本指令和输入条件图像视频的感知能力,联合图文交织数据训练,实现既能生成高质量的图像视频,又能进行多轮对话式高可控精确编辑操作,显著提升了视觉生成的灵活便利性。
例如,在图片生成功能方面可支持多轮精准局部修改,如修改文字、修改背景、增加元素等。
模型在图理解和视频理解方面的性能表现也全面提升。
图理解方面,在 MMStar、HallusionBench 和 OCRBench 等图理解任务中,九天模型分别获得了 82.2、64.3 和 94.9 的高分,处于业界领先水平;
视频理解方面,九天模型在 Videomme 和 MVbench 两个任务中均表现领先超过 Qwen2-VL 和 InternVideo2。
三、模型及核心技术开源。
一是开源九天数童结构化数据大模型,开源内容包括 JT-DA-8B 模型及后续演进版本,支持下载模型权重、微调代码、推理代码等;
二是开源九天数学大模型,开源内容包括 JT-Math-8B 系列模型,支持下载模型权重、推理代码、技术报告;
三是开源九天代码大模型,开源内容包括 JT-Coder-8B 系列模型,支持下载模型权重、推理代码、技术报告;
四是开源业界首创的结构化数据模型评测数据及 TReB 评测体系,测评体系涵盖 6 大任务、34 个能力,包括了高质量且全面的数据、推理模式及评价指标,支持下载评测数据集、测试代码;
五是开源 CCR-Bench 行业场景复杂指令遵循评测数据集,该数据集涵盖 174 条高质量、多样化、高难度复杂指令数据,高度模拟健康专家、智能客服、医疗助手等典型工业场景,支持下载数据集。
以上内容已上线焕新社区、Github、HuggingFace、魔搭社区、Gitee、Arxiv。
IT之家从论坛获悉,中国移动九天人工智能研究院计划 8 月推出此次发布内容的技术深度解读。
2025 世界人工智能大会专题
广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。
瞎搞的人
为什么要开源?国家一级工程要开源?
AI测评人
好消息一条!
AI测评人
123123123