Meta AI团队正式发布了MobileLLM-R1系列模型,标志着小参数模型进入R1时代。

这一全新高效推理模型系列专为移动端设备优化,旨在通过低训练成本实现高性能,推动AI在端侧设备的广泛应用。
MobileLLM-R1系列包含两类模型:基础模型(MobileLLM-R1-140M-base、MobileLLM-R1-360M-base和MobileLLM-R1-950M-base)及其对应的最终微调版本。

这些模型并非通用聊天模型,而是基于监督微调(SFT)技术专门训练,针对数学推理、编程(如Python和C++)及科学问题进行了优化。
主要功能
数学推理:MobileLLM-R1 在数学问题解答方面表现出色,能准确处理复杂的数学题目。例如,在数学基准测试中,其准确率显著高于其他同类模型,如 Olmo 1.24B 和 SmolLM2 1.7B,展现出强大的数学推理能力。

编程能力:模型在编程任务上也有出色表现,能生成高质量的代码。在 LiveCodeBench 编码能力测试中,性能大幅领先于其他同类模型,支持多种编程语言,如 Python 和 C++。
科学推理:MobileLLM-R1 具备科学推理能力,能处理与科学相关的复杂问题,为科学研究和教育提供支持。
高效推理:MobileLLM-R1 专为高效推理设计,适合在资源受限的环境中使用,如移动设备。其模型经过优化,能够在低功耗和低内存条件下高效运行。

监督微调:模型经过监督微调(SFT),专注于特定任务,非通用聊天。使它们在特定领域表现出色,能提供更精准和高效的解决方案。

可重复性:Meta 发布了完整的训练方案和数据源,确保研究的可重复性,支持进一步的研究和开发。
性能表现
以950M参数模型为例,它仅使用约2T高质量token进行预训练,总训练token量少于5T,但在MATH、GSM8K、MMLU和LiveCodeBench等基准测试中,其性能与使用36T token训练的Qwen3 0.6B模型相当或更优。

在后训练阶段的优化中,MobileLLM-R1通过精简的架构设计,减少了推理延迟和内存占用,同时保持了高准确率。

MobileLLM-R1这类小参数模型的发布,无疑为端侧LLM的发展注入了新的活力;
模型体量的减小,意味着更低的计算资源需求和更快的推理速度,从而提升用户体验。这对于推动AI技术在移动设备、物联网设备等领域的应用具有重要意义。
在线体验:
https://huggingface.co/spaces/akhaliq/MobileLLM-R1-950M
开源地址:
https://huggingface.co/collections/facebook/mobilellm-r1-68c4597b104fac45f28f448e