苹果开源扩散编码模型 DiffuCoder

苹果开源了DiffuCoder，这是一个针对编程任务微调的扩散大语言模型（dLLM）。DiffuCoder 基于Qwen-2.5-Coder，并在几个编程基准测试中超越了其他特定于代码的 LLM。

与典型的自回归方式“从左到右”生成文本的 LLM 不同，dLLM 通过并行去噪整个序列来生成文本，这意味着可以更快地生成。苹果的研究人员开发了 DiffuCoder，以便他们能够研究 dLLM 微调和推理的最佳策略。在他们的研究中，他们开发了一种称为耦合-GRPO 的组相关策略优化（Group Relative Policy Optimization，GRPO）微调技术的变体，这提高了模型的性能。在MBPP编程基准测试中，DiffuCoder 超越了Gemini Diffusion，并与 GPT-4o“竞争力”相当。根据苹果的说法，

通过使用一种新颖的耦合采样策略，我们的方法提供了更准确的似然估计。耦合-GRPO 显著提升了 DiffuCoder 的性能，证明了与扩散原则一致的强化学习方法的有效性。我们的工作使社区对 dLLM 有了更深入理解，并为未来在复杂推理和生成任务中探索 dLLM 奠定了坚实的基础。

大多数 LLM，如 OpenAI 的 GPT 模型，通过预测一个单一的下一个标记来追加到序列中，然后以新序列作为输入反馈，以自回归的方式生成文本。dLLM 采取的方法类似于 DALL-E 等图像生成模型：它们从一个嘈杂的序列开始，并迭代地去噪。这使得 dLLM 比自回归 LLM 生成输出要快得多：在 Gemini Diffusion 的案例中快了五倍。此外，它们不受从左到右产生文本的限制。相反，它们可以执行“全局内容规划”，这在编码任务中可能是一个优势。

苹果研究的一个关键成果是创建了自回归性（AR-ness）指标，该指标衡量模型遵循 LLM 从左到右模式的程度。他们发现 dLLM 通常表现出高度的 AR-ness，这可能是由于文本生成的固有性质。然而，在生成代码时，这个指标会下降。

他们还发现，增加采样温度会影响模型的 AR-ness，使模型在选择标记和标记顺序方面更加灵活。这提高了其在编程基准测试中的“pass@k”得分。研究人员指出，过去的工作表明，RL 微调模型的推理能力“受到基础模型的 pass@k 采样能力的约束”，这表明 DiffuCoder 有“巨大”的改进潜力。这促使了他们开发了耦合-GRPO RL 训练，这确实提高了 DiffuCoder 的基准测试结果，在某些情况下提高了 6 个百分点以上。

在 Hacker News 上的讨论中，一位用户写道：

扩散模型在并行化和速度方面带来了很多好处；在我看来，这种架构比严格的从左到右生成更适合编码……总体而言，这很有趣。在某种程度上，这些本地模型将足够好，可以用于“实际工作”，并且它们将迅速被 API 提供商采用。苹果的游戏是在设备上的；我想我们会在明年看到它们的后代和 Xcode 一起发布，作为编码体验的一部分。

DiffuCoder的代码可以在 GitHub 上找到。模型文件可以从 Huggingface 下载。

原文链接：

https://www.infoq.com/news/2025/07/apple-diffucoder/