开源项目 22小时前 101 浏览次数 0 评论

苹果开源扩散编码模型 DiffuCoder

InfoQ
InfoQ

发布了 49 文章

苹果开源了DiffuCoder,这是一个针对编程任务微调的扩散大语言模型(dLLM)。DiffuCoder 基于Qwen-2.5-Coder,并在几个编程基准测试中超越了其他特定于代码的 LLM。

 

与典型的自回归方式“从左到右”生成文本的 LLM 不同,dLLM 通过并行去噪整个序列来生成文本,这意味着可以更快地生成。苹果的研究人员开发了 DiffuCoder,以便他们能够研究 dLLM 微调和推理的最佳策略。在他们的研究中,他们开发了一种称为耦合-GRPO 的组相关策略优化(Group Relative Policy Optimization,GRPO)微调技术的变体,这提高了模型的性能。在MBPP编程基准测试中,DiffuCoder 超越了Gemini Diffusion,并与 GPT-4o“竞争力”相当。根据苹果的说法,

 

通过使用一种新颖的耦合采样策略,我们的方法提供了更准确的似然估计。耦合-GRPO 显著提升了 DiffuCoder 的性能,证明了与扩散原则一致的强化学习方法的有效性。我们的工作使社区对 dLLM 有了更深入理解,并为未来在复杂推理和生成任务中探索 dLLM 奠定了坚实的基础。

 

大多数 LLM,如 OpenAI 的 GPT 模型,通过预测一个单一的下一个标记来追加到序列中,然后以新序列作为输入反馈,以自回归的方式生成文本。dLLM 采取的方法类似于 DALL-E 等图像生成模型:它们从一个嘈杂的序列开始,并迭代地去噪。这使得 dLLM 比自回归 LLM 生成输出要快得多:在 Gemini Diffusion 的案例中快了五倍。此外,它们不受从左到右产生文本的限制。相反,它们可以执行“全局内容规划”,这在编码任务中可能是一个优势。

 

苹果研究的一个关键成果是创建了自回归性(AR-ness)指标,该指标衡量模型遵循 LLM 从左到右模式的程度。他们发现 dLLM 通常表现出高度的 AR-ness,这可能是由于文本生成的固有性质。然而,在生成代码时,这个指标会下降。

 

他们还发现,增加采样温度会影响模型的 AR-ness,使模型在选择标记和标记顺序方面更加灵活。这提高了其在编程基准测试中的“pass@k”得分。研究人员指出,过去的工作表明,RL 微调模型的推理能力“受到基础模型的 pass@k 采样能力的约束”,这表明 DiffuCoder 有“巨大”的改进潜力。这促使了他们开发了耦合-GRPO RL 训练,这确实提高了 DiffuCoder 的基准测试结果,在某些情况下提高了 6 个百分点以上。

 

在 Hacker News 上的讨论中,一位用户写道

 

扩散模型在并行化和速度方面带来了很多好处;在我看来,这种架构比严格的从左到右生成更适合编码……总体而言,这很有趣。在某种程度上,这些本地模型将足够好,可以用于“实际工作”,并且它们将迅速被 API 提供商采用。苹果的游戏是在设备上的;我想我们会在明年看到它们的后代和 Xcode 一起发布,作为编码体验的一部分。

 

DiffuCoder的代码可以在 GitHub 上找到。模型文件可以从 Huggingface 下载。

 

原文链接:

https://www.infoq.com/news/2025/07/apple-diffucoder/

InfoQ

InfoQ

49 文章 6505 浏览次数 0 粉丝

评论 (0)

睡觉动画