微软发布创新小参数模型Mu:性能比肩Phi-3.5-mini,赋能Windows智能体

微软发布创新小参数模型Mu:性能比肩Phi-3.5-mini,赋能Windows智能体

4.8
0热度

今天凌晨,微软正式发布了其最新创新小参数模型Mu。 这款模型参数仅为3.3亿,却在性能上能与微软此前发布的Phi-3.5-mini相媲美,而其体量仅为Phi-3.5-mini的十分之一。更令人瞩目的是,Mu在离线NPU笔记本设备上能实现每秒超过100个token的响应速度,这在小参数模型领域是极为罕见的突破。Mu模型的一大亮点是支持在Windows中设置智能体。用户只需通过自然语言指令,智能体便能

今天凌晨,微软正式发布了其最新创新小参数模型Mu。 这款模型参数仅为3.3亿,却在性能上能与微软此前发布的Phi-3.5-mini相媲美,而其体量仅为Phi-3.5-mini的十分之一。更令人瞩目的是,Mu在离线NPU笔记本设备上能实现每秒超过100个token的响应速度,这在小参数模型领域是极为罕见的突破。

Mu模型的一大亮点是支持在Windows中设置智能体。用户只需通过自然语言指令,智能体便能实时转化为系统操作,例如,一句“把鼠标指针调大一些,调整屏幕亮度”即可让智能体精准定位并一键完成设置调整,极大地提升了Windows系统的易用性。

QQ20250624-092718.png

Mu架构:小型本地部署的卓越优化

Mu模型借鉴了微软之前发布的Phi Silica模型,专为小型本地部署进行优化,尤其适用于配备NPU的Copilot+ PC。其核心架构为仅解码器的Transformer,并在其基础上引入了三大创新:

  • 双重层归一化(Dual Layer Normalization):通过在Transformer架构的每个子层前后分别实施LayerNorm操作,有效确保了激活值的分布具有良好的统计特性,显著增强了训练过程的稳定性,避免了深层网络中常见的训练不稳定问题,从而提高了训练效率并降低了资源消耗。
  • 旋转位置嵌入(Rotary Position Embedding, RoPE):相较于传统的绝对位置嵌入,RoPE通过引入复数域的旋转操作,将位置编码变为动态可扩展的函数映射。这使得模型能直接体现token之间的相对距离,解决了传统方法在处理超长序列时性能下降的问题,并赋予模型出色的长序列外推能力。
  • 分组查询注意力(Grouped-Query Attention):此优化针对传统多头注意力机制中参数和内存消耗大的问题。通过在头组之间共享键(Key)和值(Value),显著减少了注意力参数的数量和内存占用,从而降低了在NPU上的延迟和功耗,提高了模型运行效率,同时通过保持头的多样性,确保了与传统多头注意力机制相当的性能。

此外,Mu模型还采用了预热稳定衰减时间表和Muon优化器等先进训练技术来进一步优化性能。微软使用A100GPU对Mu进行训练,遵循Phi模型开发中首创的技术,首先在数百亿个高质量教育token上进行预训练,以学习语言的语法、语义和世界知识。为了进一步提高准确性,Mu还从Phi模型中进行知识蒸馏,实现了显著的参数效率,参数量仅为Phi-3.5-mini的十分之一,却达到了相似的性能。

QQ20250624-092725.png

赋能Windows智能体:低延迟与高精准的完美结合

为提升Windows系统的易用性,微软一直致力于打造一个能理解自然语言并无缝修改系统设置的AI智能体。微软计划将Mu模型驱动的智能体集成到现有搜索框中,以实现流畅的用户体验,这要求对众多可能的设置实现超低延迟响应。

在测试了多种模型后,Mu因其合适的特性被选中。尽管基线Mu模型在未经微调的情况下精度会下降50%,但微软通过将训练规模扩大到360万个样本(提升1300倍),并将处理的设置从约50项扩展至数百项,成功弥补了这一差距。通过采用自动化标注的合成方法、带元数据的提示调优、多样化措辞、噪声注入和智能采样等技术,用于设置智能体的Mu微调模型成功达到了质量目标。测试显示,Mu模型打造的智能体在Windows设置的理解和执行操作方面表现出色,响应时间控制在500毫秒以内。

首页 发现
看过 我的