Mu是什么
Mu是微软推出的小参数语言模型,仅3.3亿参数,支持在 NPU 和边缘设备上高效运行。模型基于编码器解码器架构,基于硬件感知优化、模型量化及特定任务微调,实现每秒超100 tokens的响应速度。Mu支持Windows设置智能体,能将自然语言指令实时转化为系统操作,如调整屏幕亮度、鼠标指针大小等。与-Phi3.5-mini相比,Mu参数量小10倍,但性能相当。其创新包括双重层归一化、旋转位置嵌入和分组查询注意力等技术,提升训练稳定性和推理效率。

Mu的主要功能
- 系统设置调整:用户基于自然语言指令调整系统设置,如“把鼠标指针调大一些”或“调整屏幕亮度”。
- 低延迟响应:Mu能在设备端快速响应,响应速度超过100 tokens/second,确保用户体验流畅。
- 集成到Windows设置:Mu被集成到Windows设置的搜索框中,用户直接在搜索框中输入自然语言指令,系统自动识别并执行相关操作。
- 支持多种设置:Mu能处理数百项系统设置,覆盖用户日常使用中的各种需求。
Mu的技术原理
- 编码器解码器架构:Mu基于编码器-解码器架构,编码器将输入文本转换为固定长度的潜在表示,解码器基于表示生成输出。
- 硬件感知优化:Mu针对NPU进行优化,包括调整模型架构和参数形状适应硬件的并行性和内存限制,确保模型在NPU上高效运行。
- 模型量化:基于后训练量化(PTQ),将模型权重和激活从浮点数转换为整数表示,主要使用8位和16位整数,显著减少模型的内存占用和计算需求,保持模型的准确性。
- 创新的Transformer升级:
- 双重层归一化(Dual LayerNorm):在每个子层前后分别进行LayerNorm操作,确保激活值分布良好,稳定训练过程。
- 旋转位置嵌入(Rotary Positional Embeddings, RoPE):基于复数域的旋转操作,动态生成位置编码,支持长序列的外推能力,避免传统绝对位置编码的局限性。
- 分组查询注意力(Grouped-Query Attention, GQA):基于在头组之间共享键和值,减少注意力参数数量和内存占用,保持头的多样性,提升模型效率。
- 训练技术:用A100 GPU进行预训练,从Phi模型进行知识蒸馏,基于低秩适配(LoRA)方法进行特定任务的微调,进一步提升模型性能。
Mu的项目地址
- 项目官网:https://blogs.windows.com/windowsexperience/2025/06/23/introducing-mu-language-model-and-how-it-enabled-the-agent-in-windows-settings/
Mu的应用场景
- 系统设置调整:Mu能理解自然语言指令,帮助用户快速调整Windows系统设置,如屏幕亮度、鼠标指针大小等,无需手动查找设置菜单,提升操作便捷性。
- 实时交互:Mu能在设备端快速响应,响应速度超过100 tokens/second,适合实时交互场景。
- 多语言支持:Mu支持多种自然语言,用户用不同语言输入指令,Mu能准确理解执行。
- 辅助功能:Mu帮助视力不佳或操作不便的用户基于语音指令完成系统设置,提升系统的可访问性。
- 未来扩展:Mu具有良好的扩展性,未来能扩展为更通用的智能助手,处理日程管理、文件操作等指令。