Mu – 微软推出的小参数语言模型

Mu是什么

Mu是微软推出的小参数语言模型，仅3.3亿参数，支持在 NPU 和边缘设备上高效运行。模型基于编码器解码器架构，基于硬件感知优化、模型量化及特定任务微调，实现每秒超100 tokens的响应速度。Mu支持Windows设置智能体，能将自然语言指令实时转化为系统操作，如调整屏幕亮度、鼠标指针大小等。与-Phi3.5-mini相比，Mu参数量小10倍，但性能相当。其创新包括双重层归一化、旋转位置嵌入和分组查询注意力等技术，提升训练稳定性和推理效率。

Mu的主要功能

系统设置调整：用户基于自然语言指令调整系统设置，如“把鼠标指针调大一些”或“调整屏幕亮度”。
低延迟响应：Mu能在设备端快速响应，响应速度超过100 tokens/second，确保用户体验流畅。
集成到Windows设置：Mu被集成到Windows设置的搜索框中，用户直接在搜索框中输入自然语言指令，系统自动识别并执行相关操作。
支持多种设置：Mu能处理数百项系统设置，覆盖用户日常使用中的各种需求。

Mu的技术原理

编码器解码器架构：Mu基于编码器-解码器架构，编码器将输入文本转换为固定长度的潜在表示，解码器基于表示生成输出。
硬件感知优化：Mu针对NPU进行优化，包括调整模型架构和参数形状适应硬件的并行性和内存限制，确保模型在NPU上高效运行。
模型量化：基于后训练量化（PTQ），将模型权重和激活从浮点数转换为整数表示，主要使用8位和16位整数，显著减少模型的内存占用和计算需求，保持模型的准确性。
创新的Transformer升级：
- 双重层归一化（Dual LayerNorm）：在每个子层前后分别进行LayerNorm操作，确保激活值分布良好，稳定训练过程。
- 旋转位置嵌入（Rotary Positional Embeddings, RoPE）：基于复数域的旋转操作，动态生成位置编码，支持长序列的外推能力，避免传统绝对位置编码的局限性。
- 分组查询注意力（Grouped-Query Attention, GQA）：基于在头组之间共享键和值，减少注意力参数数量和内存占用，保持头的多样性，提升模型效率。
训练技术：用A100 GPU进行预训练，从Phi模型进行知识蒸馏，基于低秩适配（LoRA）方法进行特定任务的微调，进一步提升模型性能。