TIGER:清华突破性模型让AI「听觉」进化:参数量暴降94%,菜市场都能分离清晰人声

TIGER:清华突破性模型让AI「听觉」进化:参数量暴降94%,菜市场都能分离清晰人声

4.8
0热度

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!🥦 微信公众号|搜一搜:蚝油菜花 🥦🔊 「你的降噪耳机过时了!清华突破性模型让AI「听觉」进化:参数量暴降94%,菜市场都能分离清晰人声」大家好,我是蚝油菜花。当你在这些场景崩溃时——🚇 地铁电话会议:同事发言总被报站声「

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


🔊 「你的降噪耳机过时了!清华突破性模型让AI「听觉」进化:参数量暴降94%,菜市场都能分离清晰人声」

大家好,我是蚝油菜花。当你在这些场景崩溃时——

  • 🚇 地铁电话会议:同事发言总被报站声「截胡」
  • 🏠 智能家居失控:扫地机器人听不清指令乱撞
  • 🎧 降噪耳机失效:飞机轰鸣中听不清播客关键信息...

清华大学用 TIGER模型 重新定义语音分离!这个革命性框架通过时频交叉建模与多尺度注意力机制,在参数量仅有传统模型5%的情况下,实现复杂场景下的精准人声提取。更惊人的是,它已通过EchoSet数据集验证——接下来我们将深度解析这个「听觉增强」黑科技如何改变人机交互!

🚀 快速阅读

TIGER 是清华大学研究团队提出的一种轻量级语音分离模型。

  1. 核心功能:通过时频交叉建模模块(FFI)和多尺度注意力机制,实现高效语音分离。
  2. 技术原理:利用频带切分和全频/帧注意力模块(F³A),优化特征提取,降低计算量和参数量。

TIGER 是什么

TIGER

TIGER(Time-frequency Interleaved Gain Extraction and Reconstruction Network)是清华大学研究团队提出的一种轻量级语音分离模型。该模型通过创新的时频交叉建模策略,结合频带切分和多尺度注意力机制,显著提升了语音分离的效果,同时大幅降低了参数量和计算量。

TIGER 的核心在于时频交叉建模模块(FFI),能够高效整合时间和频率信息,更好地提取语音特征。此外,模型引入了多尺度选择性注意力模块(MSA)和全频/帧注意力模块(F³A),进一步优化了特征提取能力,使得 TIGER 在复杂声学环境中表现出色。

TIGER 的主要功能

  • 高效语音分离:TIGER 通过创新的时频交叉建模模块(FFI)和多尺度注意力机制,能够高效地分离混合语音中的不同说话者。
  • 低计算量与低参数量:模型在压缩94.3%的参数量和95.3%的计算量后,性能仍与当前最先进的模型相当。
  • 复杂声学环境适应:TIGER 通过 EchoSet 数据集模拟真实场景中的噪声和混响,提升了模型在复杂环境下的鲁棒性。

TIGER 的技术原理

TIGER

  • 时频交叉建模策略:TIGER 的核心在于时频交叉建模模块(FFI),通过交替处理时间和频率信息,有效整合时频特征。模块包含频率路径和帧路径,每个路径都包含多尺度选择性注意力模块(MSA)和全频/帧注意力模块(F³A),能融合局部和全局信息,提升语音分离效果。
  • 频带切分:语音信号的能量在不同频带上分布不均,中低频带包含更多语音信息,高频带包含更多噪声和细节。TIGER 通过频带切分策略,将频带划分为不同宽度的子带,减少计算量的同时,让模型专注于关键频带。
  • 多尺度注意力机制:TIGER 引入了多尺度选择性注意力模块(MSA),通过多尺度卷积层和选择性注意力机制,融合局部和全局信息,增强模型对多尺度特征的提取能力。

如何运行 TIGER

1. 安装依赖

git clone https://github.com/JusperLee/TIGER.git
cd TIGER
pip install -r requirements.txt

2. 使用预训练模型进行测试

# 测试语音分离
python inference_speech.py --audio_path test/mix.wav

# 测试电影音频分离
python inference_dnr.py --audio_path test/test_mixture_466.wav

3. 使用 EchoSet 数据集进行训练

python audio_train.py --conf_dir configs/tiger.yml

4. 使用 EchoSet 数据集进行评估

python audio_test.py --conf_dir configs/tiger.yml

资源

  • 项目主页:https://cslikai.cn/TIGER/
  • GitHub 仓库:https://github.com/JusperLee/TIGER

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

首页 发现
看过 我的