URO-Bench:端到端语音对话模型评测黑马!多语言/多轮/副语言全维度一键开测
图文教程

URO-Bench:端到端语音对话模型评测黑马!多语言/多轮/副语言全维度一键开测

AI中国 AI中国 4 months ago 203 阅读
4.8 (1280 Rating)
15,328 People learned

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 🥦


🎙️ "语音模型还在跑单任务?这个评测神器让AI对话听懂情绪、玩转多语言!"

大家好,我是蚝油菜花。你是否正在为这些问题头疼——

  • 👉 自研语音模型在中文场景表现优秀,但一遇多语言对话就「智商掉线」
  • 👉 测试多轮对话时,模型总是忘记三句话前的关键信息
  • 👉 想评估语音情感理解能力,却找不到权威评测标准...

今天要揭秘的 URO-Bench ,正在重新定义语音对话模型评测!这个由顶尖实验室打造的开源基准平台,覆盖16+基础任务与20+高阶挑战,从多语言问答到语音情感生成,从代码切换对话到道德推理,用「全维度压力测试」暴露出模型真实能力边界。已有团队用它3天定位出模型在多轮对话中的记忆缺陷——你的语音助手准备好迎接终极考验了吗?

🚀 快速阅读

URO-Bench 是一款专为端到端语音对话模型设计的基准测试工具。

  1. 核心功能:涵盖多语言、多轮对话、副语言信息等多维度任务,支持基础赛道和高级赛道。
  2. 技术原理:基于先进的语音合成(TTS)、语音识别(ASR)和情感识别技术,全面评估模型性能。

URO-Bench 是什么

URO-Bench 是一款面向端到端语音对话模型(SDMs)的全面基准测试工具。它涵盖了多语言、多轮对话、副语言信息等多维度任务,旨在全面评估语音对话模型的性能。基准测试分为基础赛道和高级赛道,基础赛道包含16个数据集,涉及开放性问答、事实问答等任务;高级赛道则包含20个数据集,涵盖代码切换问答、语音情感生成、多语言问答等更复杂的任务。

URO-Bench 的设计目标是帮助开发者全面了解模型在不同任务中的表现,从而优化模型性能。通过提供多指标评估和参考模型,URO-Bench 为语音对话模型的研究和开发提供了强有力的支持。

URO-Bench 的主要功能

  • 多语言支持:涵盖多种语言,包括英语和中文,支持跨语言对话任务。
  • 多轮对话评估:包含多轮对话任务,评估模型在连续对话中的表现能力。
  • 副语言信息评估:涉及语音情感理解、语音风格生成等副语言信息相关任务,更贴近真实语音交互场景。
  • 基础赛道(Basic Track):包含16个数据集,涵盖开放性问答、道德总结、事实问答、数学应用题等多种任务类型。
  • 高级赛道(Pro Track):包含20个数据集,涉及代码切换问答、语音情感生成、多语言问答、音频理解等更高级的任务。
  • 四步评估流程:用户只需通过修改推理代码、配置脚本、运行自动评估管道等简单步骤,可快速获得模型在所有测试集上的结果。
  • 多指标评估:通过多种指标(如 UTMOS、ASR-WER、情感理解准确率等)全面评估模型在语音理解、推理和口语对话方面的能力。
  • 通用性:支持多种端到端语音对话模型,用户可以将自己的模型接入 URO-Bench 进行评估。
  • 参考模型:提供了一些预训练模型(如 Whisper + GPT-4o、GLM-4-Voice 等)的评估结果作为参考。

URO-Bench 的技术原理

  • 语音合成(TTS):使用先进的TTS系统(如F5-TTS、CosyVoice)将文本数据转换为语音数据。
  • 语音识别(ASR):使用Whisper-large-v3等ASR系统将语音数据转录为文本,用于评估。
  • 情感识别:使用emotion2vec等模型评估语音中的情感信息。
  • 多语言处理:支持多种语言的输入和输出,评估模型的跨语言能力。

如何运行 URO-Bench

1. 环境准备

# 获取环境
git clone https://github.com/Ruiqi-Yan/URO-Bench
cd URO-Bench
conda create -n uro python=3.11
conda activate uro
pip install -r requirements.txt

# 获取数据
cd ..
export HF_ENDPOINT=https://hf-mirror.com    # 如果网络有问题
huggingface-cli download --repo-type dataset --resume-download Honggao/URO-Bench URO-Bench-data.zip --local-dir ./ --local-dir-use-symlinks False
unzip URO-Bench-data.zip

# 下载 whisper-large-v3(可选)
# 如果网络没问题可以忽略
modelscope download --model AI-ModelScope/whisper-large-v3 --local_dir ./whisper-large-v3

2. 修改推理代码

你可以基于 examples/example-test/inference_for_eval.py(单轮)和 examples/example-test/inference_multi.py(多轮)修改代码。只需将你的SDM推理代码封装在 load_sdmrespond 函数中,并确保输出文件符合要求格式。

3. 修改脚本

根据指南填写 scripts/config.sh
根据你的推理代码完成 scripts/example.sh 的推理部分。请修改 line 20line 88

4. 运行自动评估管道

运行 example.sh 并获取结果。
你需要将 config.sh 的路径作为参数传递给 bash 脚本。

# bash scripts/example.sh /data/ruiqi.yan/URO-Bench/scripts/config.sh
bash scripts/example.sh scripts/config.sh

资源

  • GitHub 仓库:https://github.com/Ruiqi-Yan/URO-Bench
  • HuggingFace 仓库:https://huggingface.co/datasets/Honggao/URO-Bench

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 🥦

Rating

4.8 (1280 Rating)

Comment (11)

User avatar

厉害了!语音模型终于有这么一个好评测工具!

User avatar

我开始怀疑人类的价值了!

User avatar

这可真是个奇迹,太不可思议!

User avatar

这玩意儿,我感觉它在跟我说话!

User avatar

它太懂我,我简直要爱上它!

User avatar

我开始相信AI真的会统治世界!

User avatar

这东西太酷了,感觉自己是第一个发现它的!

User avatar

我怀疑它在窃取我的思想!

User avatar

感觉自己穿越到了未来!

User avatar

简直是拯救了我的耐心!

睡觉动画