SoulX-Podcast – Soul推出的多说话人语音合成模型
# AI工具,# AI项目和框架 AI视频

SoulX-Podcast – Soul推出的多说话人语音合成模型

AI中国 AI中国 6 hours ago 62 阅读
4.8 (1280评分)

SoulX-Podcast是什么

SoulX-Podcast 是 Soul AI Lab 推出的多说话人文本到语音(TTS)模型,专为生成长篇播客对话设计。模型参数为1.7B,支持普通话、英语及多种汉语方言(如四川话、河南话、粤语等),具备跨方言提示功能,可通过普通话提示生成目标方言语音。模型支持副语言控制(如笑声、叹气等),增强语音合成的真实感。SoulX-Podcast 能生成超过 90 分钟的连贯对话,保持稳定的音色和情感连续性,适用于播客、有声读物等场景。

SoulX-Podcast

SoulX-Podcast的主要功能

  • 多说话人支持::支持多个说话人之间的对话生成,能自然地切换不同说话人的语音,适用播客、有声读物等场景。
  • 多语言和方言支持::支持普通话、英语以及多种汉语方言(如四川话、河南话、粤语等),具备跨方言提示功能,可通过普通话提示生成目标方言语音。
  • 副语言控制::支持非语言信息(如笑声、叹气、清嗓等),增强语音合成的真实感,使生成的语音更加自然和生动。
  • 长篇对话生成::能生成超过90分钟的连贯对话,保持稳定的音色和情感连续性,适用长篇播客内容的生成。
  • 零样本语音克隆:支持零样本语音克隆,在没有目标说话人语音样本的情况下,能生成高质量的个性化语音。

SoulX-Podcast的技术原理

  • 基础模型架构:基于 Qwen3-1.7B 的架构,一个强大的预训练语言模型,经过微调适应多说话人对话生成任务。
  • 多说话人建模:通过引入说话人嵌入(Speaker Embedding)技术,模型能区分不同说话人的语音特征,在生成过程中自然地切换说话人。
  • 跨方言生成:用方言引导提示(Dialect-Guided Prompting, DGP)方法,模型能根据普通话提示生成目标方言的语音,支持多种方言的零样本生成。
  • 副语言控制:通过在文本输入中加入特定的副语言标记(如 <|laughter|><|sigh|> 等),模型能在生成的语音中加入相应的非语言信息,增强语音的真实感。
  • 长篇生成稳定性:通过优化模型的注意力机制和解码器结构,确保在长篇对话生成中保持稳定的音色和情感连续性,避免音色漂移和情感不连贯的问题。
  • 数据处理和训练:用大规模的多说话人对话数据进行训练,数据处理流程包括语音增强、音频分割、说话人日志、文本转录和质量过滤,确保模型能学习到丰富的对话特征。

SoulX-Podcast的项目地址

  • 项目官网:https://soul-ailab.github.io/soulx-podcast/
  • GitHub仓库:https://github.com/Soul-AILab/SoulX-Podcast
  • HuggingFace模型库:https://huggingface.co/collections/Soul-AILab/soulx-podcast
  • arXiv技术论文:https://arxiv.org/pdf/2510.23541

SoulX-Podcast的应用场景

  • 播客制作:模型能生成超过90分钟的连贯对话,适合制作科技、文化、娱乐等各类播客内容。
  • 有声读物:模型能生成多个角色的对话,使有声读物更加生动有趣,适合小说、故事等长篇内容。
  • 教育内容:生成多角色对话,增强语言学习、历史故事讲解等教育内容的互动性和趣味性。
  • 娱乐和游戏:为游戏、动画和视频制作生成自然的多角色语音,提升内容的沉浸感。
  • 企业培训:生成模拟对话,帮助员工进行沟通技巧和客户服务培训。

评分

4.8 (1280 人评分)

Comment (0)

睡觉动画