SoulX-Podcast – Soul推出的多说话人语音合成模型

SoulX-Podcast是什么

SoulX-Podcast 是 Soul AI Lab 推出的多说话人文本到语音（TTS）模型，专为生成长篇播客对话设计。模型参数为1.7B，支持普通话、英语及多种汉语方言（如四川话、河南话、粤语等），具备跨方言提示功能，可通过普通话提示生成目标方言语音。模型支持副语言控制（如笑声、叹气等），增强语音合成的真实感。SoulX-Podcast 能生成超过 90 分钟的连贯对话，保持稳定的音色和情感连续性，适用于播客、有声读物等场景。

SoulX-Podcast的主要功能

多说话人支持：：支持多个说话人之间的对话生成，能自然地切换不同说话人的语音，适用播客、有声读物等场景。
多语言和方言支持：：支持普通话、英语以及多种汉语方言（如四川话、河南话、粤语等），具备跨方言提示功能，可通过普通话提示生成目标方言语音。
副语言控制：：支持非语言信息（如笑声、叹气、清嗓等），增强语音合成的真实感，使生成的语音更加自然和生动。
长篇对话生成：：能生成超过90分钟的连贯对话，保持稳定的音色和情感连续性，适用长篇播客内容的生成。
零样本语音克隆：支持零样本语音克隆，在没有目标说话人语音样本的情况下，能生成高质量的个性化语音。

SoulX-Podcast的技术原理

基础模型架构：基于 Qwen3-1.7B 的架构，一个强大的预训练语言模型，经过微调适应多说话人对话生成任务。
多说话人建模：通过引入说话人嵌入（Speaker Embedding）技术，模型能区分不同说话人的语音特征，在生成过程中自然地切换说话人。
跨方言生成：用方言引导提示（Dialect-Guided Prompting, DGP）方法，模型能根据普通话提示生成目标方言的语音，支持多种方言的零样本生成。
副语言控制：通过在文本输入中加入特定的副语言标记（如 <|laughter|>、<|sigh|> 等），模型能在生成的语音中加入相应的非语言信息，增强语音的真实感。
长篇生成稳定性：通过优化模型的注意力机制和解码器结构，确保在长篇对话生成中保持稳定的音色和情感连续性，避免音色漂移和情感不连贯的问题。
数据处理和训练：用大规模的多说话人对话数据进行训练，数据处理流程包括语音增强、音频分割、说话人日志、文本转录和质量过滤，确保模型能学习到丰富的对话特征。

SoulX-Podcast的项目地址

项目官网：https://soul-ailab.github.io/soulx-podcast/
GitHub仓库：https://github.com/Soul-AILab/SoulX-Podcast
HuggingFace模型库：https://huggingface.co/collections/Soul-AILab/soulx-podcast
arXiv技术论文：https://arxiv.org/pdf/2510.23541

SoulX-Podcast的应用场景

播客制作：模型能生成超过90分钟的连贯对话，适合制作科技、文化、娱乐等各类播客内容。
有声读物：模型能生成多个角色的对话，使有声读物更加生动有趣，适合小说、故事等长篇内容。
教育内容：生成多角色对话，增强语言学习、历史故事讲解等教育内容的互动性和趣味性。
娱乐和游戏：为游戏、动画和视频制作生成自然的多角色语音，提升内容的沉浸感。
企业培训：生成模拟对话，帮助员工进行沟通技巧和客户服务培训。

登录账号

SoulX-Podcast – Soul推出的多说话人语音合成模型

SoulX-Podcast是什么

SoulX-Podcast的主要功能

SoulX-Podcast的技术原理

SoulX-Podcast的项目地址

SoulX-Podcast的应用场景

评分

Comment (0)

Recommended Articles

速抢（2核2G）77元/年香港免备案服务器

酷宣AI

Hailuo 2.3 – MiniMax推出的AI视频生成模型

Glyph – 智谱联合清华开源的视觉文本压缩框架

GigaBrain-0 – 开源VLA具身模型，基于世界模型生成的数据

SoulX-Podcast – Soul推出的多说话人语音合成模型

FlowithOS – Flowith推出的全球首个智能体操作系统

Speech 2.6 – MiniMax推出的语音生成模型

Popular Tags

Popular Authors

AI中国

钛媒体APP

IT之家

人人都是产品经理

AIbase基地

登录账号

SoulX-Podcast – Soul推出的多说话人语音合成模型

SoulX-Podcast是什么

SoulX-Podcast的主要功能

SoulX-Podcast的技术原理

SoulX-Podcast的项目地址

SoulX-Podcast的应用场景

评分

Comment (0)

Recommended Articles

速抢（2核2G）77元/年香港免备案服务器

酷宣AI

Hailuo 2.3 – MiniMax推出的AI视频生成模型

Glyph – 智谱联合清华开源的视觉文本压缩框架

GigaBrain-0 – 开源VLA具身模型，基于世界模型生成的数据

SoulX-Podcast – Soul推出的多说话人语音合成模型

FlowithOS – Flowith推出的全球首个智能体操作系统

Speech 2.6 – MiniMax推出的语音生成模型

Popular Tags

Popular Authors

AI中国

钛媒体APP

IT之家

人人都是产品经理

AIbase基地

为您推荐