AI热点 5小时前 82 浏览次数 0 评论

偶然刷到的一个逆天ElevenLabs开源平替!

AI中国
AI中国

发布了 9813 文章

订阅了 ElevenLabs 的小伙伴看过来,它的开源平替来了!




先来看看效果对比。



Chatterbox 是全球首个支持强烈情绪控制的开源TTS 模型,更是号称开源 TTS 中的 SOTA ,由 Resemble AI 推出。



它在语音自然度和整体质量的盲测中甚至胜过 ElevenLabs 。



目前在 GitHub 上已经斩获了 11.2k 星标。



在外网上也是一片叫好。





不少网友也是直接从 ElevenLabs 转投它。



不过,它真的能完全替代 ElevenLabs 吗?


一起来看看~


项目指路:


https://github.com/resemble-ai/chatterbox


一、Chatterbox


功能介绍


Chatterbox 基于 0.5B LLaMA 模型架构构建,在 50万+ 小时的干净数据上进行训练。


它支持情感强度控制,仅需 5 秒音频即可实现零样本语音克隆。后面会放上丰富实例以供参考~


它拥有低于 200 毫秒的超低延迟,非常适合代理、应用程序或交互式媒体的生产使用。


生成的每个音频文件都内置 PerTh 水印,可以承受 MP3 压缩、音频编辑和常见操作,同时保持接近 100% 的检测准确率。


不过值得一提的是 Chatterbox 目前仅支持英语。


说了这么多,我们来看些实例。



语音克隆


样本语音:




输出音频:



效果是不是还不错?音色还原的很到位。


换成一个略带沙哑英国口音女声。


样本语音:



文本:Every day I carry her name like a shield, and every night I wonder what I"m defending. Shar doesn"t ask for love, only obedience, but sometimes I dream of light, and when I wake, I feel guilty for missing it.


输出音频:



再来一个电话客服感觉的。


样本语音:



就这样一段时长只有 3 秒的样本,我们就能得到非常精准且自然的音色克隆:


文本:Okay let"s confirm your details first so we"re on the same page. So the order number is 1 4 7, 5 5 2, 1 6 9 7. I"ll repeat 1 4 7, 5 5 2, 1 6 9 7. Is that correct?


效果非常不错,一起听听吧~



情绪强度控制


Chatterbox 允许用户通过对 exaggeration 参数进行设置来调节情绪的强度。


对于下面这段情绪强烈的文本:


Everybody be cool. This is a robbery. Any of you fxxking pricks move and I"ll execute every motherfxxking last one of you.


exaggeration 设置为 0.5 的时候:



把 exaggeration 设置为 1 :



情绪明显激动了不少,语速也跟着略微加快了。


除了对 exaggeration 参数进行设置,你也可以通过全大写来加强语气。


文本:So I want you to get up now. I want all of you to get up out of your chairs. I want you to go to the window, open it, and stick your head out and yell "I"M MAD AS HELL, AND I"M NOT GOING TO TAKE THIS ANYMORE!"



语气在加强的同时语音也保持的非常自然。


快速上手


Chatterbox 的安装和使用都非常便捷。


安装


pip install chatterbox-tts

也可以从源代码安装:
# conda create -yn chatterbox python=3.11
# conda activate chatterbox

git clone https://github.com/resemble-ai/chatterbox.git
cd chatterbox
pip install -e .









团队是在 Debain 11 操作系统上使用 Python 3.11 开发并测试了 Chatterbox ;依赖项的版本已在 pyproject.toml 中固定,以确保一致性。可以在此安装模式下修改代码或依赖项。


用法


import torchaudio as ta
from chatterbox.tts import ChatterboxTTS

model = ChatterboxTTS.from_pretrained(device="cuda")

text = "Ezreal and Jinx teamed up with Ahri, Yasuo, and Teemo to take down the enemy"s Nexus in an epic late-game pentakill."
wav = model.generate(text)
ta.save("test-1.wav", wav, model.sr)


# If you want to synthesize with a different voice, specify the audio prompt
AUDIO_PROMPT_PATH = "YOUR_FILE.wav"
wav = model.generate(text, audio_prompt_path=AUDIO_PROMPT_PATH)
ta.save("test-2.wav", wav, model.sr)














有关更多示例,请参阅 example_tts.pyexample_vc.py


使用技巧


  • 一般用途的 TTS:


默认设置( exaggeration=0.5cfg_weight=0.5 )适用于大多数提示。


如果参考说话者的说话风格很快,将 cfg_weight 降低到 0.3 左右可以改善节奏。


  • 需要富有表现力或戏剧性的 TTS :


尝试降低 cfg_weight 值(例如 ~0.3 )并将 exaggeration 增加到 0.7 左右或更高。


exaggeration 越高,语速就越快;而降低 cfg_weight 则有助于以更慢、更慎重的节奏进行补偿。


整体体验下来,效果确实符合它声称的开源 TTS 中的 SOTA ,有需要的小伙伴可以上手试试。


二、abogen


除了 Chatterbox ,我们还在 GitHub 上淘到另一个强大的 TTS 工具: abogen ,目前已经收获了 3.3k 星标。



它可以轻松将 ePub 、PDF 或文本等格式文件在秒级时间内转换为带有匹配字幕的高质量音频。




无论是有声读物、Instagram 、YouTube 、TikTok 的配音,或任何需要自然语音的 TTS 项目,你都可以用它来做。


比如下面这段介绍 abogen 的带字幕的演示:



生成速度非常快,上面这段演示仅用 5 秒就生成了约 1 分钟的音频,并配有完美同步的字幕。


此外,它还支持通过混合不同的语音模型,调整每个语音的权重,来创建自定义语音,并保存为配置文件以备将来使用。



使用指南


安装


Windows


前往以下链接下载并运行 *.msi 文件。


https://github.com/espeak-ng/espeak-ng/releases/tag/1.52.0


选项 1:使用脚本安装


  • 下载存储库
  • 解压 ZIP 文件
  • 双击运行 WINDOWS_INSTALL.bat


此方法可自动处理所有操作:在独立环境中安装包括 CUDA 在内的所有依赖项,无需单独安装 Python。


选项 2:使用 pip 安装


# Create a virtual environment (optional)
mkdir abogen && cd abogen
python -m venv venv
venv\Scripts\activate

# For NVIDIA GPUs:
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu128

# For AMD GPUs:
# Not supported yet, because ROCm is not available on Windows. Use Linux if you have AMD GPU.

# Install abogen
pip install abogen













Mac


# Install espeak-ng
brew install espeak-ng

# Create a virtual environment (recommended)
mkdir abogen && cd abogen
python3 -m venv venv
source venv/bin/activate

# Install abogen
pip3 install abogen

# For Silicon Mac (M1, M2 etc.)
# After installing abogen, we need to install Kokoro"s development version which includes MPS support.
pip3 install git+https://github.com/hexgrad/kokoro.git














Linux


# Install espeak-ng
sudo apt install espeak-ng # Ubuntu/Debian
sudo pacman -S espeak-ng # Arch Linux
sudo dnf install espeak-ng # Fedora

# Create a virtual environment (recommended)
mkdir abogen && cd abogen
python3 -m venv venv
source venv/bin/activate

# Install abogen
pip3 install abogen

# For NVIDIA GPUs:
# Already supported, no need to install CUDA separately.

# For AMD GPUs:
# After installing abogen, we need to uninstall the existing torch package
pip3 uninstall torch
pip3 install --pre torch torchvision torchaudio --index-url https://download.pytorch.org/whl/nightly/rocm6.4




















使用


如果您使用 pip 安装,则只需运行以下命令即可启动 Abogen :


abogen


  • 拖放任何 ePub、PDF 或文本文件(或使用内置文本编辑器)
  • 配置设置: 设置语速、 选择一种声音(或使用语音混音器创建自定义声音)、 选择字幕生成样式(按句子、按单词等)、 选择输出格式、 选择保存输出的位置、
  • 点击“开始”



更多详细信息,请参考:


https://github.com/denizsafak/abogen


三、最后一句


现在市面上 TTS 工具多得让人眼花缭乱,但是开源又好用的却不多,有需要的小伙伴抓紧试试吧~


文章来自于“JackCui”,作者“Tashi & JackCui”。

AI中国

AI中国

9813 文章 1656177 浏览次数 950300 粉丝

评论 (0)

睡觉动画