TTS

By admin , 21 五月, 2025

https://github.com/hexgrad/kokoro

Kokoro is an open-weight TTS model with 82 million parameters. Despite its lightweight architecture, it delivers comparable quality to larger models while being significantly faster and more cost-efficient. With Apache-licensed weights, Kokoro can be deployed anywhere from production environments to personal projects.

支持普通话,合成8个字2.5秒的短句耗时0.7秒。这个模型似乎真的是很快!

来自AI的比较:

标签

By admin , 20 五月, 2025

梅尔频谱参数

  • num_mels: 80
    梅尔滤波器组的数量,决定了梅尔频谱的维度。80 是 Tacotron2 的标准配置。
  • mel_fmin: 50.0, mel_fmax: 7600.0
    梅尔频谱的最低和最高频率(Hz)。对于粤语,这些值覆盖了大部分语音的频率范围(粤语的声调变化可能需要较高的上限)。

标签

By admin , 20 五月, 2025
trim_db: 60 裁剪静音的阈值(dB),低于此阈值的音频会被视为静音。

标签

By admin , 20 五月, 2025

2025-5-20

接着这个页面的开发:https://cto.eguidedog.net/node/1391

测试checkpoint 150K生成音频失败,可能是应该从头训练,先把训练停了,把所有参数细节研究一下再重新开始。

检查参数发现sample_rate错了,应该从22050改为16000。

根据AI建议,把mel_fmax从7600改为8500,以适应粤语的声调变化。

根据AI建议,把norm_schedule改为了true,自适应学习率调度,初始阶段升温,之后衰减。

有一些问题待调研:

标签

By admin , 14 十月, 2024

Coqui TTS

🐸(青蛙)TTS

https://github.com/coqui-ai/TTS

https://coqui.ai/

 

For the first time, tts need to download  a data model. If the download fails, it will fail for the second time. We need to remove empty data model folder from path below to make it do a retry download:

/home/hgneng/.local/share/tts/

标签

By admin , 11 十月, 2024

 

希尔贝壳中文普通话语音数据库AISHELL-3的语音时长为85小时88035句,可做为多说话人合成系统。录制过程在安静室内环境中, 使用高保真麦克风(44.1kHz,16bit)。218名来自中国不同口音区域的发言人参与录制。专业语音校对人员进行拼音和韵律标注,并通过严格质量检验,此数据库音字确率在98%以上。

https://www.aishelltech.com/aishell_3

标签

By admin , 11 十月, 2024

Common Voice Dataset

We’re building an open source, multi-language dataset of voices that anyone can use to train speech-enabled applications.

Includes both Cantonese and Mandarin Chinese!!

抽样粤语(Chinese Hong Kong)语音数据的质量不好,录音人声音不够清晰(不是声优级别的声音),背景噪音较大,标记文件有错。另外还有个Cantonese的分类。

感觉可能用现有的TTS生成数据质量会好得多。

标签

最新评论