https://github.com/hexgrad/kokoro
Kokoro is an open-weight TTS model with 82 million parameters. Despite its lightweight architecture, it delivers comparable quality to larger models while being significantly faster and more cost-efficient. With Apache-licensed weights, Kokoro can be deployed anywhere from production environments to personal projects.
支持普通话,合成8个字2.5秒的短句耗时0.7秒。这个模型似乎真的是很快!可以普通话音调不太对,也不提供开源的训练代码。
来自AI的比较:
模型 | 语言支持 | 计算资源需求 | 风格控制 | 开源状态 |
---|---|---|---|---|
Kokoro | 多语言 | 低(CPU 可用) | 灵活 | 开源 |
Tacotron 2 | 单语言为主 | 高(依赖 GPU) | 有限 | 开源 |
VITS | 多语言 | 中高 | 较强 | 开源 |
商业模型(如 Google WaveNet) | 多语言 | 极高(云端服务) | 丰富 | 闭源 |
评论