小🍠刚开源了文本到语音系统dots.tts 地址:github.com/rednote-hilab/dots.tts
dots.tts 是一个拥有 20 亿参数的全连续端到端自回归 (AR) 文本到语音系统。其主干结构将语义编码器、大型语言模型 (LLM) 与自回归流匹配声学头结合在 48 kHz AudioVAE 之上,整个流程中没有任何离散令牌。
dots.tts 在 Seed-TTS-Eval 上实现了最佳平均性能,在 zh / en / zh-hard 测试集上的词错误率 (WER) 分别为 0.94% / 1.30% / 6.60%,SIM 分数分别为 81.0 / 77.1 / 79.5。它还在 24 语言 MiniMax 多语言基准上获得了最高的平均说话人相似度 (83.9)。在其他基准测试中,dots.tts 也始终展现出开源的最先进性能,表现出强大的生成稳定性、声音克隆能力和情感表达能力。AI创造营
