最近释出的文本语音模型 Kokoro v0.19 只使用 8200 万个参数,但其 TTS Spaces Arena 排名高居第一,高质量的 AI 语音朗读可能意味着未来真人朗读的有声书将愈来愈稀少。Kokoro 模型权重使用 Apache 许可发布,支持美式英语、英式英语、法语、韩语、日语和中文普通话。开发者 Claudio Santini 在 Kokoro v0.19 基础上开发了一个 Python 3 应用 Audiblez,可用于在本地将电子书转变成有声书。测试显示,在苹果笔电 M2 MacBook Pro 上,将有 10 万单词的道金斯(Richard Dawkins)《自私基因》转变成有声书共花费了 2 小时时间。
https://claudio.uk/posts/epub-to-audiobook.html
https://huggingface.co/hexgrad/Kokoro-82M
https://github.com/santinic/audiblez
NVIDIA GTC 2025 早鸟票折扣福利,免费加入NVIDIA初创加速计划即可享受
NVIDIA初创加速计划是NVIDIA为全球创业公司打造的加速平台,旨在为创新企业提供全方位的支持。在中国,已有超过千家创业公司加入,并获得融资机会、客户对接、路演展示、技术支持、市场推广,以及NVIDIA软硬件产品折扣等独家资源支持。现在免费申请加入,还有机会获得 GTC25 早鸟票折扣,点击链接或者扫描即可免费申请加入。
免费申请通道:https://jinshuju.net/f/SsRLbl?x_field_1=solidot
您的赞赏是对我们的鼓励,We’ll be more solid with your donations.