回复@ET维维:Gemini 语音转文本还不支持时间轴//@ET-20250118101157_宝玉xp的专栏文章_微信文章

回复@ET维维:Gemini 语音转文本还不支持时间轴//@ET-20250118101157

宝玉xp · 微博 · AI · 2025-01-18 10:11

正文

2025-01-18 10:11
本条微博链接

回复@ET维维:Gemini 语音转文本还不支持时间轴//@ET维维:老师，这个方案是不是只能生成纯文稿，没有时间轴

上次我分享了《简单有效的将音频转成各式良好对话文本的方案》

网页链接使用 Gemini 1.5 Pro 把音频按照发言人整理成文稿，然后再去 Claude 3.5 Sonnet 对文稿润色、去口癖词。当时就有网友问其他模型是不是也可以，于是今天测试了一下其他模型，用了一个 2 小时的视频，测试下来还是之前的组合最佳，不过 Gemini Experimental 1206 可以作为两者备选。

图一、图二：Gemini Experimental 1206 音频转文本
图三：Gemini 1.5 Pro 音频转文本效果更佳
图四：完整的文稿有四万五千字，将近 3 万 Tokens。
图五、图六：让 Gemini 1.5 Pro 对输出文稿润色，只能输出完整内容的开头和结尾，中间绝大部分直接没了
图七、图八：o1 Pro 它一定会对内容删减摘要，无论提示词怎么要求它，不知道是我提示词没写好还是内容太长了。
图九、图十：Claude 是结果最好的，没有大幅删减，保持原有内容基础上，对内容有润色，格式良好，但问题是每一次只输入一页不到的内容，需要不停的输入“继续”，让它一次输出 5-10 页，能稍微多一点