上次我分享了《简单有效的将音频转成各式良好对话文本的方案》网页链接 使用 Gemini 1.5 Pro 把音频按照发言人整理成文稿,然后再去 Claude 3.5 Sonnet 对文稿润色、去口癖词。当时就有网友问其他模型是不是也可以,于是今天测试了一下其他模型,用了一个 2 小时的视频,测试下来还是之前的组合最佳,不过 Gemini Experimental 1206 可以作为两者备选。
图一、图二:Gemini Experimental 1206 音频转文本
图三:Gemini 1.5 Pro 音频转文本效果更佳
图四:完整的文稿有四万五千字,将近 3 万 Tokens。
图五、图六:让 Gemini 1.5 Pro 对输出文稿润色,只能输出完整内容的开头和结尾,中间绝大部分直接没了
图七、图八:o1 Pro 它一定会对内容删减摘要,无论提示词怎么要求它,不知道是我提示词没写好还是内容太长了。
图九、图十:Claude 是结果最好的,没有大幅删减,保持原有内容基础上,对内容有润色,格式良好,但问题是每一次只输入一页不到的内容,需要不停的输入“继续”,让它一次输出 5-10 页,能稍微多一点
图一、图二:Gemini Experimental 1206 音频转文本
图三:Gemini 1.5 Pro 音频转文本效果更佳
图四:完整的文稿有四万五千字,将近 3 万 Tokens。
图五、图六:让 Gemini 1.5 Pro 对输出文稿润色,只能输出完整内容的开头和结尾,中间绝大部分直接没了
图七、图八:o1 Pro 它一定会对内容删减摘要,无论提示词怎么要求它,不知道是我提示词没写好还是内容太长了。
图九、图十:Claude 是结果最好的,没有大幅删减,保持原有内容基础上,对内容有润色,格式良好,但问题是每一次只输入一页不到的内容,需要不停的输入“继续”,让它一次输出 5-10 页,能稍微多一点