专栏名称: AI科技大本营

为AI领域从业者提供人工智能领域热点报道和海量重磅访谈；面向技术人员，提供AI技术领域前沿研究进展和技术成长路线；面向垂直企业，实现行业应用与技术创新的对接。全方位触及人工智能时代，连接AI技术的创造者和使用者。

AI 挑战周杰伦？Suno 全新功能面世，即兴哼几句就能创作成歌，还能模仿声音！

AI科技大本营 · 公众号 · · 2024-06-04 16:51

正文

作者 | 王启隆

出品丨AI 科技大本营（ID：rgznai100）

2016 年，周杰伦根据女儿 Hathaway 在玩具钢琴上随意弹出的几个音符，激发出创作的灵感，谱写了一首温馨而深情的歌曲——《前世情人》。 8 年过去，音乐创作逐步进入了 AI 时代，先前爆火出圈的音乐创作 AI 平台「 Suno 」在近日预热，未来将发布一项新功能： Sound-to-Song。 意思是： 用任何声音创作新歌曲 （make a new song from any sound）。

即使你不像周杰伦一样拥有“绝对音感”，也不懂什么乐理与和弦，只需要哼唱一小段，Suno AI 就可以在你哼唱的基础上创作出完整的歌曲。下面便是 Suno 日前发布的第一波预热演示视频：《 用喷壶演奏“迷幻摇滚” 》。

某种意义上，这和 ChatGPT 推出的“语音输入”交互方式有异曲同工之妙，声音识别和语音识别如今已是各大 AI 产品的必备技术，比如说，我们基本可以在国产 AI App 使用聊天框旁边的说话功能：

但在音乐的世界，我们不需要像制作人一样苦口婆心地用对话的交互方式来教导 AI 怎么作曲，而是采用更简单的交互：直接唱出来。

这种创新的作曲方式将使用户能够把“ 声音采样 ”与“ 文字提示 ”结合起来，创作出独一无二的音乐作品。以前使用 Suno 作曲，可能还需要构思一下怎么写 Prompt 才能让 AI 明白你脑内的灵感；但现在，任何日常的声音，如 Suno 官方演示中喷壶敲击金属管的声音，都能转换成迷人的迷幻摇滚乐曲。

除了“喷壶摇滚”以外，Suno 还派出自家的工程师 Anessa 亲自演奏钢琴，并让 Suno AI 转化为完整的一首歌：

Suno 不仅将 Anessa 弹的这段钢琴准确无误地变成了手风琴演奏，还进行了“续写”。这意味着 Suno 在捕捉旋律的同时， 它或许还能解析出潜在的和声结构，识别出和弦进行，并基于这些和声关系生成新的和声进展 。

在下面这段由 Suno 产品经理 Rebecca 进行的官方演示中，我们可以看到类似的情况：

发现问题了吗？没错， Suno 现在不止能识别和弦，还能识别演唱者的音色 ！

如今，AI 克隆声音已经不再是什么新鲜事，我们经常可以在各大视频网站看到有人利用各种游戏动漫中的人物声音训练 AI 翻唱歌曲，但 Suno 所做的不仅是分析演唱者的独特音色特征以及演唱习惯， 它还能使用合成的个性化音色，将新创作的旋律以接近原演唱者的声音表现出来，从而实现不仅旋律上的延续，还有音色上的连贯性和一致性 。

这一技术的推出，预示着音乐创作的门槛将进一步降低，每个人都可以成为自己生活的“周杰伦”。接下来，让我们进一步解析 Suno 的这次重磅更新，看看还有哪些遗漏的发布内容。

歌曲长度延长至 4 分钟！

此前，Suno 团队官宣表示 v4 版本还在“酝酿”当中，与此同时推出 v3.5 的抢先体验版本，供专业版和高级版会员使用。如今，免费用户也可以正式使用该功能，以下便是我作为免费账户点开模型列表时可选的选项：

Suno v3.5 最显著的改进之一是 歌曲长度和结构的扩展 。用户现在可以生成长达 4 分钟的音频片段，比以前的版本有了很大的提升。许多流行歌曲的时长设计在 3 到 5 分钟之间，而 4 分钟则是这个区间内的一个典型时长，这意味着我们现在可以用 Suno 创作更复杂、更多样化的作品，无需将多个剪辑拼接在一起。此外，现有的已创作歌曲还可以最多延长 2 分钟。

此外，Suno 现在拥有 更连贯的旋律、和声和节奏 ，也就是说除了长度，在质量方面也提升了不少。Suno v3.5 改进了算法，可产生更连贯的旋律、和声和节奏。

作为测试，我让 Suno 尝试创作了一些电子游戏里经典的“ Boss 战音乐 ”，但是要配上古典管弦乐作为点缀：

虽然我听不出作曲质量的提升究竟有多大，但可以直观感受到 4 分钟的长度大幅提升了一首歌的完整度，无论是 1 分钟和 2 分钟左右的变奏或是 3 分半的收尾都很精彩 —— 问题出在 3 分半之后， 为了凑够 4 分钟的长度，Suno 强行再弹了半分钟钢琴，“画蛇添足”，显得十分突兀 。

这种情况经常出现在大语言模型创作文章的时候：如果我们让 ChatGPT 写一段刚好 50 字的短讯，一字不多一字不少，那它就会为了凑字数或删字数创作出一些非常拗口的句子。这可能是因为大模型的训练目标在于最大化 训练目标在于最大化预测下一个词（predict next-word ）的概率，确保生成文本的统计学合理性，而非始终保证文本的自然流畅或最优创意表达。

纯音乐效果还算不错，那既然文章开头提到了周杰伦的《前世情人》，我们就让 Suno v3.5 也来挑战一下周董。

打开定制模式，输入《前世情人》的歌词，曲风选择这首歌“巴洛克式的华丽古典风格，加上电子迷幻嘻哈”的元素，使用最新的 v3.5 版本，成果如下：

效果不尽人意。v3.5 抢先体验时期， Red dit 网友便曾指出该版本存在的一大缺陷： 无论输入什么提示词，都会生成一首毫无特色的流行歌曲。 目前看来，这个问题仍旧存在，老版本的 Suno v3 在模仿各种小众歌曲风格方面反倒表现得更加出色。

完美的“音色拷贝者”？

v3.5 的基本更新显然是一次 0.5 级别的升级，并没有达到广大用户心目中的 v4 水平。相比之下，前文所述的 Sound-to-Song 确实更让人耳目一新。事实上，有许多拿到了 Suno 内测资格的 AI 音乐家已经在 X 上晒出了自己用 Sound-to-Song 进行的创作成果：

AI 艺术家 Michael Carychao 拿到了 Sound-to-Song 的内测资格，这是他用创作的 AI 歌曲：《困惑》（Perplexed）。 Michael 的吉他弹唱被 Suno 转化成了一首流行歌曲，所以他接下来上升了难度：

AI 挑战周杰伦？Suno 全新功能面世，即兴哼几句就能创作成歌，还能模仿声音！

正文

请到「今天看啥」查看全文