专栏名称: 白鲸出海
白鲸出海,泛互联网出海服务平台,白鲸专注于具备互联网属性的行业、公司、产品和服务的出海,包括应用、游戏、电商、区块链、智能手机及硬件、旅游、网络文学、影视、动漫、教育、体育和金融等。
目录
相关文章推荐
白鲸出海  ·  百亿赛道杀出新黑马,智能健身镜创众筹记录 ·  5 小时前  
阿里开发者  ·  AI ... ·  18 小时前  
阿里开发者  ·  校招阿里这三年,聊点非技术的 ·  2 天前  
51好读  ›  专栏  ›  白鲸出海

月收入从5万美元到80万美元,背后是“肉身出海”的孤注一掷 | 对话创始人

白鲸出海  · 公众号  · 科技公司  · 2025-03-06 22:00

正文

当传统音乐制作仍被繁复的乐理知识与高昂的录音成本筑起高墙,一群理想主义者正用 AI 重新书写规则。

从乐队主唱到 AI 音乐创业者,郭靖(Joe)的十年探索, 恰是音乐行业从“精英 创作”向“全民表达”演进的时代缩影——他曾因工具掣肘埋没作品,却在自学编程的硅谷岁月里顿悟: 技术不该是艺术的门槛,而应是创作者的翅膀。 2019 年,他带着“去工具化”的执念创立 ACE Studio,让歌声合成从专业录音棚走向每个人的桌面,更在监管风暴后 完成从娱乐应用向生产力工具的惊险一跃。 当多数AI音乐产品仍在比拼“一键成曲”的炫技时,这支团队为何坚信“Human-in-the-Loop”才是颠覆行业的正解?

从 5 万美元/月到 80 万美元/月的收入飞跃,背后是一场“肉身出海”的孤注一掷。 2023 年的 ACE Studio 曾困于国内市场的天花板,却在 NAMM 音乐展上与 15 位格莱美得主的偶遇中,窥见全球专业创作者未被满足的刚需:用 AI 解决童声难寻、多语言合唱、即时修改的行业痛点,替代的不是软件,而是“每小时 500 美元”的真实人力成本。从硅谷孵化器 HF0 里系统化的 KOL 触达 SOP,到自建 5B 参数可控模型的技术深垒,这支自嘲“非科班出身”的团队,正在用“先搞了再说”的极致执行力,将中国 AI 音乐解决方案写入好莱坞配乐师的日常工作流。他们的野望不止于工具——当音乐模板生态遇上生成式 AI,会是下一个 Canva 式的内容平权革命吗?

本期 Z Potentials 访谈系列,我们很荣幸邀请到郭靖(Joe)先生,与我们分享他的心路历程,Enjoy!

. “于是我意识到,我们不该一味向工具妥协,而应让工具适应人,每个人都有情感和表达的需求。基于这一思考,2019 年初, 我们决定利用 AI 的力量来重新定义音乐创作。 ......那么人就不应该被工具化,就是我不应该和计算机比智力、比运算速度等等,因为人脑本来就接受不了极度复杂的东西。”

. “因此整个事情就奠定了 我的审美就是去工具化 ,就是人不应该变成一个工具,就和古人说的君子不器是一个道理, 人是被工具服务的,让你能够自由地发挥你的情感、你的 Big idea、你的 Authenticity。


. “将虚拟歌姬改造成 ACE Studio, 真正 Enhance Creation 的 Tool。 ......因此我们不是去替代一个已经解决这个问题、或者解决了八成的一个软件,今天我们替代的这个环节正好是没有任何一个软件,或者没有任何产品能够解决的。

. “我们成功的 关键在于执行力 ,我们没有过多犹豫,而是决定先行动。”
. “Capcut 实际上做到了两件事情, 第一是把视频创作这样一个专业分工明确的行业和上下游整合成一个简单的工具,第二是把人群做大了十倍甚至是一百倍。因此,未来音乐创作行业也是同样的发展轨迹 。”

从乐队主唱到AI音乐创业者:

一个不得不创业的理想主义者

ZP: 欢迎靖总,请先向大家介绍一下自己吧!

郭靖: 大家好,我是 Joe。我们正在打造的产品是 ACE Studio——一款 AI 音乐工作站。当前,它的主要功能是“Text to Singing Voice”,也就是通过输入文本和音符,自动生成歌声,面向的是专业的音乐制作人和创作者。

回顾我的经历,其实我大学时期就是搞乐队、写原创歌曲的,当时一直怀揣着一个梦想:能自己制作出达到发行水平的专业音乐。虽然那时写的歌曲都有独特的灵性,但始终没有机会发布,而主要原因就是当时使用的音乐制作工具实在太复杂、难用。

毕业后,我先在一家游戏公司从事增长工作,参从 0 到 1 与打造过几款用户量过亿的手机游戏。之后,从 2015 年底到 2016 年底,我给自己留了一个 Gap Year。那一年里,我一半时间在北京,一半时间在硅谷,目的在于探索世界上新的可能性。我走访了不少创业者,询问他们在做些什么,同时,作为一个 Nontech 出身的人,我也利用这段时间自学了高等数学、机器学习、编程等技术,并提升了英语水平。尤其是在硅谷的后半年,我还去了 Draper University(ZP 注:是由知名风投人 Tim Draper(德丰杰 DFJ 创始人)于 2012 年创办的一所创业学校,位于美国硅谷),在那里,有机会接触到像 Elon Musk 这样的投资者。

2017 年初回国后,我有过两次创业尝试。第一次创业是做 Chatbot 项目,但当时技术尚未成熟,再加上我也没什么创业经验,在 2018 年底就选择放弃了这个项目。项目结束后,我开始思考下一步该如何前进。大学时的音乐制作经历和 Gap Year 中自学编程等技术的体验形成了鲜明对比:我发现,编程和复杂技术其实并不难,而当初我认为音乐创作之所以艰难,很大原因在于那些陈旧、繁琐的工具。 于是我意识到,我们不该一味向工具妥协,而应让工具适应人,每个人都有情感和表达的需求。基于这一思考,2019年初,我们决定利用 AI 的力量来重新定义音乐创作。

接下来 3 年,我们推出了一个名为 ACE 虚拟歌姬的 APP。但由于监管政策的原因,这款 APP 在 2022 年底被迫下架。经历这一波折后,我们发现原本使用 ACE 虚拟歌姬的用户中有很多专业音乐人,他们使用这个工具并非仅仅为了娱乐,而是为了提高创作的生产力。于是,我们对产品进行了改造,将其升级为一款更加专注于生产力的桌面端软件,也就是现在的 ACE Studio。

自 2023 年 10 月上线以来,我们的产品发展势头迅猛: 最初月收入稳定在几万美元左右; 到 2024 年 9 月,我们加入了 HF0 孵化器 (ZP 注:Hacker Fellowship 旗下的一个创业孵化器,由 Hydra 支持,专门为极具工程能力的创业者提供资金、资源和支持,帮助他们创办技术驱动的公司),月收入提升到了 8-9 万美元。 从加速器 3 个月的周期中出来后,12月、1月、2月的每月收入来到 80 万美金。

ZP: 作为连续创业者,回顾 2017 年您尝试推出 Chatbot 项目的经历,当时您所处的市场环境是怎样的?您希望通过这个产品解决哪些实际问题?

郭靖: 当时我还是一个不太成熟的创业者,就是一门心思想做 AI、以及想做和 AI 交互有关的东西,虽然具体要做什么并没有一个非常明确的方向,但我们觉得 Bot 类产品看起来很酷。由于做通用场景的 Bot 效果并不理想,我们便想寻找一个垂直的应用场景,看看能否实现更好的效果。最终,我们选择了汽车领域,从汽车售前咨询到售后维修咨询,逐步发展成了一个汽车维修助手。简单来说,用户可以问:“我的车出了问题,该怎么办?”系统就会提供相关资料、答案以及维修指导。

不过,这个项目在商业和技术上都面临了不少挑战。从商业角度看,即使 Bot 能告诉你怎么修车,它毕竟也无法替你完成实际维修;而在技术层面,我们当时想实现的功能有点类似于今天的 RAG 系统——既要支持用户自由对话,又要准确识别他们的具体需求,这要求我们在一个封闭的数据库里调用资料或执行函数调用,但我们当时用的模型效果并不理想,加之依赖大量规则来驱动整个流程,最终我们发现很难让这个 Bot 真正变得有用。

ZP: 为什么 2017 年就想一门心思做 AI?

郭靖: 其实选择 AI,主要还是出于我个人的审美,因为我觉得 AI 的本质就是一个复杂网络:每个基本单元都独立运作,但又能以某种方式有机地组合在一起。虽然每个小“原子”只遵循极为简单的规则,但当它们聚合时,整个系统却能涌现出非常复杂的 Pattern,也就是今天大家说的“智能”,这种感觉让我很迷恋。

ZP: 作为连续创业者,您这次创业的动力是什么?

郭靖: 这是一个很有趣的问题,很多投资人会偏好成功过、挣过大钱的创业者,因为这种创业者往往对短期利益没有诉求,他们的追求会更长期,但我想给一点补充,就是考虑去寻找那些不得不创业的人,比如像我这类型的创业者,我创业的动力很简单朴素——我没有别的选择,因为我是一个希望以自己的方式去做事的人,而在一个公司里我就不得不适应公司的体系,消耗的精力大于做事情的本身。以及因为我们没有赚过大钱,我们对于生活中的欲望也很低,核心诉求还是如何做一个牛逼的事儿。

ZP: 10 年前对自己的期待是什么,目前达成了吗?站在今天,希望 10 年后的自己成为什么样的人?

郭靖: 10 年前我感到自己还是在混沌中,在 Gap Year 的时候才慢慢有觉醒的感觉,当时我就是想在硅谷创业,到现在也是花了八年的时间,才终于做到了这件事。10 年后我希望能做一个对世界有影响的事情,并且希望这件事情能让世界向我的审美方向发展,即让人们的创造和表达变得没那么复杂,因为音乐创作是人性中孩童般天生具有的能力。

ZP: 除了创业工作之外,您有哪些兴趣爱好?

郭靖: 我喜欢打拳,我之前在北京的时候练拳击练了三年,我的水平是达到了半职业或一般拳馆教练的水平。

ZP: 您可以给读者推荐一些您喜欢/对您影响比较大的书籍吗?

郭靖: 对我影响比较大的一本书叫《深奥的简洁》,这是一本讲混沌学和复杂系统的书,可以说为我奠定了审美。最近我喜欢看的一本书是菲尔·奈特的自传《Shoe Dog》,这其中写了很多创业中真实的过程,菲尔·奈特的创业伙伴们是一群来自俄勒冈波特兰的被世界低估的人们,每次在一起开会的时候都有强烈的自我厌弃感,因为经常有人说他们是出身一般的乡巴佬,但其实他们每个人身上都有一些独特的天赋。菲尔·奈特的伟大之处就在于能让这样一帮人发挥出自己的才华、打造出耐克这样伟大的公司,这些创业经历跟我在某种程度上有很深的共鸣,给我了一些灵感关于哪些事情是打造伟大公司的必要的和不必要的。

让 AI 重新定义音乐创作,
超绝执行力下的出海破局之路

ZP: 回到这次创业的起点,2019 年想到基于 AI 重新定义音乐制作,当时是关注到了什么样的机会?

郭靖: 在我 2017 年从美国回来的时候,我其实就一直在找一种全新的音乐创作方式, 或者说是一直在寻找一种去工具化的机会。这个原因来自于我在 Gap Year 这一年的学习中 ,我学了很多东西,然后我突然惊奇地发现这些很多是我以前学不会的东西,比如我大学的时候也有 C++的课程,虽然现在我觉得当时教得都很简单,但我当时觉得这个东西和天书一样,完全理解不了它是什么意思,所以后来我发现是因为教得不好,是因为他们没有把虚拟的东西连接到某一个实物上、或连接到某一个意义上。直到后来我在 MIT OpenCourseWare 学习了代码、高等数学、机器学习。我发现所有今天看起来巨复杂、巨专业的东西,都是来自于简单 Idea 的萌生,然后在简单的 Idea 之上慢慢叠加。但如果没有这个叠加的过程,而是将结果填鸭式地灌输给后来者,他就会非常复杂。所以那个时候给我奠定了一个对世界的审美,就是人其实脑子都差不多, 那么人就不应该被工具化,就是我不应该和计算机比智力、比运算速度等等,因为人脑本来就接受不了极度复杂的东西。

所以任何一个极度复杂的东西,它今天要么是因为教学的问题让你错误理解了它的复杂度,要么就是这个工具设计的问题。就比如说创作这件事情里,复杂工具就很难让你把真正的人性发挥出来,让你错误地认为你不是创作的这块料。 因此整个事情就奠定了我的审美就是去工具化,就是人不应该变成一个工具,就和古人说的君子不器是一个道理,人是被工具服务的,让你能够自由地发挥你的情感、你的 Big idea、你的 Authenticity。

ZP: 所以我们最早做了 ACE 虚拟歌姬,当时产品的定位是什么?关注到我们后面又转型做了更加专业化的工具,又是什么原因?

郭靖: 最开始做虚拟歌姬的想法很简单,就是让普通人能够创作音乐并分享。但除了客观原因的监管问题之外,产品层面还有一个问题就是做娱乐向门槛不够低,做生产力向又不够专业,所以会导致用户用得很尴尬,产品就遇到了瓶颈,今天来看 Suno 是做这件事最正确的形态。

所以我们当时在思考一个问题是,AI 时代的马太效应是什么?虽然目前这个事本身没有一个定论,但是我们那个时候的直觉就是用 AI 去做一些有创造力的东西是更合理的,AI 这个技术不是像互联网一样改变人与人之间的连接方式,而是改变人创作某一个东西的生产力。那么我们能不能用虚拟歌姬的能力去增强音乐制作的生产力,于是我们后面决定 将虚拟歌姬改造成 ACE Studio,是真正 Enhance Creation 的 Tool。

ZP: 那转型之后,围绕专业用户,我们核心的价值创造是什么?

郭靖: 在 ACE 虚拟歌姬的用户里我们发现, 在音乐创作行业里有一个很大的问题是——歌声很难获取 ,就类似于 TTS 出现之前需要专业人士的配音,现在 99% 的音乐都是歌,而歌声都是人唱的。那其实歌手在录音的过程中是很耗时耗力的,而在音乐制作的这个场景里有很多需要歌声的部分,比如说电影配乐里面的吟唱等。我举一个具体的场景需求,比如说你作为一个制作人需要制作一个广告片,而广告片中需要有童声,但是你要找一个五岁、会唱歌的小姑娘来唱歌,这是很难找的。但是今天 ACE Studio 里面就有,你甚至可以在 ACE Studio 里做一首全新的大合唱,而不是雇佣几十个人、再找一个巨大的录音棚。

图片

在我们发现这些真实问题的时候,我们发现 AI 确实能解决这个问题。而且有趣的是,在这个行业中没有传统的方案,在没有 AI 之前,传统的方案就是找人,而找人是一种非常昂贵的方案。 因此我们不是去替代一个已经解决这个问题、或者解决了八成的一个软件,今天我们替代的这个环节正好是没有任何一个软件,或者没有任何产品能够解决的。

我们会针对不同的 Type、不同的 Genre 找代表性的人,比如有唱歌剧的、唱民族的、唱童声的等等;而且我们会做更多的语言,比如目前我们支持英语、西语、日语和中文,接下来还会做法语、德语等等。

ZP: 了解到 ACE Studio 今天取得了很不错的进展,也请您分享下 ACE Studio 是如何逐步找到 PMF 的?

郭靖: 其实我们在做 ACE 虚拟歌姬的时候做了很多事情,但是在做 ACE Studio 的时候,我们已经看到了用户的行为,所以非常确定这个产品一定是有用户的,只是我们不确定到底有多少人用?能多挣钱?规模有多大?一直到最后我们的直觉是要出海,因为海外的音乐制作市场更大,中国没有什么音乐生态。 所以我们很决绝地赌了肉身出海这条路,今天回头来看是赌对了。

但是到目前为止,我一直觉得离真正的 PMF 还有一定的距离,因为产品达到 PMF 之后,应该是即使付费功能做得很差、引导功能做的很差,用户也愿意使用、去钻研、去想办法付钱,做到这样才算达到 PMF,比如 Docusign、Meta 广告后台。

ZP: 当时是什么时间点决定要出海的?

郭靖: 2023 年我们刚上线的时候,收入还可以大概是每个月 5-6 万美金,但是后面就慢慢掉,因为国内的用户已经消耗得差不多了,国内网易云音乐的注册人数是 60 万,而 Spotify 的注册人数是 2000 万,那这个差别是很大的。所以我们刚开始的时候就是想出海,在 23 年 10 月份上线的时候,这个产品就是全球可以访问全球可以支付的。而且因为上线的时候我们就觉得要做一个全球化的产品,所以在 YouTube、Twitter 上我们也在发产品相关的推广视频,在 Discord 里也有我们的用户群,但是在海外就是没有人用,而且我们联系了 100 个海外的 KOL,邀请他们做产品测评,但是几乎是 0 回复。这期间我们有过灰心的阶段,但投资人和身边的朋友也提醒我,“今天出海是Money on the table,出海不顺利是因为 GTM 有问题,而不是产品不 work。”

事情的变化是发生在 2024 年 1 月底, 我们去参加了一个美国的音乐展 NAMM Show,当时就获得了非常多音乐人的关注 ,而且很多音乐人是他的朋友先看到了我们的展位,然后把他们带来的。后来很多人留下了联系方式来参加我们的月卡抽奖活动,事后我们一查,留给我们联系方式的 60 个人里面有 15 个格莱美获奖者或者提名者,也就是有很多人都是在音乐制作行业鼎鼎大名的大牛。所以我们发现海外音乐制作的生态真的很好,其次我们发现我们的确是一个好产品,而问题在于他们没有发现我们。 这是第一波海外的用户,我们当时冲到 18 万美金的月收入,虽然后面因为 Foundation Model 在英语口音层面不够好,掉到 8-9 万美金的月收入,但也有百万美金 ARR 的感觉了。

第二波是我们申请了 HF0 (ZP注:HF0 是由 Lucy Guo 和 Dave Fontenot 在 2019 年共同创立的常驻创业孵化器), 在这里我们非常沉浸式地搞增长,也在此期间更新了大量的 Feature、升级了 Foundation Model,让欧美用户真正有好的用户体验 ;我们也将 Influencer Reach Out 这件事变成了 SOP,复盘之前 0 人回复的原因,是应该持续不断的 Reach Out,而且如果海外没有听说过你,刚开始 Reach Out 会有强烈的不信任,需要先有一些曝光,比如在音乐节出现,让大家觉得你不是一个骗子公司。而且,100 个人应该有多少人回复我们在最开始是没有概念的,其实 10% 是合理的,如何打造一个系统可以在一天 Reach Out 100 个人、如何可持续去做 Reach Out, 这是我在 HF0 和 Blake Anderson(ZP注:千万美金 ARR 卡路里追踪 AI 应用 Cal AI 的创始人)聊天的时候学到的 ,他的策略就是每周 Reach Out 200 个 Influencer,Reach Out 的模版持续更新、不断优化对方的回复率、以及不断优化对方的 RPM,当一波 Influencer 性价比趋于平庸的时候,就要换另一波 Influencer,这些都是非常正规军式的增长方法。守正出奇,首先是要把正路系统性地去做好。

ZP: 这次出海成功的关键因素是什么?

郭靖: 首先从团队来看,我并没有出国留学的经历,甚至大学四级都没过,另一个合伙人也是国内的本科生,是一个音乐艺术生,第三个合伙人出国留学也只是在英国呆了一年,所以我们的团队并没有出海的天然优势。 但我认为我们成功的关键在于执行力,我们没有过多犹豫,而是决定先行动。 这里可以分享一下我当时申请 HF0 的故事,最开始听其他 Founder 提起 HF0 这个名字时,我甚至不知道它是一个加速器,于是我上网查了相关资料,打开申请网站,一条一条填写信息,大概花了一个小时左右。四五天后我查看邮箱,发现收到了面试邀请,当时只剩下一个 15 分钟的 Slot 了,我赶紧选了那个 Slot,我先进行了线上面试,第二天就去了旧金山参加线下面试,第三天就收到了 Offer。整个流程顺利得让人有些意外,但很多人可能在各种节点上会犹豫,比如去了有没有用、会不会面试不上。 但我只是觉得这是出海的最好机会,就去尝试了。 包括我们去美国音乐展也是,提前一个星期申请,自己淘宝做物料,别人说需要用跨国物流邮寄来不及,我们就直接拿上飞机,被罚款 1000 多美金,缺什么东西就在当地找朋友借,搭台唱戏就直接上了,先搞了再说。也有人说我们不是 Native Speaker,融资会减分,但我看很多留学的同学都没有我现在英语好,就是硬去做、硬去学,从 2016 年我去国外 Gap Year 时英语都不敢开口,到现在能和外国投资人轻松对话。

ZP: 出海之后,关于 TAM 您的思考有过哪些变化?

郭靖: 我认为是有巨大变化的,首先海外音乐人的数量是够的,但为什么音乐制作行业中没有出现特别伟大的公司,只是有很多一两亿美金年收入的。要回答这个问题可以回看 20 年前的视频行业,视频行业非常复杂,所以被拆分成许多小公司来负责某一块业务,人群也很 Specialized,能被称作视频创作者的人不多。但最近我看到 Capcut 已有 9 亿的 MAU,也就意味着世界上每十个人中就有一人是视频创作者。 Capcut 实际上做到了两件事情,第一是把视频创作这样一个专业分工明确的行业和上下游整合成一个简单的工具,第二是把人群做大了十倍甚至是一百倍。

因此, 未来音乐创作行业也是同样的发展轨迹。 今天我们看到的几千家音乐行业的公司,有做插件、微调和虚拟乐器的平台或工具等,它们的存在无非就是为了产出一个几分钟的音频内容。所以我们的长期愿景是做一个简单且强大的工具来整合整个音乐行业,让专业人士和非专业人士都可以使用一个工具来创作同样高质量内容,并且把行业的人群扩大十倍或一百倍。

ZP: 在公司的商业模式中,您是如何制定产品定价策略的?

郭靖: 我们首先研究了目标人群的消费习惯。例如,我们发现一些音乐人习惯花 500 美元购买永久会员。因此,我们决定将我们的产品定价在每年一两百美元之间,这样显得更为合理。为了确定最终的定价,我们在过去三个月里进行了三到四次 A/B 测试,最终的价格是基于这些测试得出的。

目前,我们的商业模式是:没有月度订阅,只有 199 美元和 264 美元的年卡,而且付费率并没有因此下降。这也是经过测试得出的结果,因为在这个行业中,用户习惯购买一次性付费的产品。 如果采用月度订阅模式,就需要用户有频繁的日常需求,但实际上,虽然这对用户来说是刚需,却不是高频需求。 我们发现,许多音乐创作者可能几个月才做一首歌,所以对于他们来说,只要使用一次我们的产品就已经非常划算了,毕竟在美国雇佣一个歌手的费用通常是每小时 300-500 美元。所以年卡比月卡的定价方式更符合他们的需求。

Z P: 请介绍一下目前公司的技术栈,您们自主研发了哪些模型和算法?

郭靖: 具体来讲,我们的核心技术是创作歌声,而音乐无非是各种各样的音轨叠加,一个音轨相当于是一张图片的图层,所以我们有了歌声这一层之后,还需要其他层(比如乐器等)去生成一首完整的音乐。其他层方面我们采用 Text-to-music 方式,用户通过输入 Prompt 生成对应旋律的音轨,并且融合到整个作品中。这样一套技术基于大模型和 ControlNet 来控制每一个音轨的生成,我们内部目前有一个和 Suno2.5 质量水平差不多且具有可控性的模型,参数量在 5B 左右,会在一两个月内上 Beta 版本。我们去年最大的更新是将产品从一个歌声的 Workstation 升级成完整的音乐创作的平台。

ZP: 我们和 Suno 的差异化在短期和长期分别是什么?

郭靖: 目前来看差异性很大,Suno 更偏 ToC,而我们更 ToP(Professional/Creator),而且商业模式方面,Suno 有大量免费用量,而我们是年度订阅制。长期来看,可以参考 Comfy UI/Krea 和 Midjourney/Flux 的差异,用户已经不满足于只是 Model as a Product,而是需要更深的工作流和更好的交互界面。HF0 投资我们也是认为我们可以成为音乐领域的 Comfy UI。

借力基础模型迭代,
Canva 式生态玩法打造长期壁垒

ZP: 在接下来的 2-3 年里,您有哪些新产品计划?扩展产品线的主线逻辑是什么?公司的长期愿景又是怎样的?

郭靖: 从长期愿景来说,我们希望能够 Reinvent how people create music,即重新定义用户如何创作音乐。对比今天 Suno 等产品,它们不是在帮助人们创作自己的音乐,而是用AI创作音乐,比如你送女朋友一首歌用 Suno 是可以的, 但是如果真正想要自己创作,还是需要一款工具帮助人们更好地表达,这才是未来真正有价值的东西。

所以我们不做一个 End-to-end 的产品,而是具有 Fully-featured 的 Workstation,通过其中的 AI 功能使得人们和 AI 之间以 Human-in-the-Loop 的方式来沉浸式地创作音乐。因此,对于用户来说,虽无需很深的音乐背景,但也需要学习使用我们的产品才能真的上手做创作,类似 Cursor 用 AI 帮助人们白盒式地写代码,产品除了专业的程序员在使用,也有代码能力不强的人在用。

回到现在的生成式 AI 产品,我们发现单纯依赖一个模型是不够的,更重要的是构建好用户的界面。如今,许多音乐创作产品仅仅是一个模型,而我们的产品将会成为一个平台,允许各种模型作为插件进行集成,让用户能够更灵活地进行创作。符合这样理念的比如像 Comfy UI、Krea,这些产品都发展很快。

ZP: 公司在商业化方面已经取得了不错的成绩,接下来如何确保持续保持这一先发优势?

郭靖: 首先我们的产品没有那么容易被“抄袭”,我们在做的是歌声合成,发源于 GenAI 之前,也迭代了好几代的技术架构,这其中的 Knowhow 是很深的,比如数据方面,需要录音室级别的数据才能做标注,我们也将标注的过程迭代为自动化;再比如和每个歌手签合同做分成、把商业模式搭建起来等,对于一般团队的壁垒是很高的。

其次, 产品也将迎来网络效应,我们会借鉴 Canva 或剪映的模板生态,做音乐和大模型结合的模板社区,让用户通过我们的平台做音乐模板上传到社区里,其他用户可以用这些模板做二次创作。 这就需要我们提供一个简单的模块化创作工具,方便用户创作、复用和修改音乐模板,我们也希望这些模板创作者可以在这个生态中赚到钱。

ZP: 自您进入 AI 行业以来,音频领域的技术发生了哪些关键变化和突破?

郭靖: 我们今天做的事情实际上两三年前也是可能做到的,只不过我们一直跟着技术做迭代。但接下来我们要做的 Text to Music 的功能确实是近两三年的变化,底层原因是大模型有了质的进步。而且今天有一个趋势是,很多内容生成都统一成更简单的 DiT 模型架构,大家的模型结构和训练范式都在形成共识。因此,在今天去做一个 Foundation Model 可以借鉴的东西会有很多,很多理论指向是,只要输入输出和数据处理没有问题,用什么样的模型做出来的东西都不会太差,所以这件事是这几年存在巨大变量的。

ZP: 在未来 5 年内,您对 AI 技术的进步有何期待?哪些技术的变化可能会对音乐生成领域产生深远的影响?

郭靖: 我认为一个能听懂音乐和理解乐理的 LLMs 会对产品有巨大帮助。 今天的 LLMs,比如说,可以理解代码和辅助编写代码,所以作为 Cursor 这样的产品并不需要解决 LLMs 能否写代码的问题,而是需要搭建一个平台规定任务让 LLMs 看懂代码,这件事情是内生的。但假设我们今天要做一个 Copilot 在 ACE Studio 里,跟它说帮我把 C 大调的旋律改成 D 大调,理论上这些知识比代码要简单得多,但是今天的大模型并没有在这个方向上做强化,所以我们会去做模型的 Fine-tuning。

欲了解更多关于 ACE 的信息,敬请访问其官方网站 https://acestudio.ai/。

推荐阅读

休闲游戏,逆势疯狂融资?

第一个吃到DeepSeek红利的AI图像产品出现了?

经典玩法“翻红”1年半,终于有出海厂商“上车”了?

靠着ToB没做成的功能,美图BeautyCam登顶东南亚多国下载总榜?

SeaArt终登顶,另有出海生图产品两位数高速增长 | AI图片出海洞察第7期







请到「今天看啥」查看全文