专栏名称: 范阳

Being more human, less perfect.

旧金山计算公司: 像 Airbnb 一样短租 GPU，算力就像科技行业的 “房地产”。

范阳 · 公众号 · · 2024-06-06 14:09

正文

分享一些最近看到过的或者交流过的初创公司，我觉得它们在做一些有趣奇怪但是值得关注的事情，作为一个 startup shallow dives “浅解初创公司” 系列。

今天分享的这家叫做 San Francisco Compute （旧金山计算公司），2024 年刚刚上线：sfcompute.com。看到这家公司让我想起来了 Airbnb 的初创时期，在经济不好的时候，Airbnb 类型的商业模式似乎就会 “文艺复兴”， Airbnb 的故事也告诉我们不要小看一些努力 hustle 的草台班子。

我看了两位创始人 — Evan Conrad 和 Alex Gajewski — 的博客以后，首先欣赏他们是一个有自己 “审美” 的科技公司，另一个优点就是他们对自己的定位很清楚，能直接讲出来他们是价格最低廉按小时出售 GPU 资源的供货商。另外就是两位创始人之前在 Nat Friedman 和 Daniel Gross 的投资孵化基金 AI Grant 工作，对市场供需关系和竞争有自己的策略和洞察。

延伸阅读：与 Nat Friedman 和 Daniel Gross 推演人工智能的发展 | 3万字采访, Stratechery 3月

最近他们在旧金山做了一波营销推广，也很有 Airbnb 的味道，我觉得这个营销背后的洞察就是他们认为 GPU 现在就是科技行业的 “房地产” （ real estate )，优质的计算资源和 GPU 集群谁都想要，就像市中心的黄金地段房地产，但大多数人都负担不起，并且市场也是低效的，是否有一种让计算资源的产生和分配更高效的方法呢？就算你拥有了一部分黄金地段房地产，你要用它来做什么呢？

下面的部分我分享 San Francisco Compute 的两位创始人分别的博客短文，第一篇来自 Evan Conrad，他认为：人工智能是一种独特的技术，但它是带有费用的一种软件。而人工智能本身也在迅速进入到同质化竞争，整个行业遇到商品化的问题。购买大量“资产”的竞争对手往往被锁死在一个商业路线上。而初创公司最佳的竞争策略是通过滑行到价值链的上游，来逃离这个技术已经被 “商品化” 的市场。

第二篇短文来自 Alex Gajewski，他从机器学习领域的技术发展上谈到一些认为值得构建的东西，例如：是否可以创造抽象层级更高的深度学习编程语言？是否有机器学习的方法看起来与深度学习非常不同但具有相同的基本形态？是否可以构建出数学领域的 AlphaZero？

以上有很多都是没有标准答案的开放问题和还在进化当中的观点，我们可以从在市场中努力找到自己位置的创业者身上得到一些启发。

关于技术的商品化、定价策略和资产

On Commoditization, Pricing, and Assets

作者：Evan Conrad

写作日期：2024年3月1日

编辑：范阳

我是旧金山计算公司（ San Francisco Compute ）的创始人之一。我们出售 GPU。我一直在思考 “商品化” （ commodities ）的问题，因为它们在人工智能行业中经常出现。人工智能是独特的：它是带有费用的一种软件（ it’s software with expenses ）。

范阳注：commoditization（商品化）指的是一种产品或服务变得越来越同质化，失去差异性，最终在市场上只能通过价格来激烈竞争。这通常发生在某项技术成熟或广泛普及之后。历史上的个人电脑，智能手机，云存储行业都经历过 “商品化” 的过程。

大多数软件行业的人不习惯处理大量的资本支出（ capex ）、销售成本（ COGS ）、供应（ supply ）、折旧（ depreciation ）、库存风险（ inventory risk ）、商品化（ commoditization ）等问题。当人们进入这个领域时，带着过去数十年的关于如何打造高利润、高差异化、以产品为中心的软件公司的建议，但却很少有关于如何在普通的商业环境中取胜的信息（but little information on how to win in games with normal business ）。

下面我的文章认为在每一步都有一个客观正确的行动，并说明了如何采取这些行动。

关于商品化

On Commoditization

在默认情况下，商品化使得拥有最低资本成本的玩家成为赢家（ commoditization king-makes the player with the cheapest cost of capital ）。最终，市场上的所有竞争者都会采用最便宜的策略来制造产品部件，并从最便宜的供应商那里进货（ all the competitors in the market conform to the cheapest strategy to create widgets and buy from the cheapest vendors ）。此时，进一步降低价格的唯一方法就是竞争以获得比对手更便宜的贷款。而那些能够获得便宜贷款的人通常是规模最大、历史最悠久的公司，因为他们有最好的信用记录（ since they’ll have the best credit history ）。

如果资本供应不足（没有人愿意放贷，或该项技术的商品化需要大量资本），那么市场上最终只会剩下少数大公司玩家。所有新进入的小公司由于没有信用获得便宜贷款，因此在大公司开始以低价竞争时被淘汰。

由于市场上只剩下少数大公司玩家，所以卖给这个已经 “商品化” 市场参与者的供应商突然开始亏损（ the vendors who sell to the commodity market participants suddenly start to lose ）。当你只能向四家公司中的一家出售商品或服务时，每家公司都有强大的谈判能力，形成买方垄断（ monopsony ）。

另一种竞争策略是通过滑行到价值链的上游，来逃离这个技术已经被 “商品化” 的市场，构建一种使用该商品化的技术作为输入的产品（ to escape the commodity market all-together by skating up the value chain by building a product that uses the commodity as an input ）。这是 “吸引利润的守恒定律”（ law of conservation of attractive profits ）：当一个（技术）市场已经商品化时（ when one market commoditizes ），利润会累积在价值链的相邻点（ profit accrues in the adjacent points in the value chain ）。换句话说，如果你是买家，你会喜欢市场的商品化（ if you’re buying a product, you love when the market commoditizes ），因为你的业务输入变得更便宜（ the inputs of your business get cheaper ），成本也会下降。

关于定价

On Pricing

要时刻关注竞争的轴心是什么。如果客户只关心价格，那么你唯一的选择就是降低价格。然而，一旦你和竞争对手的价格差异变得无关紧要，竞争的轴心就会从价格转移开。此时，客户开始关心产品的其他方面。

许多创始人错误地在过早阶段过于关注提升产品质量。在传统软件（ traditional software ）领域，你很少真的在价格上竞争 — 运行一个网络服务器的成本并不高。因此，你通常竞争的是更好的用户体验或具有某些特定功能。但人工智能确实要消耗实际费用（ AI has actual expenses ），因此价格可能高达数千甚至数百万美元。当价格如此昂贵时，你必须首先在价格上竞争，而不是先在产品质量上竞争。如果生产一部 iPhone 的成本是 10 万美元，那么苹果应该疯狂地关注如何降低销售成本（ COGS ），而不是制作一个令人难以置信的奢侈产品。他们只有在产品成本控制在客户可接受的范围内时，才能专注于设计（ They only get to focus on design when the costs are in the range of a customer’s wallet ）。

关于资产

On Assets

每当你的竞争对手进行资产购买时，你应该庆祝（ Every time your competitor makes an asset purchase, you should celebrate ）。他们购买的越大，你越应该庆祝。

竞争对手的每一次大额购买都将他们锁定在与该投资相关的特定战略中（ Each large purchase by your competitor locks them into the strategy implied by the investment ）。软件行业的人习惯于那些从不购买任何资产的竞争对手（ Software people are used to competitors that never buy any assets ），在那里，一个有自己主意的的创始人可以随时将公司完全转向，并解雇任何不同意的人。但是，如果你购买资产而且还贷款了，再强的个人意志也无法使公司轻松转向（ But if you buy assets, if you take loans, there’s no amount of strong will that can cause the company to shift ）。软件公司只有在它的团队成员放弃时才会真正倒闭（ Software companies really only die when people give up ）。但拥有资产的公司会因为破产而倒闭 — 因此它们实际上被锁定在一条固定的道路上。

每当你的竞争对手被锁定在一条固定的道路上时，他们就有很多事情无法去做，而如果你能通过做这些他们不能做的事情赚到钱，那么你的竞争对手就会避开你（ if you can make money doing those things, then your competitor will flee away from you ）。

原文链接：

https://evanjconrad.com/posts/commodities-pricing-assets

Alex Gajewski：机器学习领域什么值得构建

some things I think would be cool to build

作者：Alex Gajewski

编辑：范阳

目前我是旧金山计算公司（ San Francisco Compute ）的首席执行官，我们正在致力于自动化扩展神经网络（ we're working on automating the scaling of neural networks ）。我通常认为，如果在创建最先进模型的过程中障碍尽可能少，并且有大量公司在训练不同类型的大型模型，那么人工智能的发展会达到最佳状态（ I generally think AI will turn out best if there are as few barriers to making a state of the art model as possible, and if there are lots and lots of companies training large models of different types ）。

在此之前，我创办了 Metaphor，我们在互联网上的数十亿页面上训练了一个大的对比模型（ a big contrastive model ），以打造一个神经网络搜索引擎（ to make a neural search engine ）。

我还参与了 AI Grant （ aigrant.org ）的第一批入选项目。 ( 如果你有兴趣资助一个开源的 GPT-4，请告诉我！）

以下是我觉得很酷的项目（如果你有兴趣构建其中任何一个，请告诉我）。

1. 抽象层级更高的深度学习编程语言。

a more abstract programming language for deep learning

大多数编程语言都是为了简化二进制操作而设计的，但现在我们主要关心的是矩阵/向量操作。

（ most languages are designed to make things like binary operations short, but now we mostly care about matrix/vector operations ）

向别人解释一篇深度学习论文的主要思想并不需要很多自然语言的话，但编写代码却需要写很多。

能否构建一个编译器，将抽象描述转化为具体细节？

（ can you build a compiler to go from an abstract description to the specific details ）

例如，对于 u-net 架构，你通常不关心架构具体细节，只需要设定参数数量，然后让编译器为其余部分做出合理选择。

范阳注：如果构建神经网络可以通过更高抽象层级的 “编程语言”，使得深度学习模型或者神经网络的构建更加直观和高效，那开发者在架构和工程原理等细节上的投入时间就会缩小，而可以去做更多创造性的 “高层级抽象” 的工作。

2. 数学的 AlphaZero：无需人类数据的定理证明

AlphaZero for math, theorem proving with no human data

在 2015 年，当时的深度强化学习（ deep RL ）方法无法解决下围棋这个问题，因此我们不得不发明蒙特卡洛树搜索（ MCTS ）来解决它。

今天，定理证明（ theorem proving ）处于类似的境地，因此这是一个可以用来磨练我们方法的好问题。

3. AI 角色：作者可以投入数月/数年工作进去的角色

AI characters that authors can put months/years of work into

目前，给 AI 角色提供的唯一输入是一个提示词，这限制了角色的趣味性。

你应该能够向角色输入更多的信息，无论是通过微调还是更长的上下文。

也许这些角色应该具有目标导向性（ goal-directed ），通过强化学习（ RL ），试图引导你说某些话或将故事引向某个发展方向。

实际上，这些角色是一种新形式的文学（ really these are just a new form of literature ）。

4. 声音到声音的模型：通过声音来思考

voice to voice models that think in sound

目前，人们使用语音识别（如Whisper ）-> GPT-4 -> ElevenLabs 的管道进行语音处理。

实际上，这应该是一个端到端的模型（ one big end to end model ），使得负责思考的部分能够理解你说话的方式（ the part that does the thinking knows how you said something ）。

你希望这个模型能够打断你、与你同时说话（ you want it to be able to interrupt you, talk over you）等这样的事情。

5. 自动撰写历史书

write a history book automatically

语言模型似乎几乎已经能够完成研究、组织信息并将其编写成书的过程。

你可能需要对整个过程进行微调，基于现有历史书籍的资料数据使用强化学习（ RL ），使其学会如何进行现有书籍背后的 “隐藏空间”式的研究（ so it learns how to do the latent research behind existing books ）。

如果模型具有超长上下文窗口（ super long context windows ），这将更加容易实现。

6. 具有真实十亿 token 上下文窗口的语言模型

language models with true billion token context windows

感觉这是可能实现的。

需要在 GPU 内存中存储 10 亿个键和值（ store 1B keys and values ），以隐藏维度 4096 计算，这大约需要 16TB 内存，使用 2048 个 A100 GPU 可以轻松容纳。

然后需要找出一种方法，在不消耗过多计算资源的情况下，为每个 token 选择需要关注的部分。

还需要包含长度为 10亿 token 的序列的数据集（一本书大约是 20 万 token ）。

可以通过将一堆相关文档连接在一起构建这些序列（ could construct these sequences by concatenating a bunch of related documents together ），从而激励模型找到对当前预测最有用的上下文部分（ the model has an incentive to find the parts of the context that are most useful for its current prediction ）。

7. 具有某种树搜索的语言模型？

language models with some kind of tree search?

很多人都在尝试建立语言模型的变体，在特定问题（通常是编程或数学）的解空间（ solution space ）中进行某种树搜索。

范阳注：语言模型的变种指的是在基础语言模型（如GPT-4 ）的基础上，进行改进或调整以适应特定任务或领域的不同版本，比如编写计算机程序和解决数学问题。这些变种可以通过修改训练数据、模型结构或训练方法来实现，以更好地处理特定类型的问题或应用场景。

我认为，如果能以一种非常通用的方式为任意语言建模做这件事，你只需使用某种学习到的价值函数来预测生成的序列是否真实（ you just have some kind of learned value function that's trying to predict whether the generated sequence is real or not ），那将是一件很酷的事。

8. 端到端芯片设计

旧金山计算公司: 像 Airbnb 一样短租 GPU，算力就像科技行业的 “房地产”。

正文

请到「今天看啥」查看全文