当整个硅谷都在为通用人工智能(AGI)和万亿参数的通用大模型疯狂时,华尔街最神秘、最赚钱的量化巨头 Jane Street(简街资本)却在悄悄开辟另一条极其奢华的算力战线。
近日,知名科技播客主持人 Dwarkesh Patel 罕见获准实地探访了 Jane Street 位于德克萨斯州的核心数据中心。在这场与 Jane Street 技术团队共同负责人 Yaron Minsky 以及物理工程团队负责人 Dan Pavatova 的深度对话中,这家刚刚砸下60亿美元算力巨额订单的华尔街"造王商",首次解密了他们如何在高频交易的"纳秒世界"与大模型的"重算力时代"之间构筑起无法复制的绝对壁垒。
核心观点:
打破延迟迷思: 量化交易并非全盘追求纳秒。最优策略是"集成方法"——100纳秒内靠 FPGA 进行极简决策;而更大、更聪明的 AI 模型则运行在微秒、毫秒甚至小时级别的时限上。
60亿美元的算力野心: 金融数据的"字节与浮点运算比率(Bytes to Flop Ratio)"极高,且噪声极大。Jane Street 不追求硅谷那种"一个模型做所有事"的通用 Scaling Law,而是通过海量定制化架构和极速迭代来榨取超额收益。
基础设施成新圣杯: 算力的真正瓶颈早已不是芯片本身,而是发电机、变压器和液冷设备。为了让 GPU 提前 6 个月上线,公司甚至可以做出"放弃全面发电机备份"的激进商业决策。
交易是"AGI完全"问题: 交易的本质是预测未来。在市场发生"相变(极端异常)"时,人类的元判断远比模型可靠。AI 时代,顶尖工程师和交易员的身价不降反升。
纳秒极速与大模型的"时间谱系"
外界对高频量化交易一直存在一种刻板印象:机器必须紧挨着交易所(服务器托管 Colo),每一笔交易都必须在纳秒级内完成,而动辄需要巨大计算延迟的 AI 大模型似乎与之格格不入。
对此,Yaron Minsky 明确指出:"量化交易不存在单一的时间跨度,而是存在一个完整的谱系。"
100纳秒内的"极限硬件生存"
在百纳秒级别的极限速度下,决定胜负的甚至不是编程语言(无论是 OCaml、Rust 还是 C++),而是纯粹的硬件逻辑:
核心设备: 直接挂载在网络导线上的 FPGA(现场可编程门阵列)。
极限速度: "如果你在输入和输出的导线上连接一个示波器,你会看到数据包在被完全接收完之前,就已经开始从输出端发出去了。"
代价: 这种极致速度剥夺了复杂的计算空间,此时的决策逻辑极其简单。
微秒到小时级的"AI主战场"
随着决策时间窗口放宽到几微秒、几百微秒、毫秒甚至数小时,更大、更聪明的 AI 模型便有了用武之地。
预测核心: 预测资产的"公允价值(Fair Value)",并将其作为模块高度可组合地嵌入到各种交易流程中。
空间灵活性: 模型越大、越慢,物理放置的位置就可以离交易所越远。这使得巨型 GPU 集群不必拥挤在昂贵且受限的交易所托管机房中,释放了算力规模。
砸下60亿美元算力:为何不走硅谷的 Scaling Law?
不久前,Jane Street 与算力云巨头 CoreWeave 签署了一项高达 60亿美元 的计算协议。针对这笔惊人的投入,Yaron 阐述了华尔街与硅谷 AI 实验室(如 OpenAI 等)在 Scaling Law(规模定律)上的本质区别。
拒绝"大一统",拥抱"定制化"
传统 AI 实验室追求训练一个完全通用的、能做所有事情的单一模型。而 Jane Street 的价值则来自于模型架构的极大多样性与疯狂的实验数量。研究人员需要极快的迭代时间,去针对千奇百怪的数据源尝试截然不同的全新模型设计。
独特的"字节与浮点运算比率(Bytes to Flop Ratio)"
金融领域的 AI 训练有着独特的底层动力学:
高数据量,低信息密度: 金融数据包含海量的噪声,单字节的信息量远低于自然语言。
模型特征: 相比大语言模型(LLM),Jane Street 的模型往往更小,但吞吐的数据量却大得多,对数据加载和存储性能的要求达到了变态的级别。为此,他们正在大举构建自己内部的大规模对象存储系统。
算力战局的隐形瓶颈:从芯片到发电机与变压器
当硅谷还在为英伟达最新的 GPU 芯片大打出手时,负责物理工程的 Dan Pavatova 透露,真正的战场已经转移到了物理基础设施上。
商业决策击败纯工程完美主义
"发电机是目前你能买到的交货周期(Lead Time)最长的设备之一," Dan 表示。为了打破这个瓶颈,Jane Street 展现出了极其狼性的华尔街思维:
"我们可以挑战以前的观念。整个数据中心真的都需要发电机备份吗?如果我们拿掉部分备份,只留给最核心的系统,就能让我们的 GPU 提前 6 个月上线。从工程上看这或许不是最完美的,但这绝对是最好的商业决定。"
物理极限的逼近:1兆瓦机架与800V直流电
随着算力密度的疯狂飙升,未来的技术方案正在发生剧变:
设备瓶颈: 目前变压器、发电机以及用于液冷的冷却设备处于极度短缺状态。
技术演进: 数据中心正在向单机架 1兆瓦(MW) 的恐怖密度迈进,冷却管道越来越粗。供电架构也正在从传统的交流电向 800伏直流电(DC) 演进。
两阶段锁定策略: 鉴于芯片迭代太快而基础设施建设太慢,Jane Street 倾向于"做多(Long)"电力和数据中心容量,先锁定能源,再推迟对昂贵芯片的采购决策,甚至在必要时将电力容量分流给他人。
被迫放弃的"x86捷径"
多年来,Jane Street 运营技术组织的一个诀窍是"走捷径":假装世界上只有 x86_64 一种 CPU 架构,并且只维护一个大型研究数据中心和一个存储集群。但现在,随着算力需求全球化分布(无法在单一地点引入足够恐怖的电力),以及英伟达全新 ARM 架构产品的推出,这一捷径已被彻底打破。计算和存储调度的交织、以及对 ARM 架构的支持,让系统复杂度变高了几个数量级。
四、 AGI时代,人类认知为何依然是"终极护城河"?
当被问及"一旦 AGI(通用人工智能)实现,是否会立刻让 Jane Street 失业"这一激进问题时,Yaron 给出了一个非常清醒且深刻的回答。
交易是"AGI完全(AGI-complete)"问题
Yaron 认为,交易本质上和"NP完全"问题一样,是一个"AGI完全"问题。这意味着世界上发生的任何风吹草动(政治、天灾、科技变革)最终都会汇入并影响交易背景。
"在简单的部分被自动化后,那些模型无法自动化的硬核部分,反而成为了竞争优势的终极所在。我从来没有像今天这样迫切地想要招聘更多的工程师和交易员。"
无法被电子化取代的"人际修辞"与相变
非电子化交易依然强大: 即使在今天,大量大额交易(如债券业务)依然依赖于人与人之间通过聊天工具的直接沟通。交易员需要肉眼和直觉去评估电话那头的人代表了多大程度的"逆向选择(Adverse Selection)"(即对方是否掌握了你不知道的内幕)。
相变中的"元判断(Meta Judgment)":"简街最赚钱的日子,往往是世界陷入疯狂、没人知道发生了什么、市场发生‘相变’的时刻。我们希望模型能表现好,但我们深知,人类在应对相变时比模型靠谱得多。此时需要一种人类独有的‘元判断’来决定系统该做什么。"
全面扩招:简街正在寻找哪些人?
随着 GPU 规模在短期内计划从几万张疯狂飙升至几十万张,Jane Street 正在全球范围内展开前所未有的人才搜猎,机器学习和交易如今是一项"全方位的团队运动":
物理工程类: 机械工程师、电气工程师、结构工程师、项目经理、建筑师(负责数据中心全生命周期的寻找、设计、建造与运营)。
通用/专业软件工程: 除了高标准计算机科学背景的通用工程师,简街现在疯狂渴望"全舰队/全集群范围优化(Fleet-wide Optimization)"的人才(类似于超大规模云服务商的架构师),因为当算力投资达到数十亿美元时,通用的微小优化将产生巨额的财务回报。
前沿硬件与数理研究: 设计定制芯片(ASIC)的硬件工程师;利用数学证明让软件更高效的"形式化方法(Formal Methods)"团队(AI 革命让这一冷门领域一夜回春);以及拥有数学、物理、计算机背景的交易员。
高阶前端工程师: 过去简街极度崇尚命令行终端,假装 Web 网页技术从未发生过。但现在为了给研究人员提供更直观的 AI 工具、画出精准的直线和工具提示,他们正在大举投资建设顶尖的前端开发团队。
以下为对谈全文,由AI辅助翻译:
Dwarkesh:
Jane Street 是我播客的合作伙伴,我们想到的一个有趣点子是:为什么我不过来亲自参观一下你们运行的用于训练(AI模型)的数据中心呢?所以我刚刚在技术团队共同负责人 Yaron Minsky(译注:视频中口误及速记为 Ron Minsky)和物理工程团队负责人 Dan Pavatova(译注:速记为 Dan Ponttovo)的带领下,参观了这个位于德克萨斯州的数据中心。非常感谢两位带我参观。值得一提的是,我以前从未去过这种地方,所以我也是第一次参观,这太棒了。
以前我一直很困惑:既然你们需要在纳秒(nanosecond)级别进行交易,那你们怎么能做 GPU 相关的事情呢?也许你们可以详细讲讲,你们交易的实际时间跨度(时限)是怎样的?在做出交易决策的过程中,你们能负担得起运行大型模型的成本(或时间延迟)吗?
Yaron:
我认为这里需要理解的核心一点是,并没有单一的时间跨度,而是存在着许多不同的时间跨度。我们构建的一些交易系统和进行的某些交易,为了保持竞争力,你实际上必须在 100 纳秒以内处理并返回一个数据包。这是一个完全不同的技术范畴,对吧?
人们有时会讨论,比如:"哦,你们能用 OCaml 编写高性能的东西吗?"我们的回答是:"我们可以。但对于这种级别的速度,不管你是用 OCaml、Rust 还是 C++ 编写都不重要,因为你根本无法使用 CPU。你必须使用 FPGA,它直接通过导线连接到网络上。你返回数据包的速度非常快,如果你在输入和输出的导线上连接一个示波器,你会看到数据包在被完全接收完之前,就已经开始从输出端发出去了。"
所以这是一个非常不同、非常特殊的领域。但是,当你处于这个时间领域时,你实际上无法进行太多的计算,你所做的决策将会非常简单。事实上,在决策的"聪明程度"(无论是模型还是其他某种甚至是手写的决策过程)与"返回速度"之间,存在着一条完整的权衡曲线。
而构建最佳交易策略的正确方法,实际上是采用一种集成(ensemble)方法。对于某些类型的决策,你会非常迅速地做出非常简单的决策;对于某些类型的决策,你的运作规模可能是——不再是考虑 100 纳秒,也许是几微秒、几十微秒、几百微秒或毫秒;而在某些情况下,有些流程如果能在半小时或当天内完成决策返回,那也完全没问题,在这些时间跨度上,你在时间基础上同样具有竞争力。但在所有这些不同的时间跨度上,你所做的决策类型是完全不同的。
也许你不便透露,但这些模型究竟在预测什么?肯定不只是订单簿(order book)中的下一个变动吧,或者也许就是?
我们现在显然是在触及一些很难公开谈论的话题。但我认为最简单也最重要的一个,也是我们一直在思考的——不仅是现在在想,25 年前我刚加入 Jane Street、用线性回归等工具构建模型时就在想——一个非常有用、非常经典的事情就是预测某样东西的公允价值(fair value)。比如,我们认为这个东西真正值多少钱?这能够以一种非常可组合的方式融入到许多不同的交易流程中。这并不是我们作为预测目标的唯一一类事物,但它是一个很重要的目标。
有一阵子,我感觉有一种关于交易公司在做什么的梗(meme),那就是:你必须搞定服务器托管(colo),搬到纳斯达克交易所所在的地方,你的机器必须紧挨着那儿,这非常重要。
在不深入讨论我们把什么东西放在哪里的具体细节的前提下,你的推理(inference)过程可能在 CPU 上,可能在 FPGA 上,也可能在 GPU 上,这取决于你需要多少计算量、模型有多大、需要怎样的延迟返回等约束条件。
是的,更大、更慢的东西,你可以把它放得更远一些。把所有的计算设备都紧挨着交易所放置是很令人头疼的。而对于那些真正极其快速的事物,仅仅待在托管机房里是不够的,你甚至会关心通往那里的线缆线圈有多长——在那种极低的纳秒级别下,你真的需要去测量光纤布线的长度。但总的来说,更大的模型在它们物理放置的位置上给你带来了大得多的灵活性。
Dan:
如果我们把 GPU 放在交易所旁边的这些托管设施中,现在你必须遵守他们的规则,你懂吧,是谁作为服务商为你提供那个空间。此外,你的电力、冷却,所有这些约束条件现在可能都比你自己设计和运营的设施要稍微更紧俏一些。所以,你现在必须想出一些办法,比如:"嘿,可能一个机架里我只能放一个 GPU,因为它消耗太多电了,所以我必须把它分散开来,而不是能够在一个机架里实现高效的液冷。"所以随着我们的计算需求不断增长,这些都是我们需要考虑的事情。
你们最近与 CoreWeave(译注:速记错录为 core reef)签署了一项价值 60 亿美元的计算协议。嗯,你们打算用它来做什么?
AI 世界的其他领域有规模定律(scaling laws),我们也有我们的规模定律,有很多模型我们都想训练。我认为我们与那些更传统的 AI 实验室之间有趣且可能不同的一点在于,我们模型架构的多样性以及我们正在进行的实验数量。因此,你从中获得的大部分价值就在于,大家在模型设计中尝试了大量非常不同的新事物,给研究人员提供了更快的迭代时间,让他们能够发现更多的想法并推动更多的创新,这被证明是极其重要的。
在那些基础模型实验室的情况下,训练一个能够做所有事情的、完全通用的单一模型是有好处的,而不是构建一堆定制的不同模型。你能让我了解一下,为什么在 Jane Street 会有不同的权衡取舍吗?
对我们来说,某些专门化是为了能够适应和消耗正确的数据类型,对吧?我们可以喂进去的潜在数据源非常多。比如我们在需要达到的数据速率上存在许多差异。
另一个让我们需要对所做的工作进行某些专门化的因素是,整体的推理和交易动态都因"字节与浮点运算比率"(bytes to flop ratio)的不同而变得截然不同。我们用来训练模型的数据量要大得多,但就单字节而言,这些信息量却比较少,因为金融数据噪声(noise)非常大。是的。因此,模型往往更小,而数据往往噪声更大、噪声更多,且数据量要大得多。
另外,我们针对不同应用构建的不同模型之间也是不一样的,对吧?当我们试图找出"我们该如何利用我们获得的更多信息"时,就会涉及到各种决策,从"我们如何高效地存储和加载数据",到"我们如何塑造模型",再到"我们如何让推理过程具备它所需的吞吐量和延迟"。这其中会有一整套截然不同的权衡。因此,去理清这些并为不同的应用挑选出最佳方案,是非常有价值的。
那你们的推理(inference)工作负载实际上是怎样的,或者说,它与传统的那些做大语言模型聊天机器人的大公司相比如何?
大体上说,正如你所预料的,延迟更为关键。批处理(batching)仍然是一个问题,取决于你所做的模型,你可能会有针对你所观察的不同交易代码(symbols)进行解耦/分散(disaggregated)的模型或模型的一部分。因此,从多个数据源拉取数据并将其打包批处理在一起同样会产生影响。
我认为另一个有趣的点是,数据速率真的非常高。在大型大语言模型实验室里,你从所有不同用户那里获得的总体(聚合)数据速率也很高,但你从任何单一用户那里获得的序列数据量(sequential data)并不大;而当你拉取的数据是来自纳斯达克行情馈送(NASDAQ feed)的字节时,天哪,在单一领域内需要以因果前后相继的方式进行序列化消耗的数据速率极高。所以再次强调,这里的动态发生了改变。不过我认为,很多类似的基础工程问题其实大同小异,只是所有的常量都被微调到了不同的位置,因此你最终做出了不同的选择。
这意味着在你们必须如何设计这些系统方面,无论是从存储还是其他方面来看,有什么具体体现?
是的,我认为与你通常看到的相比,我们对数据加载性能的关注度更高。我想我们正在做大量工作来构建我们自己的大规模数据存储系统,我们自己的内部对象存储(object store)。我们之前使用过各种供应商的产品,但随着时间的推移,我认为对于其中一些以研究为导向的用例,我们需要在更大的规模下运行,还需要应对数据中心的多样性。
对吧?这不太是一个推理时的问题,而更多是一个训练时的问题——也就是说,我们就是无法在同一个地方获得我们想要的所有计算资源。我不知道,我觉得总的来说,有效运营一个技术组织的一个重要诀窍就是去弄清楚你可以走哪些捷径。
我们多年来很幸运能够走的一个捷径是,我们可以假装这个星球上只有一种 CPU 架构,比如所有东西都是针对 x86_64 的,我们假装其他任何东西都不存在,这简化了许多事情。我们还曾拥有一个大型的研究数据中心和一个大型的存储集群,这也极大地简化了许多事情。
而实际上,这两点现在都已被打破了。比如,你就是无法获得那么大的电力,你无法在同一个数据中心里接入足够多的电力引入(译注:此处 Yaron 幽默地用了"thunderbolts/雷电"一词指代极高电力)来为你所需的所有事物供电,你需要把数据中心建在世界各地。所以这里存在一个巨大的去中心化/分散(disaggregation)问题,这也给你带来了一个难题,比如:哦,现在你必须考虑让你的计算调度和存储调度紧密交织在一起。而且有海量的数据,因此在它们之间移动这些数据绝非易事。
另外,我们也不得不放弃"仅限 x86"的做法,因为英伟达推出了一系列酷炫的新产品,这意味着你现在必须支持 ARM 架构了。
放大视角,我想问一个非常天真的问题。可能会有一种天真的看法,认为如果你拥有了通用人工智能(AGI),它就能立刻做 Jane Street 所做的事情。请让我了解一下,为什么这种天真的看法是天真的?
是的,我不想完全否定它。确实有这样一种世界景象是我们需要认真对待的:也就是我们将构建出大语言模型或其他人工智能系统,它们在严格意义上比地球上的所有人类都更聪明,在所有认知任务上都更有能力。是的,那将会很不可思议,那将是一种完全不同的状态。在那种情况下,确实,Jane Street 所做的很大一部分事情可能会被自动化取代,也许我们大家都会坐享其成,多喝点玛格丽特鸡尾酒之类的,我不知道那个世界会是什么样子。但感觉我们现在距离那个阶段还不是特别近。
我认为总的来说,人们很容易低估这项工作的丰富性和复杂性,不仅是像 Jane Street 这样的公司所做的工作,实际上在任何真正有野心、高难度的公司级任务中都是如此。我尤其觉得,交易对我来说有点像"AGI 完全"(AGI-complete)问题,类似于"NP 完全"(NP-complete)问题。
这意味着世界上所有不同的问题最终都会在交易背景下影响你正在做的事情,因为归根结底,交易涉及弄清楚事物的价值,这意味着对未来做出预测,而许多不同的事情都会汇入其中。随着其中的各个部分被逐渐自动化,你就会遇到常见的情况:那些我们还不知道如何很好地自动化的其他困难部分,最终成为了竞争优势之所在。
我觉得人类和人类的认知比以往任何时候都更有价值。我从来没有像今天这样迫切地想要招聘更多的工程师和交易员,因为人们所做的每一件事都比过去更有价值。我的意思是,这在一定程度上是因为我持有一些怀疑态度,不认为我们距离在所有事情上都比人类聪明的模型像某些人想象的那么近。
也许这涉及到物理基础设施,比如实际搞定托管机房;也许实际上是你们构建的软件基础设施。能让我了解一下到底是什么东西会……
是的,我们构建了各种各样极其复杂的软件,让人们去思考许多不同的交易问题,其中一些问题根本不怎么电子化。这个业务的多样性远比人们以为的要丰富得多。有一种想法是:"哦,对,那肯定是一件很简单的事,你只要有一群聪明的人,他们做出聪明的决策,写出优质的软件就行了。如果我们能把聪明这部分自动化,那就万事大吉了。"但我认为事情要比这复杂得多。
你所说的交易中"非电子化"的部分是指什么?
我的意思是,现在仍然有通过聊天工具在人与人之间进行沟通、共同决策并完成的交易。比如有人会去评估电话那头的人代表了多大程度的逆向选择(adverse selection),这依然是业务中非常真实的一部分。
你知道,就是有不同种类的证券需要更长的时间才能实现更高程度的自动化。例如,债券业务的自动化程度就远不及你在股票业务中看到的水平。实际上,我们对此也有点困惑。我认为我们这些在行业里待了一段时间的人,虽然我开始得有点晚,没能真正见证股票走向电子化的转型过程,但那些比我关注得早一点的人会觉得:"行吧,我猜其他所有领域接下来也会这样。"
然而,你懂的,已经过去了 25 到 30 年,并不是所有事情都走向了那个方向。虽然我们现在已经不怎么看到有很多人站在交易所大厅里了,但依然有大量的交易深度依赖于人类以及人类的判断作为中介。
说到这个,在模型和交易决策之间,人类参与(humans-in-the-loop)的程度有多高?
你们许多最赚钱的日子往往发生在一些奇怪的事情发生、出现重大事件、世界变得疯狂、没人知道发生了什么的时候。在那些情况下提供流动性往往极其困难,所以你为此获得的报酬也更高,而且在那些日子里通常会有巨大的交易量。要把这些做好,往往需要人类的判断力,去思考"今天与以往所有日子有什么不同?"
虽然在可能的范围内,我们希望构建能够很好应对相变(phase transitions)的模型,但我们也认为,人类在应对相变时比模型表现得更好,有时你需要这种元判断(meta judgment)来决定该怎么做。因此,即使对于高度自动化的系统,也需要负责监控的人员做出决策,而我们始终都有人在进行监控,对吧?我认为交易中一个重要的部分是在交易日内去关注和思考正在发生的事情,即使个别交易的发生速度远远快到人类无法在单笔交易的基础上进行干预。
Dan,在你从事这类建筑(数据中心)工作的过去 20 年里,最显著的变化是什么?
是啊,人们现在居然真的开始关心数据中心了,并且想要聊聊它。你知道,我做冷却系统已经有一段时间了,现在突然之间大家都开始讨论它,觉得它很有趣。所以这挺好玩的,很让人兴奋,我想我团队里的人也有同感。
有些在数据中心行业干了 20 年的人,仍然想用过去的方式去做事,但我认为这种老方法现在正在被淘汰。你会发现大家正在挑战以前的观念,比如:"嘿,我的整个数据中心都有发电机作为后备电源,但发电机是你能买到的交货周期(lead time)最长的设备之一。所以也许我们把它们拿掉,只把发电机用于需要这种弹性的系统核心部分。这能让我们的 GPU 提早六个月上线,那就干吧!"所以,你知道,有些事情也许从纯工程角度看不是最好的决定,但它绝对是最好的业务决定。我觉得类似这样的事情正在越来越多地出现。
感觉每年人们在扩大 AI 计算规模时遇到的瓶颈都在发生变化。在你们进行更多谈判并试图获取更多计算资源的过程中,抛开计算、内存和所有那些好玩的东西不谈,目前的瓶颈是什么?你预计未来的瓶颈会是什么?
发电机、变压器,还有一些目前用于液冷的冷却设备,需求量都非常大。而且它变化得很快,我今天告诉你的情况,两周后肯定就不一样了。
我们做的一件事是,与内部的采购团队非常紧密地合作,去囤积其中的一些物资。对于那些我们知道在所有数据中心之间都可以通用的物资,我们会进行仓储并随时准备使用。但像发电机这样的部件,你不可能把一个巨大的发电机放进普通的仓库里;或者,例如如果你在做像涡轮机(turbine)这样"表后"(behind-the-meter)的项目,你就必须对这些市场多做一些思考——你从哪里获取它们,在何处进行安置,你不能随随便便把它们搁在一边。
所以,我认为紧缺的部件肯定是会变化的,刚才提到的就是其中一些大件。而且,随着我们的密度越来越高,一个希望是建筑可以变得稍微小一点,也许我们能够更快地把建筑盖好,把所有的计算资源紧凑地捆绑在一起,然后周围的所有基础设施可能都是预制好并运送到现场的。没错,模块化数据中心或模块化基础设施正在变得越来越普遍,这些组件(尤其是那些长交货周期的组件)在场外进行设计和建造,然后运到现场,尽可能地接近"即插即用"(plug-and-play)。
你之前提到的一个观点是,随着机架本身的密度越来越高,数据中心里越来越多的部分其实是围绕实际机架周围的基础设施。这实际上有点类似于芯片上的封装(package),对吧?或者说封装上的芯片。计算核心只占整个封装总面积的极小一部分。
是的,这很有意思。我的意思是,这本身并不能解决任何问题,反而可能会带来其他问题,当然。比如,当你达到单机架 1 兆瓦(megawatt)的水平时,大家会问:"单机架 1 兆瓦到底是什么概念?"你接入那里的冷却管道只会变得越来越粗。而且,无论我们现在使用的是交流电(AC),还是未来的趋势——800 伏直流电(DC),你仍然必须把所有这些组件带到同一个地方。
从我们的角度来看,有趣的一点是,虽然我们可以设计这些工程上的东西,但归根结底,无论是英伟达、定制芯片(ASIC)公司还是其他任何人,他们都必须销售能够在数据中心运行的组件,而且他们也在非常认真地思考他们要卖什么,因为你需要人们能够用得上它,对吧?如果你建造了一个 1 兆瓦的数据中心或 1 兆瓦的机架,但却没有办法为其供电和冷却,那就毫无用处。所以我们正在与该领域的几乎所有人开展非常紧密的合作,去思考你需要哪些组件才能支持这些下一代产品。因为你所说的交货周期有时会超过一年,而你往往是在为芯片下订单之前就得对基础设施做出决定。
所以,比如你得尝试……你知道谷歌的 TPU,它们使用温度更低的水,而且它们的密度只有英伟达 NVL72(译注:此处速记错录为 NBL72 GP300,实际结合上下文应为英伟达的 NVL72 架构配 GB200 芯片)的一半。对吧?所以这需要不同的策略,而你必须确保未来能够兼容处理这些设备。
超大规模云服务商(hyperscalers)之所以能够承诺投入海量的计算资源,原因之一是他们对闲置计算资源有一些"备用用途"(reserve use),可以在特定时间不用于大语言模型训练或推理时派上用场。例如,像 Meta 这样的公司,如果他们买的某些 GPU 没在用,他们可以直接说:"我们今天就把 Instagram 的广告投放模型做得稍微好一点。"那么对于 Jane Street 来说,有什么对等的计算资源备用用途吗?这可以说是这些计算资源对你们价值的底线。
部分原因在于,我们在很多方面其实面临着非常严重的计算资源受限。人们拥有的大量创新、实验和新想法都受限于我们所拥有的计算量。所以从某种意义上说,如果我们稍微严格地去评估一下我们能够运行的那些不同新任务的价值,会发现那些我们不得不拒绝的任务的价值实际上是非常高的。对吧?所以我们正在做我们认为最有价值的事情,但如果事实证明我们拥有的计算资源超出了这些任务所需,那么在那个领域还有海量的其他研究和实验可以做。所以我们还远远没有到说"噢,计算资源太多了"的地步,我们反而是遇到了相反的问题。
我认为在这个方向上也有很多"低垂的果实"(low-hanging fruit,容易实现的成果),比如更频繁地重新训练模型就是很有价值的。随着时间的推移,模型的质量会有所衰退,而能够重新运行它们——这对公司具有直接且明确的价值。此外,我们还可以执行一定数量的大量(bulk)推理任务,当系统中没有其他可调度的任务时,可以用它们来填补空白。因此,我们并没有完全类似于 Instagram 广告投放那样的应用,但确实存在一大片"盲区/未知空间(dark space)",即那些我们没在做、但如果有了更多计算资源就会去做的事情。所以我们非常不担心无法从这些设备中榨取价值。
这里面确实有一系列的隐性下注(embedded bets),比如我们正在这些东西上投入巨资,你可以想象,有些事情的发展速度可能不会像我们预期的那么快,比如我们正在运行的各个模型和交易所产生的价值;而且这是一个竞争激烈的环境,也许其他人会击败我们。我认为保持优秀的要素之一,就是始终对竞争对手可能摸索出与你类似的做法并降低你的业务价值而感到紧张。所以,确实有可能出现一些并不顺利的情况。但显然,以我们目前现有的计算任务组合来看,我们距离遇到"算力过剩"这个问题还非常遥远。
这很有意思,虽然这没有完全回答问题,但你可以把"为数据中心供电"与"购买芯片"剥离开来,然后说:"好吧,我以后可能会需要使用这些计算资源,让我现在先锁定数据中心和电力资源,但推迟对非常昂贵的芯片做出采购决策。"对吧?在那个你可能需要计算资源的时间节点上,先让自己处于电力和数据中心容量稍微"做多"(long,充裕)的状态。然后我们可以设计一些机制,比如:嘿,也许我们可以把其中一部分容量分流(offload)给其他人。出于显而易见的原因,对我们来说,分流电力和数据中心容量要比分流芯片本身容易得多,但你确实可以将这两者清晰地一分为二。
这也改变了关于招聘的考量。我是说,你们招聘的门槛已经高到极致了,但这会让它进一步提高。如果你多招一个人,那这个人就需要计算资源来做实验,而这部分计算资源将不得不与你团队中其他同样优秀、本可以自己做实验的人进行权衡和取舍。
我明白你的意思,但我们不会去想:"噢,再招更多研究人员会很奇怪,因为那样我们就必须给他们更多的计算资源。"相反,我们的逻辑是:研究本身极其有价值,研究人员也极其有价值,这反而是购买更多计算资源的一个绝佳理由。
因此,我们非常有动力去扩大计算规模。比如目前,我们的 GPU 数量大约在几万张的范围内,而在不久的将来,我们将达到几十万张 GPU 的规模。我们认为这完全可以由业务效益来证明其合理性。你知道,这并不是说我们会在那里担心:"哦,我们能不能根据交易策略的损益(P&L)来证明它的合理性呢?"不,不,不,这显然是很好的投资。所以在招聘方面,这并不会让我们放慢脚步。
在某些方面,增长的最大阻碍在于需要时间去真正培训新人、让他们融入我们的文化、伴随他们成长并共同建设这个地方。我们希望 Jane Street 继续成为一个伟大的工作场所。我完全不认为硬件问题是阻碍我们发展的因素,我认为真正的限制因素是寻找优秀的人才,以及我们对他们的导师辅导能力(mentorship capacity)。
我猜这可能是一个很好的机会,让你们提一下你们目前正在招聘哪些类型的职位?
天哪,那 Dan,你要不要先从工程领域开始聊聊?
好的,我先来。我的意思是,总的来说,我们就是在寻找非常聪明、对做这些事情感兴趣的人。这包括机械工程师、电气工程师、项目经理、建筑师——也就是帮助设计和建造其中一些空间的人。你知道,我团队的职责实际上是寻找这些空间、进行设计、建造,然后去运营它们,这是一个全生命周期(full life cycle)。所以在每个阶段你都需要人才。你需要很多工程师,很多我们称之为"物理工程"(physical engineering)领域的人,这是我们自己发明的一个词。但具体来说就是机械工程师、结构工程师,可能还有电气工程师这类人才。
而且机器学习和整个交易行业其实非常像一项团队运动,所以我们希望招聘来自许多不同背景、拥有许多不同能力的人才。我们当然非常兴奋能招到一些拥有特定机器学习背景的人,比如从事架构设计和在各种情况下构建模型的人。就像我提到的,我们针对自己特有的、市场特征所需的数据,拥有一大堆定制的架构等。此外,我们也构建大语言模型(LLM),我们对在 LLM 训练生命周期的各个阶段有经验的人都非常感兴趣,并且一直在扩大这个领域的规模。
你知道,我们招募了大量拥有良好科学和技术背景的人——比如数学、计算机科学(CS)、物理、工程等专业——来做交易员。这需要一种综合性的技能。但这是我们持续非常兴奋去招人的一个领域。
在软件工程方面,有一个通用的软件工程师职位,我们总是渴望招到优秀的人才。我觉得这能带来很好的回报。虽然说起来有点傻,但正如 Dan 所说,聪明、充满好奇心且拥有极佳计算机科学背景的人,非常适合这个通用职位的角色,他们最终可以做很多不同类型的事情。
还有许多有趣的专业领域也让我们非常兴奋,例如有件相当新的事情:随着如今算力规模的发展,我们对全集群/全舰队范围的优化(fleet-wide optimization)比过去感兴趣得多。我们以前对性能优化的看法是,它更多是关于让那些对速度最关键(speed-critical)的部分尽可能地快,而更普遍的情况是,算力挺便宜的,而人力很贵,所以我们并不会花太多时间去优化我们的通用计算。但是,天哪,我们现在正在进行海量的通用计算,当你开始在这个领域投资数十亿美元时,优化就变得更有价值了。有些人曾在某些超大规模云服务商(hyperscalers)那里有过这方面的经验,我们非常希望招到更多具有这种背景的人,来思考我们正在遇到的优化问题。这些问题有相通之处,但在重要方面又有所不同,所以这既是一个相关的挑战,也是一个新的挑战。
另外,我们还做许多有趣的硬件工程工作,比如设计我们自己的定制芯片(ASICs),拥有这种经验的人同样让我们感到超级兴奋。
还有一件事,我们刚才吃午饭时提到过,我们开始考虑建立一个形式化方法(formal methods)团队,基本上是利用数学证明来让软件工程变得更有效率。这是一个非常新、极具探索性(speculative)的领域,我们非常兴奋能在那里找到人才。我觉得这是一整个群体的人,在过去我总不得不让他们失望,对他们说:"是的,我们对形式化方法不感兴趣。"但由于整个人工智能革命,形式化方法突然变成了一个有趣得多的领域,所以这是我们很兴奋去投资的地方。
另外,我也不知道,比如项目经理、做前端开发(front-end dev)的人。事实上,在 Jane Street 的大部分发展历程中,我们都假装这整套 Web 网页技术从未发生过,我们几乎所有的工具都只是在终端(terminal)里运行。但事实证明,如果能画一条直线,或者有一个工具提示(tool tip)之类的内容,是非常有用的。所以我们实际上投入了大量资源来构建非常出色的前端开发工具,并为人们打造工具。拥有杰出的前端工程师——他们既是优秀的软件工程师,又对"如何制作一款对用户友好的应用"有很好的理解——这是非常重要的。
关于所有这些,我想说一个总体的、更高维度的观点(meta point):我认为,在当前围绕 AI 工具的所有合理且真实的兴奋中,人们有时会忽视这一切当中"人的因素"(human element)的重要性。我们真的非常看重构建对人类有益的工具,这也包括 AI 工具本身,对吧?我认为,以一种能够提高人类理解力、能动性(agency)和效率的方式去推动工具的发展,才是最核心的事情。限制我们发展的最主要因素,莫过于在这里工作的杰出人才,以及能否找到更多合适的人并扩大组织规模,从而让我们能做更多的事情。因此,在思考我们所构建的系统时,我们采用了一种非常以人为本(human-oriented)的方式。
看你们制作这些有趣的谜题和挑战真的很酷。我认为你们平时就在这么做,而且你们还专门为我们播客的听众制作了几个。我觉得在听这期内容的听众可能会对去看看这些谜题很感兴趣。顺便说一句,其中有一个谜题,不仅提交参加竞赛的人里没有一个能解出来,连 Jane Street 自己也解不出来。那个谜题涉及寻找各种内置了触发词(trigger phrase)的大语言模型的后门。不管怎么说,我提到这一点是因为,如果大家有兴趣深入了解,我认为这些有趣的谜题可能会在一定程度上展现出在这里工作是什么样子的,以及为什么这里是一个有趣的地方。
是的,谜题是我们文化中根深蒂固的一部分,所以用它们作为一种与大家建立联系的方式真的很棒。
太好了,感谢两位参与这次对话。
Yaron & Dan: 非常感谢,我们的荣幸。


登录后才可以发布评论哦
打开小程序可以发布评论哦