设想一个 AI 代理正在执行一项耗时两周的网上调研,它需要等待多个外部接口的响应。传统推理模式下,GPU 会一直空转,每分钟都在烧钱。而在一种新架构里,代理在 " 发呆 " 的间隙被直接挂起,直到数据返回再唤醒完成下一步。靠这种设计,推理成本压到了竞争产品的十分之一。推出这套方案的初创公司 Sail Research 今日宣布,已完成 8000 万美元融资,公司估值达到 4.5 亿美元。
该轮融资的大头来自红杉资本领投的 A 轮,更早的种子轮由凯鹏华盈牵头。值得注意的是,英特尔 CEO 陈立武、Alphabet 董事长约翰 · 亨尼斯,以及红点创投等也出现在股东名单中。联合创始人兼 CEO 尼尔 · 莫瓦在一篇博客中解释了背后的逻辑:" 与坐在键盘前的人类不同,人类要的是速度,而 AI 代理需要的是规模、可靠性和可持续的成本。"

莫瓦进一步点出,Sail Research 在技术栈的每一个层面都在死磕效率:" 我们精心挑选芯片,编写定制推理引擎,部署了一套全局控制器来榨干舰队中每一台计算机。" 这套自研推理引擎以多个开源项目为基础做了深度定制,专门优化长周期代理的资源消耗。其中涉及的一个关键技术是页面注意力算法(PagedAttention),它让模型更充分地利用显卡的内置内存来加速推理,这也在流行引擎 vLLM 中得到了成功验证。
底层算力跑在名为 Sailboxes 的 Linux 虚拟机上。开发者可以通过灌入包含软件模块和配置设定在内的镜像来定制每一台虚拟机,还能把多台 Sailboxes 连接起来,组成一个代理集群。正是这种灵活的编排能力,让代理能被人为分解成一系列小步骤依次执行,而每当遇上需要外部系统慢速返回数据的环节,平台就关闭代理等待,基础设施成本由此大幅压缩。
融资发布前,Sail Research 用一项名为 BrowseComp-Plus 的基准跑了一遍自己的平台。这个测试专为衡量 AI 代理处理复杂、耗时的在线研究任务的能力而设计。结果显示,Sail Research 平台创下了 90.72% 的新纪录,而推理成本只有对手的一成。长周期任务的高效低耗,用这组数字得到了直观验证。
按照公司规划,新到账的 8000 万美元将被全部投入推理基础设施的继续强化。在 AI 代理逐渐从 " 秒级对话 " 走向 " 周级自动任务 " 的转折点上,如何让它们跑得更久、花得更少,正在成为竞争的新分水岭。


登录后才可以发布评论哦
打开小程序可以发布评论哦