
出品|虎嗅科技组
作者|韦雯
编辑|苗正卿
头图|Tiiny AI 提供
" 我们没想到端侧 AI 会火的这么快。"
3 月末,Tiiny AI 副总裁兼商业化负责人 Eco Lee 向虎嗅复盘了这款在 Kickstarter 上迅速爆火的项目时感慨道。
3 月中旬,Tiiny AI Pocket Lab 小盒子在 Kickstarter 上线,售价 1399 美金起,上线仅 5 小时众筹突破 100 万美元。上一次在该平台跑出同等速度的,还是 2022 年的拓竹 Bambu Lab X1。短短四年间,拓竹已经是营收百亿的独角兽公司。截至发稿日,Tiiny AI 项目已经众筹 295 万美元,拥有 2093 名支持者。
有意思的点是,AI PC 市场尚未成熟之前,这个外接盒子先火了。
笔者认为用户买单的核心原因是,针对搭建本地 AI 助手的需求,Tiiny AI Pocket Lab 给了一个简单、直接的解决办法。当用户认为额外单独买一台 AI PC 太贵,部署大模型太麻烦,依赖云端不够私密,算力又需要每月计算 token 的时候。它不负责用户的日常办公、不负责娱乐,只是一个负责 AI 需求的外接盒子。
这有些类似,当于我们的电脑、手机内存不够,额外买一个移动硬盘的逻辑。Tiiny AI 这款产品不做通用计算,只做 100B 级别模型本地推理,解决了用户离线隐私、一键部署、本地算力的三个最重要的需求。但这个答案究竟是新品类,还是当下时代的补丁产品,现在还不能下定论。
想拥有 Jarvis,却找不到合适的硬件
众筹火爆之下,Eco 几乎每周都能收到 20 家投资机构邀约。
虎嗅获悉,Tiiny AI 背后公司国内主体为本智激活,孵化自上海交通大学并行与分布式系统研究所(IPADS)。2025 年完成数千万人民币种子轮融资,由光启资本领投、BV 百度风投、光源 L2F 创业者基金跟投。团队 2024 年在 GitHub 上的 PowerInfer(推理加速引擎)开源项目得到了 9100 个 star。Tiiny AI 项目正是从这个明星项目孵化而来。

截图自 GitHub 官网
为什么 Tiiny AI Pocket Lab 会在这个时间节点火爆?不得不提及的是近期的 " 龙虾热 "。OpenClaw 等开源项目的火爆,Ollama 下载量的暴增,都在表明,火爆的 Jarvis 需求和消费者能买到的合适的硬件产品中间,存在着一条市场缝隙。
在漫威电影《钢铁侠》中,托尼 · 斯塔克有一个无所不能的 AI 助手 Jarvis。它能对话,控制整栋别墅的设备,处理海量信息,还能辅助完成最复杂的技术工作。现在来看,无论是企业级用户,还是极客玩家、专业用户,甚至部分大众用户,都在搭建属于自己的 "Jarvis"。
Eco Lee 向虎嗅表示,Tiiny AI 的团队看到了这一需求(Local AI)的爆发,所以决定下场做一款硬件产品。
具体而言,这款硬件产品猜中三个重要的市场缝隙,并同时指向共同的用户痛点:云端成本和隐私焦虑;少折腾、低成本的本地 AI 入口。
首先,云端 API 足够方便,但长期成本和隐私是问题。许多的金融、法律、科研从业者等职业用户的隐私和敏感数据无法上云。他们强依赖网络环境,但 Agent 连续工作场景不稳定,因此对 Local AI 的需求十分强烈。
其次,AI PC 越来越普及,但并不是专门服务本地大模型的设备。
比方说极客用户需求已经出现,但现有方案太别扭。他们已经有一台高性能电脑,既要处理日常任务又要运行大模型。电脑的内存和算力被大量占用,即便搭载了 AMD 锐龙 AI Max 395 处理器、64GB 内存(国内售价 14999-17499 元),如果运行了大模型,打开网页都是一件困难的事情。他们需要额外一台专门为本地大模型推理服务的设备,让主力电脑回归自己的主业。
再者,树莓派和 Jetson 虽然也能跑起来,但是离消费级体验还有一段距离。
譬如一些已经依赖 AI 助手的用户关注持续 token 消耗能力以及长本文积累能力,已经尝试了树莓派,但是算力严重不足,能跑卷积模型(主要用于图像识别等任务的神经网络模型),但跑大模型基本不可用;使用过专为边缘计算设计的 NVIDIA Jetson 系列,但高性能如 64GB 版的 AGX Orin,开发板本身在美国市场官方定价为 1999 美元,国内商城报价约 17599 元人民币,还需要自己额外买 SSD 存储,价格十分高昂。
综合来看,具备一定的算力和内存、一键部署本地模型、还需要有性价比的 Agent Box,才能满足当下用户群体的急切需求。
因此,Tiiny AI 做了减法,Eco Lee 向虎嗅表示,Pocket Lab 只运行本地 LLM,系统完全为 AI 推理服务,不去预装任何 macOS、Linux 或 Windows 等传统操作系统。但同时,在算力上做加法,Pocket Lab 的参数能够媲美 AI PC。官方参数 190TOPS(INT8)AI 峰值算力,已达到当前主流桌面级专业 AI 显卡的性能水平。
在操作简易性方面,Tiiny AI Pocket Lab 能够一键下载并运行 100B 以下所有主流开源模型及各类开源 AI 应用。无论手头的电脑是 Mac、Windows 还是自组台式机,只需插入 Tiiny 设备,下载 Tiiny OS 客户端就可以使用。
换句话说,Tiiny AI 的这款产品并不与与 AI PC、Mac mini 等产品直接竞争。它抢到的是产品类目的真空地带,它不是电脑,仅提供了一个类似移动硬盘的外接接口,先针对性高敏感数据用户和高频 Agent 玩家的本地 AI 需求。这更像是一个个人 AI 工作站(类 Jarvis)的早期雏形。
Tiiny AI 这款产品聪明之处在于,它将一个 AI 算力硬件包装成了消费级产品。让用户好理解,100B,即插即用。也因此,让用户减少购买决策时间。
在这背后,Tiiny AI 团队在技术上的核心思考是:什么样的模型能力才能真正满足这些核心用户的使用场景?
10B 以下的模型价值有限,最多做本地信息检索、短字符汇总,能力大致相当于初高中生水平;30B-70B 模型(如 Llama-3-70B、Qwen-30B)能胜任每日数据分析汇总,甚至简单代码生成;70B 级别模型能力介于大学生与研究生之间,可进行长文本创作、深度调查,并且已经具备了逻辑推理,工具调用的能力,可执行 24 小时不间断运行的 Agent 任务。而 300B 以上模型,目前仍需依赖云端算力。
所以 Tiiny AI 选择了 " 让 100B 级别的模型在本地运行 " 为这款产品的核心目标。主要原因是,100B 参数参考了 GPT-OS 120B,这是 OpenAI 推出的第一款开源权重模型,其 benchmark 表现与闭源的 GPT-4o 相当。行业普遍认为,GPT-4o 开始,AI 才真正具备了解决实际问题的能力。
从商业化角度考虑,没有那么多用户有预算购买 4090 或 5090 这类售价高达几万块的高端显卡。因此,Tiiny AI 需要用价格尽可能低的硬件资源,运行这样大的模型。
解法并非直接采购 Nvidia 或 AMD 的芯片适配已有的 infra 生态。这涉及到 Tiiny AI 最核心的技术 PowerInfer,一个面向端侧异构算力的推理加速引擎。
简单来说。PowerInfer 技术是在大模型推理过程中,将不同的参数用不同的芯片存储、调用。参数激活模式会分为两类:" 热激活参数 "(每次与模型交互都会调用的核心参数,约占 20%)和 " 冷激活参数 "(仅在用户问到医学、法律等特定领域问题时激活)。这种冷热激活的特性,恰好适合在端侧异构算力架构下优化分配。
其中,GPU(图形处理器)算力强、速度快,但成本高、功耗大;而 CPU(即系统级芯片 SoC 中的通用计算单元)算力相对较弱,但功耗和硬件要求更低。Tiiny 的策略是将冷激活参数放在 SoC(Armv9.2 CPU+NPU 30TOPS)中处理,将热激活参数放在 dNPU(160TOPS)中处理。Tiiny AI 采用的 dNPU 是专门为 Transformer 架构设计的 ASIC(专用集成电路),去除了图形渲染等无关电路,专为大模型推理优化。

虎嗅获悉一组实测数据:120B 模型下,prefill(预填充阶段,即 AI" 思考 ")速度可达 300 tokens/s,decoding (解码输出阶段,即 AI" 说话 ")跑到 20tokens/s;35B 模型下,prefill 约 2000 tokens/s,decoding 可达 45 tokens/s。作为参照,人类阅读速度仅 8-12token/s。从参数表现来看,这套方案已能媲美高端 AI 工作站的运行效率。
这套方案的核心逻辑是软件调度优于硬件堆料,聪明的软件,能够弥补硬件的不足。Eco Lee 解释,这些属于 AI Infra 层面的技术积累。从芯片层到 Agent 调度层,再到模型训练层,都需要深厚的 knowhow 支撑。相比软件实力,硬件在这个赛道已经不算门槛。
当功耗变小,它的体积自然变小。但是 30W 的 TDP 对于 300g 的金属机身来说,通常需要小型风扇进行主动散热;如果是纯被动散热,表面温度可能会超过 60 ℃,导致长期使用烫手。对此,Tiiny AI 在众筹界面解释,专门定制了薄至 1.0mm VC 125*45mm + 双胞胎风扇,其 FIN 与 FAN 是搭接一体化设计,更利于解决局域化散热,静音(35db 以内)。
从下图可以看到 Tiiny 这款产品中增加了匀热片配合散热模组一同进行风冷散热。不过目前虎嗅也尚未接触产品实物,尚不清楚其具体表现。

一些质疑声
在这些参数背后,笔者注意到,海外行业观察者从传统 dense 模型和单一算力指标的角度提出疑问:
例如,Tiiny 宣传 "120B 大模型 ",但该模型实际为 MoE 架构,每个 token 仅激活约 51 亿参数。严格来说,这与 " 运行 1200 亿参数模型 " 的技术含义存在距离;其次,关于算力宣传,190TOPS 的 AI 算力,可能是将 NPU、GPU 等不同计算单元的理论峰值简单相加得出的,不同架构的算力不宜直接累加对外宣传。
当然,这些问题仅仅涉及 MoE、异构计算的市场营销表述层面,这类表述已经成为行业惯例,并非否定 Tiiny 的技术价值。在两个月前的美国 CES 展,Tiiny AI 团队已经展现出技术实力,将 Pocket Lab 通过 USB-C 接口,连接到一台 2011 年生产的老旧电脑。完全离线的情况下,在这台 " 电子古董 " 的屏幕上,GPT-OSS-120B(int4)以 20tokens/s 的速度跑起来了。
再者,关于内存配置。80GB 内存分布在 dNPU 和 SoC 两个不同芯片上,并非全部可用于模型推理的统一内存池。主要原因是,质疑者认为,80GB 内存分布在两个芯片上,受 PCIe 带宽限制会影响性能。

对此,Tiiny AI 在 Kickstarter 上进行了回复:针对 " 内存带宽可能成为性能瓶颈 " 的质疑,Tiiny AI 解释,将热激活参数(运行在 NPU)与冷激活参数(运行在 SoC)进行合并的过程,并不受 PCIe 带宽的限制。
通俗来讲,PCIe 相当于芯片之间传输数据的 " 高速公路 ",PCIe Gen4 x4 这条 " 路 " 的限速约为 8 GB/s。但 Tiiny 指出,这个限速只适用于大批量数据传输的场景。而冷热激活参数的合并,实际传输的数据量极小。Tiiny AI 以 GPT-OSS-120B 为例解释,这个模型每次需要跨 PCIe 传输的数据仅约 5.625 KB,传输耗时只有毫秒级的一小部分。由于数据量远低于带宽上限,PCIe 链路并不会成为合并过程的瓶颈。
另外的质疑声来自交付时间。关于为何在 8 月才能交付,Eco Lee 向虎嗅解释,从有 Tiiny 的想法到 3 月众筹上线,已经研发了 13 个月了,等众筹结束后马上能进入量产状态;其次,在这期间公司还有一道 " 认证 " 的坎要过。比如美国一定要配备的认证 FCC ,加拿大的 ISED、欧洲的 CE 以及 RoHS、REACH 等认证。公司从 1 月起就在筹备 TIiny 的认证和合规,预估在 6 月底前能完全具备产品交付的合规资质。
在生产制造环节, Tiiny AI 的合作伙伴是全球 PC 制造头部厂商 LCFC,今年 5 月会在越南 LCFC 生产。Tiiny AI 向虎嗅介绍,LCFC 认可 Tiiny 的产品形态及其代表的端侧 AI 设备发展方向,也正因为有他们成熟的品控和制造能力在,才能稳稳保证 Tiiny 产品的交付质量。
总的来看,Tiiny AI 这个小盒子证实了个人 AI 工作站的真实需求,也摸清了用户场景,本地 AI 不会先成为大众硬件,而是先成为专业用户的生产工具;AgentBox 或许只是窗口期品类,但已经切中了高敏感数据用户和高频 Agent 玩家的迫切需要,成为今年 AI 硬件行业的确定性趋势。



登录后才可以发布评论哦
打开小程序可以发布评论哦