被轻视的巨大市场，大厂做不好的Local Agent为何难？

AI 的未来不是云端取代本地，而是云端与本地的深度协同。

今年下半年以来，AI 圈流传着一个半开玩笑的段子："DeepSeek R2 为什么还不发布？因为 Scaling Law 不灵了。"

笑声背后，是整个行业正在面对的残酷现实：大模型的边际收益正在递减，AI 竞赛的上半场规则正在失效。

首先是训练模型需要巨量的花费：训练一个 GPT-4 级别的模型，费用已经突破 1 亿美元大关，而知名科技投资机构 BOND 于 2025 年 5 月底发布了最新的《AI 行业趋势研究报告》显示，目前训练最尖端 AI 模型的成本已接近 10 亿美元规模，这一成本规模远超历史上任何一个技术开发项目，标志着 AI 模型训练进入了只有资本雄厚巨头企业才能主导的时代。

其次是模型能力遇到了增长瓶颈：从 GPT-3.5 到 GPT-4 再到 GPT-5，大模型智能水平的跃升令人惊叹；但从 GPT-4 到 GPT-4.5 再到 GPT-5，即便参数量翻倍，能力提升却越来越不明显。Scaling Law 开始 " 撞墙 " ——简单地堆砌参数，不再是通往 AGI 的捷径。

然而，就在巨头们陷入困境时，一个 " 小模型 " 逆袭的故事正在上演：

今年 5 月，DeepSeek R1-0528 将原来 671B 参数的大模型蒸馏到仅有 8B，不仅保持了原有能力，在 AIME 2024 测试中甚至反超原模型 10%。

DeepSeek 并不是孤例。Qwen 最新推出的 Qwen3-VL 4B/8B（Instruct / Thinking）模型在保持 256K-1M 超长上下文和完整多模态能力的同时，还能在低显存设备上稳定运行，并提供了 FP8 量化权重，真正让多模态 AI 走向 " 可落地 "。

英伟达 2025 年 6 月发表的论文也表示，小于 100 亿参数的 " 小语言模型 "（SLM）在多数 Agent 任务中，不仅能媲美甚至超越庞大的 LLM，且运营成本仅为后者的 1/10 到 1/30。

图源：《Small Language Models are the Future of Agentic AI》（小语言模型是 Agent AI 的未来）。

这些案例震撼了整个 AI 界——" 站在巨人肩膀上 " 的小模型，居然可以超越巨人本身。

当 OpenAI、Anthropic 们还在争论下一代模型需要多少万亿参数时，产业界已经悄然从 "参数竞赛 " 转向了 " 效率革命 "，而 AI 也开始走下云端，走向端侧，走到每个人日常的设备和物品里。

从 Cloud First 到 Local First，AI 进入下半场

1965 年，戈登 · 摩尔提出了著名的预言：集成电路上可容纳的晶体管数量大约每 18-24 个月翻一番。这个预言在随后的半个世纪里成为了半导体行业的 " 黄金定律 "，驱动着计算性能的指数级增长，也推动了移动互联网和云计算革命的到来。

然而到了 2015 年以后，这条黄金法则开始失灵。晶体管已经小到接近原子尺度，继续往下压会遇到量子效应、漏电、散热等物理极限；制造成本也水涨船高，一座新晶圆厂动辄花掉两三百亿美元。换句话说，" 算力的免费午餐 " 吃完了。

摩尔定律放缓后，各家科技巨头不得不寻找新路。

苹果的思路是 " 垂直整合 "：不再依赖英特尔，而是自研芯片，从底层重写硬件与软件的协作方式。2020 年推出的 M1，是第一款为 Mac 量身定制的 SoC（系统级芯片）—— CPU、GPU 和 AI 神经引擎共用一套内存池，减少了数据搬运，能效比提升三倍。到 M4、M5 时代，苹果又把封装技术玩到了极致：用 Chiplet（小芯片）+3D 堆叠，把不同功能模块像积木一样拼在一起。这让性能、成本、功耗三者之间找到了新的平衡。正如那篇《A19 与 M4：双线战略》里写的，苹果一条线继续在 iPhone 上追求极致制程（N3P、N2），另一条线在 Mac 上深挖封装创新（CoWoS、3DIC），两个方向共同构成 " 后摩尔时代 " 的双引擎。

英伟达则走上了另一条路。黄仁勋敏锐地意识到：单核性能不再重要，未来是 " 万核并行 " 的时代。于是从 2006 年起，他推动 GPU 通用计算化，用 CUDA 软件生态把千万开发者绑在自家阵营。2017 年 Volta 架构的 Tensor Core 首次出现，把 AI 训练常用的矩阵乘法加速百倍；此后 Ampere、Hopper、Blackwell 一代比一代疯狂，如今 H100、B200 已成为 AI 大模型训练的标配。黄仁勋甚至提出 " 摩尔定律已死，黄氏定律接班 " —— GPU 性能每年翻一番，靠的不是更小的晶体管，而是更聪明的并行架构、稀疏计算和超节点互联。

正如当年芯片产业所经历的那样，当摩尔定律放缓，产业也开始从 " 制程竞赛 " 转向 " 架构创新 "——苹果的 M 系列芯片、英伟达的 Tensor Core，都是在物理极限下寻找新出路的产物。

而 AI 产业，也正在经历和芯片产业同样的范式变迁。

过去三年，生成式 AI 经历了爆发式增长。从 ChatGPT 到 Claude，从 GPT-4 到 DeepSeek，云端大模型以无限算力和持续迭代能力，重新定义了人机交互的边界。但繁荣之下，三大痛点日益凸显：

首先是生产力上体验不闭环。除 Coding IDE 等少数模型直接产出生产力 Token 的场景外，AI 模型在大多数办公、传统严肃研发场景中仍然停留在对话 - 咨询的单点提效阶段，生产力场景核心数据、工作流等因为隐私焦虑，无法 " 一键全链路上云 "。BBC 在今年 8 月的一则报道显示，数十万条用户与埃隆 · 马斯克的 Grok 上的对话记录在搜索引擎结果中曝光，而用户对此毫不知情；此外，律师处理敏感案卷、投资经理分析内幕材料、企业管理商业机密 …… 在所有这些场景下，数据上传云端就意味着失去控制权，无法实现提效 + 安全双保险。

其次是Token 成本成为应用瓶颈。Anthropic 的数据显示，Multi-Agent 系统的 Token 消耗达到普通聊天的 15 倍。据外媒报道，使用 Manus、Devin 等 Agent 产品单次任务可消耗百万 Token，费用从 2 美元起步，复杂任务甚至高达 50 美元。这种成本结构让高频、深度的 AI 应用难以规模化。

第三是网络依赖限制使用场景。飞机上、地铁里、网络受限的会议室——云端 AI 在这些日常场景下集体失效。当 AI 被宣称为 " 新时代的水电煤 "，却无法像手机本地应用一样随时可用，这种矛盾正在变得难以忍受。

然而，在这三个痛点之外，也有三股新生力量也正在汇聚：

小模型能力正在发生质变：DeepSeek R1-0528 推理模型通过将 671B 参数模型的思维链蒸馏到 Qwen3 8B，在 AIME 2024 测试中超越原模型 10%，性能匹配需要 30 倍参数量的 Qwen3-235B-thinking。这意味着，智能水平不再与模型规模简单正相关，知识蒸馏、推理增强等技术正在让小模型 " 站在巨人肩膀上 "。

端侧芯片正在打开市场：英伟达推出 DGX Spark，把原本只存在于数据中心的 AI 训练与推理能力，缩小到可部署在桌面端的规模级。这意味着高性能推理和小型模型训练开始走向 " 端侧可及 "；Apple M5 芯片单位功耗的 AI 计算效率相比 M4 提升数倍，使得笔记本与平板在离线状态下即可完成复杂生成任务。这标志着消费级设备的智能上限被大幅拉高，而成本曲线却在迅速下降；华为也在鸿蒙生态中押注端侧大模型。硬件厂商的集体行动，正在为本地 AI 铺设基础设施。

用户需求正在觉醒：AI 提效、数据主权、模型主权不再是极客的偏执，而是专业用户的刚需。就像家庭从集中供电转向分布式光伏，AI 能力的 " 电力化 " 也在走向分布式部署。

在这些痛点和趋势之下，一个清晰的共识正在形成：AI 的未来不是云端取代本地，而是云端与本地的深度协同，而本地智能将承载 50-80% 的日常任务。

从 " 小模型 " 到 "Local Agent"，为何 AI 产品本地体验总是差强人意？

然而，理想很丰满，现实却很骨感。在 AI Agent 爆发的当下，绝大多数现有产品的本地体验依然 " 差强人意 "。

以 Ollama、LM Studio 为代表的本地 AI 产品为例，其核心问题并非模型性能不足，而是发展模式和用户需求间存在根本性差异。

首先是定位偏差。这类产品本质上是为开发者设计的 " 本地版 ChatGPT" 体验工具，用于快速测试 Hugging Face 上的开源模型。这对普通用户造成了三大体验问题：

远离非技术用户：普通用户如律师、投资经理，既不了解 Hugging Face，也不懂 GGUF 模型格式，难以直接使用。

缺乏垂直整合：产品仅提供基础聊天或 API 接口，无法满足文档深度研究等复杂生产力场景的需要。

放大模型缺陷：" 什么都能聊 " 的宽泛定位，让用户习惯性地将其与 GPT-4 等顶级模型对比，用户并不需要一个离线聊天机器人。

其次是技术栈问题。大多数本地产品在错误的技术路线上进行优化。尽管 Ollama、LM Studio 试图围绕开发者需求打造 CLI 等周边工具集，但围绕 GGUF 开源模型的容器管理平台设计成为其历史包袱，整套 Local Infra 的地基并不牢靠：

推理技术瓶颈：产品生态严重依赖 GGUF 这类训练后量化（PTQ）方案。其致命缺陷在于低比特量化（如 3-bit 及以下）会导致模型精度严重下降，" 智能密度 " 存在上限，陷入模型能力和用户硬件资源的跷跷板场景，难以胜任 Agent 等多步推理的复杂任务。

方案缺乏整合： " 海量 " 开源 GGUF 模型体验看似量大管饱，实则都是初代预制菜。它们只提供仅加热的 " 调料包 "（本地模型 +API），而非为用户细心打造的 " 本地模型 +Agent 基础架构 + 产品交互 " 的一体化解决方案。普通用户需要的是可以直接使用的 " 成品车 "，而不是一堆需要自行组装的 " 汽车零件 "。

应用生态局限：开发者围绕 GGUF 这类第三方 UGC 量化模型生态无法打造数据飞轮。当前预训练模型本身的黑盒特性已经给业务评估和迭代带来障碍，第三方 GGUF 模型的不可逆量化给大模型引入全新量化噪声，让 AI 能力维护与迭代成为瓶颈。

综上所述，本地 Agent 的真正价值不在于 " 泛泛而谈 "，而应利用身位更近、快云端一步的优势，深度整合于特定垂直场景工具，实现工具嵌入推理服务（Tool-Integrated Reasoning），带来更好的智能服务体验，成为 " 能干脏活、不怕累 " 的高效生产力工具。而当前主流 Local AI 产品的方向，更像是在用螺丝刀敲钉子，用错了地方。

从 "1-bit 模型 " 到 "Local Agent Infra"：GreenBitAI 的十年 "Local" 长征

当云端 AI 竞赛因成本与物理极限而趋于瓶颈时，一个坚守与深耕低比特模型近十年的德国的技术团队，正以一款专业级的 Local Agent 产品，撬动着 Local Agent Infra 这个万亿级的增量市场。

GreenBitAI 的故事，正是一个从 " 做模型 " 到 " 做基础设施 " 的战略进化史。

故事要从 2016 年说起。彼时深度学习刚刚崛起，业界主流还在追求更深、更大的网络。与此同时，一条将模型压缩到极致的 " 反向路径 " ——1-bit 神经网络（BNN）——也开始出现。以 XNOR-Net 为代表的开山之作，因其对效率提升的巨大想象空间（甚至宣称未来能用 CPU 取代 GPU），在 2016 到 2018 年间引发了一场短暂的学术 " 淘金热 "。当时正在德国 HPI 实验室的杨浩进，正是全球最早投身于这条赛道的少数几位核心开创者之一。

然而，这场热潮来得快，去得也快。当研究者们发现 BNN 的精度始终在 " 不可用 " 的水平徘徊，难以突破瓶颈后，曾经的 " 金矿 " 迅速变成了 " 贫瘠的荒地 "。对于追求 " 短平快 " 和新概念的学术圈而言，这意味着是时候转向下一个热点了。于是，淘金者们迅速退潮，BNN 方向迅速由热转冷，成了一条少人问津的 " 断头路 "。

但杨浩进和他的团队选择了坚守。正是在这段外界看来最冷清、最没有希望的时期，他们取得了决定性的突破。这个过程漫长而充满荆棘，顶破天花板的每一步都充满煎熬。

这份坚守最终换来了突破性的成果，GreenBitAI 团队用一个个坚实的里程碑，证明了这条路的正确性：

2018 年 -2020 年：团队研发出首个在 ImageNet 上精度超过 60%、70% 的 1-bit CNN 模型，达到同期谷歌端侧 SOTA 模型 MobileNet 的精度水平，突破了手机端测部署 BNN 的基准线；

2022 年底： 团队推出的 BNext-L 模型在 ImageNet 上达到了 80.4% 的 Top-1 准确率，比谷歌同期的模型高出 3 个百分点。这不仅仅是一个数字的突破，它意味着，极致压缩的 1-bit 模型，在精度上首次达到了当时端侧和云端主流部署的 ResNet 基准线，证明了其在视觉任务上具备了商业落地的可行性。

GreenBitAI 团队开发的 BinaryDenseNet、MeliusNet 和 BNext 系列模型分别在 ImageNet 数据集上实现 60%、70% 和 80% 的分类精度，其中 BNext-L 模型以 1-bit 量化达到 80.4% 精度。图源：GreenBitAI

此外，GreenBitAI 团队也持续在开源框架和优化 1-bit 模型的算法，并提出了全新的蒸馏训练范式和低比特模型优化器算法。

这些成果不仅是论文数字，更是证明了：模型压缩不是线性的损失过程，而是非线性的优化空间。在某些设计下，压缩甚至能带来正向收益（如减少过拟合）。

这长达六年的 " 炼钢 " 过程，让 GreenBitAI 对模型压缩的理解远超同行，为日后向大语言模型迁移奠定了最坚实的技术地基。

2023 年，ChatGPT 引爆大语言模型热潮。杨浩进和团队意识到：技术窗口来了。大模型的参数量动辄千亿级，部署成本高昂，恰好是低比特压缩与推理技术的用武之地。

但在实践中，他们很快发现：仅仅做模型压缩是不够的。

" 最开始我们确实是做模型压缩、低比特量化，也就是把模型在端侧做小，让更高精度、更高水平的智能放入消费级终端硬件。" 杨浩进回忆道，" 但随着我们在本地化 Agent 方向上不断演进，我们发现，如果自己不做一个 Agent 应用，你很难真正把整个 Agent Infra 层面所有的坑趟过来。"

于是，Libra（Beta 版）诞生了。它虽然是一个偏垂直的文档处理 Agent 应用，但实际上是 GreenBitAI 打磨 Local Agent Infra 的重要抓手——通过构建 Libra，团队可以联动优化本地低比特模型，可以发现推理、上下文、性能优化中的真实痛点，还可以验证技术方案在专业场景下的可行性。

Libra 主界面图源：GreenBitAI

" 只有躬身入局做产品，方知其中技术上的难与妙。" 杨浩进说，" 只有从开始就瞄准‘专业级体验’，以最终用户体验为唯一标准，给自己上高难度，才能倒逼技术的提高。"

而在这个过程中，团队的使命也发生了根本性转变：从打造最好的 " 端侧模型 "，蜕变为打造最好的 "Local Agent Infra"。

在 Libra 的打磨过程中，GreenBitAI 构建出完善的Local Agent Infra 技术栈。该技术栈包含多个核心模块，我们将重点介绍其中三个代表性的部分：

模块一：模型层优化——不只是压缩，更是 " 解码偏好的重新对齐 "。

GreenBitAI 推出的 GBAQ（GreenBit-Aware Quantization）算法框架，不是又一个孤立的压缩算法，而是一套为 Local AI 打造的 " 量化与推理平台 "。

传统认知认为：量化 = 精度损失。但 GreenBitAI 证明：量化不是简单的 " 压缩 "，而是模型解码偏好的 " 重新对齐 " ——识别出真正关键的权重并加以保护，对非关键部分进行激进压缩，确保模型在预训练阶段学会的核心推理轨迹不被破坏。

更关键的创新在于 Test-time Scaling（测试时扩展）技术。

" 模型在预训练时学到的知识和能力，在推理时是不是就能完全发挥出来？" 杨浩进表示，" 我们近期的研究发现：有方法可以在推理时进一步对齐，把预训练时学到的能力尽可能深入地挖掘发挥出来。"

这是一个颠覆性的思路：不需要训练，也不需要后训练，只在推理时（Test-time）进行优化和扩展，就可以直接带来本地小模型推理性能的显著提升。

模型层优化之后的实测效果惊人：

GreenBitAI 的 3-bit 模型在 Thinking 模式下，用 30-40% 的 Token 消耗就能达成 FP16 级别的推理质量；

GBAQ 算法下的 4bit 模型与其他量化技术路线在自然语言理解任务上的表现差异制图：甲子光年

在 Multi-Agent 任务中，3-bit 模型完成率达到 100%，而竞品 4-bit 方案全线失败；

GreenBitAI 3-bit 模型完美执行泡泡玛特公司深度调研测试结果视频来源：GreenBitAI

Apple M3 芯片上，预填速度 1351.7 tokens/s，解码速度 105.6 tokens/s——这意味着加载一个百页文档只需几秒，生成回答的延迟感知接近云端 API。

模块二：性能层优化——让模型在本地跑得更快、更省。

除了模型本身的智能优化，还需要在工程和数据层面做优化，让模型的运行效率更高。

GreenBitAI 的方案包括：

混合精度策略：关键层 4-bit 或 8-bit，非关键层 2-bit 甚至 1-bit，整体平均 3-4 bit；

QAC（量化感知校准）：仅需单张消费级 GPU 即可对千亿级大模型完成近乎无损的 2-4 bit 压缩；

跨硬件部署优化：一套模型，适配 Apple、英伟达、华为等多生态。

在经典编程挑战测试中，GreenBitAI 的 GBA-Q4 模型无论是代码运行成功率还是指令遵循准确性都远超竞品压缩模型。图源：GreenBitAI

" 模型压缩本质上也是性能提升的一种手段。"杨浩进说，" 但我们做的不只是压缩，而是在极限约束下重新设计推理流程——让每个比特都发挥最大价值。"

模块三：上下文工程——降低难度，而不只是塞进去。

上下文是围绕大模型非常重要的优化方向，但 GreenBitAI 的思路与行业主流不同。

" 因为模型小，智能水平相对低，所以对上下文的优化不仅仅只是把它做得足够小，可以塞进多轮对话的 context 场景里。" 杨浩进解释，"更重要的是要降低上下文的难度——让模型看到的内容更易理解、更聚焦关键。"

也就是说，不是让小模型 " 看得更多 "，而是让它 " 看得更准 "。

具体做法包括：

动态 Context Engineering：根据任务需求，动态加载关键上下文，非关键部分压缩或丢弃；

信息降维与结构化：把长文档、多轮对话转化为结构化的知识图谱（TOON 格式），降低模型理解难度；

Test-time 校准引擎：在推理过程中动态调整注意力权重，确保模型聚焦最相关的上下文片段。

"我们 16GB 内存的设备可以处理百页文档，秘密就在于 Context Engineering。" 杨浩进透露。

GreenBitAI 的 Local Agent Infra 最大优势在于打通了从模型优化层 - 硬件 Infra 层 - 应用 Context 层的垂直工具整合，充分发挥了创业团队在生态身位的优势。

但团队的愿景不止于此。

" 我们做的 Local Agent Infra，专门针对消费级硬件生态，" 杨浩进说，" 只要是想要在本地设备上落地的 AI 应用，我们都希望能成为他们的支撑。"

换句话说：GreenBitAI 不只想做一个应用，而是想打造 Local AI 的平台和生态——就像 iOS 和 Android 定义了移动互联网，GreenBitAI 希望定义 Local AI 的技术标准和生态规则。

一款专业级 Local Agent，撬开万亿美元增量市场

2025 年 9 月 30 日，GreenBitAI 正式发布了 Libra beta release ——全球首个支持完全本地化、可在断网环境下运行，达到专业级 AI 性能需求的 Agent 产品。

在 Libra 发布之前，职业用户对专业级 AI 性能的需求，只能通过云端调用头部大模型厂商的旗舰版模型来满足。也就是说，除非企业做了内网部署，要想使用专业级 AI 来处理数据和文档，这些文件就必须上传到云端。

这对律师、投资经理、企业高管等专业用户来说，是一个无法接受的隐私妥协。

Libra 的出现，证明了一件事：专业级 Agent 应用是可以在消费级硬件上流畅运行的。

Libra 有三大核心亮点：

一是专业级文档处理与生成。 Libra 专注于专业文档处理，支持从逻辑结构、内容撰写到排版美化的全流程优化，输出质量媲美人工专家。它证明了通过创新的模型压缩与推理校准技术（GBAQ），极限压缩后的模型依然能保持极高的精度和稳定性，广泛适用于金融分析报告的处理与生成、学术论文理解等高标准场景。

Libra 的文档生成功能演示视频来源：GreenBitAI

二是完全本地化运行。 基于 GreenBitAI 领先的低比特大模型技术，Libra 可在普通笔记本和桌面设备上完全离线运行。数据全程留存于本地，这为金融、医疗、法律等对信息安全要求最严苛的行业提供了理想的解决方案。

三是轻量化与高性能。 基于高效的 Local Agent Infra 框架， Libra 真正实现了 AI Agent 在消费级设备上的流畅体验，解决了端侧应用的核心性能瓶颈。

X 网友对 Libra 的评论图源：X

此外，Libra 还内置多领域专家协同模式，可通过智能工作流配置，综合浏览器使用、本地 Python 代码运行实现复杂文档任务的分工协作处理，让 AI 不再只是助手，而是可与用户并肩工作的专业智能团队。

Libra本地模型的 Deep Research 调研澳大利亚面向国际学生大学课程实用指南。视频来源：GreenBitAI

可以看到，Libra 的设计哲学是：承认约束，拥抱约束，将约束转化为差异化优势。

「甲子光年」认为，Libra 在 AI 发展史上或许会成为一个里程碑式的独特存在，因为它不仅仅是一个文档生成工具，更是一个技术验证平台，它验证了专业级 Agent 应用是可以在消费级硬件上流畅运行的。

更重要的是，GreenBitAI 及其推出的 Libra 押注的不是存量市场的替代，而是一个万亿美元的增量市场。

在采访中，杨浩进用了一个比喻：端侧 AI 设备，会像家庭 Wi-Fi 中继器一样普及。

10 年前，大多数家庭只有一个路由器。但随着智能家居设备增多，一个路由器覆盖不了全屋，于是中继器、Mesh 组网成为刚需。从 " 可选 " 到 " 必需 " 的转变，创造了数百亿美元的增量市场。

端侧 AI 正在经历相同的路径：

当前：云端 AI 是主要选择，本地 AI 是可选补充

3 年内：50-80% 任务迁移到本地，云端处理剩余复杂任务

5 年后：每个房间一个 AI 小站（可能集成在智能音箱、显示器、路由器中），形成家庭 AI 网络

这个演进不是替代，而是增量叠加。就像中继器没有让路由器消失，本地 AI 也不会让云端 AI 消亡。但增量市场的规模，可能远超存量市场。

2019-2022 年，全球智能手机出货量虽然下滑，但 5G 手机渗透率从 0 快速提升到 80% 以上，创造了巨大的换机需求。端侧 AI 硬件的普及，可能复刻这个路径——不是买新设备，而是升级为 "AI-native" 设备。

根据 Gartner 预测，到 2025 年底，AI PC 将占全球 PC 市场总出货量的 31%，使得全球 AI PC 出货量将达到 7780 万台；2026 年 AI PC 出货量将达到 1.43 亿台，占整个 PC 市场的 55%，并且 AI PC 将在 2029 年成为常态。

2024-2026 年全球 AI PC 市场份额和出货量图源：Gartner

QY Research 报告则显示，2030 年全球智能终端市场规模将达 2.6 万亿美元，其中行业应用占比超 60%。

长期看，平台化 Agent Infra 可能是最大的想象空间。当端侧 AI 应用爆发，开发者需要统一的模型格式、推理引擎、优化工具。谁提供了这个平台，谁就掌握了生态主导权。

为抓住这一历史性机遇，GreenBitAI 已经规划了清晰的 " 三步走 " 商业化路径，旨在从一个标杆应用出发，逐步成为端侧 AI 时代的基础设施提供商：

第一步，ToC 端订阅：用 Libra 打造标杆与现金流。 首先，Libra 将通过订阅制面向对数据隐私和专业性有极高要求的个人用户（如律师、投资经理、研究员）。每月几十美元的定价，相比云端 API 高昂的调用成本极具竞争力，通过 " 免费试用 - 付费订阅 " 的路径，快速验证产品价值并建立稳定的现金流。

第二步，ToB 端授权：用 Local Agent Infra 解决企业刚需。 其次，GreenBitAI 将向需要私有化部署 AI 应用的企业客户，提供核心的本地 Agent Infra 授权。这直接解决了企业在云端方案下无法满足的数据安全和合规痛点，也是团队目前已经验证成功的商业模式，例如与德国政府部门及金融机构的合作项目。

第三步，平台化生态：成为端侧 AI 的 "Hugging Face"。 最终，GreenBitAI 的愿景是成为整个端侧 AI 应用的底层支撑。通过提供包括 300+ 开源模型库、Local Agent Infra 引擎，成为端侧应用开发者首选的平台，建立起端侧 AI 的事实标准。

这条从产品到平台再到生态的清晰路径，背后是由一支兼具顶尖学术背景与丰富产业经验的团队来支撑的。

GreenBitAI 创始人兼 CEO 杨浩进以博士论文最高荣誉 summa cum laude 毕业于德国 Hasso Plattner 计算机系统工程院（HPI），拥有德国教授任教资格（Habilitation）；他还曾主导华为云、阿里巴巴边缘计算与人工智能技术研发。GreenBitAI 的核心技术团队来自华为、德国 HPI 研究院、保时捷 AI、德国博世 AI 研发中心等知名机构。

或许也正是看好 GreenBitAI 的商业化潜力，在融资环境比较困难的 2024 年，GreenBitAI 先后获得了国内一家产业巨头的天使轮战略投资以及普华资本、一村资本的天使 + 轮跟投。GreenBitAI 构建的 AI 工具链也已经应用于国内知名终端企业与德国大型国有企业，显著降低了模型部署门槛，推动 AI 大模型在多样化场景的规模化落地。

人类对更高智能的追求，从未停止。当云端 AI 让智能触手可及时，GreenBitAI 正在让智能真正属于每个人——在你的设备上，用你的数据，守护你的隐私，以你想要的方式。

这不是技术的降维，而是智能的回归。

就像电力从集中供应走向分布式发电，AI 能力也终将从云端垄断走向本地普及。而在这场变革中，掌握 " 压缩之道 " 的 GreenBitAI，正在书写属于端侧智能的新篇章。

宙世代

一起剪

相关标签