从Token经济到Agent路由：英伟达用Nemotron重构企业级AI底座

雷峰网消息，2025 年 12 月 15 日，英伟达正式对外发布 Nemotron 3 系列开放模型及配套的数据集与工具库，这一举措精准切入全球企业 AI 转型的核心诉求，为行业带来了兼具透明度与高效能的代理式 AI 开发解决方案。

随着 AI 技术在产业场景的深度渗透，企业对 AI 的应用需求已从单一对话交互升级为复杂工作流自动化，协作式多智能体系统成为必然趋势。

然而，开发者在转型过程中始终面临三重核心困境：智能体间通信开销过高、长任务推理易出现上下文漂移、推理成本居高不下，同时，模型透明度不足也让企业和开发者难以放心将核心业务托付给 AI 系统。

Nemotron 3 的推出正直面这些挑战。

Nemotron 3 模型推出 Nano、Super 和 Ultra 三种规模，突破性异构潜在混合专家（MoE）架构是核心亮点，既守住了专业化代理式 AI 所需的性能，又坚持开放特质，让开发者无需在 " 性能强度 " 与 " 使用自由度 " 间做取舍，成为高效的开发底座。

" 开放创新是 AI 进步的基础。通过 Nemotron，我们将先进 AI 转化成开放平台，为开发者提供构建大规模代理式系统所需的透明度与效率。" 英伟达创始人兼首席执行官黄仁勋表示。

Nemotron 并非孤立的模型发布，而是英伟达主权 AI 战略的关键支撑。

埃森哲、德勤、安永、ServiceNow、西门子、Zoom 等 12 家企业已经成为 Nemotron 早期用户，从制造业的智能产线优化，到网络安全的威胁闭环应对，再到媒体通信的高效协作，这些行业标杆企业正将这款开放模型深度融入核心 AI 工作流，一场跨领域的智能升级浪潮已悄然拉开序幕。

Token 吞吐量提高 4 倍、减少 60% 推理 Token 生成量，Nemotron 3 让每一分算力「物超所值」

在多智能体 AI 系统愈发深入产业的今天，开发者面临很现实的问题：既要依赖专有模型的前沿推理能力支撑复杂任务，又希望借助开放模型的高效与可定制性控制成本。

Nemotron 3 的出现，正在解决这种 " 性能与经济不可兼得 " 的困境。

任务路由技术成为关键。在单一工作流中，开发者可通过智能调度，让日常高效型任务交由 Nemotron 3 这样的开放模型处理，而核心复杂的前沿推理则联动专有模型，既保证了智能体的能力，又优化了 Token 经济效益。这一模式并非理论构想，已在 Perplexity 的实践中落地。

作为 AI 浏览器领域的创新者，Perplexity 正将 Nemotron 3 Ultra 纳入其智能体路由器的核心选项。

"Perplexity 的构建理念是当精准 AI 融入先进工具时（例如 AI 助手），人类的好奇心将被放大。通过我们的智能体路由器，可以将工作负载定向到领先的精细调优开放模型，如 Nemotron 3 Ultra，或在任务能够从其独特能力中受益时，利用领先的专有模型，以此确保我们的 AI 助手能够以卓越的速度、效率和规模运行。"Perplexity 首席执行官 Aravind Srinivas 表示。

如果说大企业借助 Nemotron 3 实现了效率升级，那么这款开放模型对初创公司而言，更像是一把加速创新的 " 钥匙 "。General Catalyst 和 Mayfield 旗下的诸多创业公司，正借助 Nemotron 3 搭建人机协作的 AI 队友，实现工作效能的快速提高。

这背后离不开 NVIDIA 全生态的支撑。

Mayfield 管理合伙人 Navin Chaddha 表示：" 英伟达的开放模型堆栈与初创加速计划为初创公司提供了各类模型、工具及经济高效的基础设施，助力其开展试验、实现差异化发展并快速扩展规模。Nemotron 3 可以让创始人在构建代理式 AI 应用和 AI 队友方面取得先机，并帮助他们利用英伟达庞大的用户基础。"

Nemotron 3 系列 MoE 模型包含三种规模：

Nemotron 3 Nano：是一款具备 300 亿参数的小型模型，每次运行最多激活 30 亿参数，适用于针对性、高效的任务。

Nemotron 3 Super：是一款具备约 1000 亿参数的高精度推理模型，每个 Token 最多激活 100 亿参数，适用于多智能体应用。

Nemotron 3 Ultra：是一款具备约 5000 亿参数的大型推理引擎，每个 Token 最多激活 500 亿参数，适用于复杂的 AI 应用。

Nemotron 3 Nano 已正式上线，是计算成本效益极高的模型，其针对软件调试、内容摘要、AI 助手工作流及信息检索等任务进行了优化，同时保持了较低的推理成本。并且，模型采用独特的异构 MoE 架构，以实现效率与可扩展性的提升。

这一设计使其 Token 吞吐量较 Nemotron 2 Nano 至高提升 4 倍，并减少了多达 60% 的推理 Token 生成量，大大降低了推理成本。同时，具备 100 万 Token 的上下文处理能力，Nemotron 3 Nano 具有更强的记忆能力，在处理长时间多步骤任务时能更精准地关联信息。

独立 AI 基准测试机构 Artificial Analysis 评定该模型为同等规模模型中兼具极高开放性和效率及卓越精度的模型。

在需要多智能体协作完成低延迟复杂任务的应用中，Nemotron 3 Super 表现出色。Nemotron 3 Ultra 则作为高级推理引擎，服务于需要深度研究和策略规划的 AI 工作流。

Nemotron 3 Super 与 Ultra 采用基于英伟达 Blackwell 架构的超高效 4 位 NVFP4 训练格式，可显著降低显存需求并加速训练进程。这种效率使更大规模模型能在现有基础设施上进行训练，不会因更高精度格式而牺牲准确性。

借助 Nemotron 3 系列模型，开发者可根据特定工作负载选择适配的开放模型，在数十至数百个智能体间灵活扩展，同时在复杂工作流中获得更快速、精准的长时推理能力。

3 万亿 Token 数据、NeMo 开源工具库发布，英伟达为开发者按下「加速键」

英伟达还发布了面向专业 AI 智能体开发者的训练数据集与前沿强化学习库集合。

3 万亿 Token 规模的全新 Nemotron 预训练、后训练及强化学习数据集，为开发高性能特定领域智能体提供了丰富的推理、编码及多步骤工作流范例。Nemotron Agentic Safety Dataset 则提供真实场景的遥测数据，帮助团队评估并提升复杂智能体系统的安全性。

为加速开发进程，英伟达发布了 NeMo Gym 与 NeMo RL 开源库，为 Nemotron 模型提供训练环境及后训练基础，同时还推出用于验证模型安全性和性能的 NeMo Evaluator。所有工具及数据集现已上线 GitHub 和 Hugging Face 平台。

Nemotron 3 已获得 LM Studio、llama.cpp、SGLang 和 vLLM 支持。此外，Prime Intellect 与 Unsloth 正将 NeMo Gym 的即用型训练环境直接集成至其工作流，使团队能够更加快速、便捷地获得强大的强化学习训练能力。

目前，Nemotron 3 Nano 已上线 Hugging Face 平台，并通过 Baseten、Deepinfra、Fireworks、FriendliAI、OpenRouter、Together AI 等推理服务商提供。

Nemotron 还上线了多个企业级 AI 与数据基础设施平台，包括 Couchbase、DataRobot、H2O.ai、JFrog、Lambda 及 UiPath。Nemotron 3 Nano 将通过 Amazon Bedrock（无服务器模式）在亚马逊云科技 ( AWS ) 平台上提供给使用公有云的客户，并且也即将支持 Google Cloud、Coreweave、Crusoe、Microsoft Foundry、Nebius、Nscale 及 Yotta。

Nemotron 3 Nano 同时以 NVIDIA NIM 形式提供，可以在英伟达加速基础设施上进行安全、可扩展的部署，具有极高的隐私性与可控性。Nemotron 3 Super 和 Ultra 预计将于 2026 年上半年推出。

宙世代

一起剪

相关标签