Token成为AI工厂新“kpi”，NVIDIA围绕“每瓦Token”展开全栈升级

发布时间：2026-06-03 01:35 浏览量：1

作者：毛烁

过去几年，外界看AI基础设施，习惯了先看GPU的性能、HBM容量、先进封装、单卡峰值算力和整机柜密度。而到了Agentic AI阶段，这套方法开始有了局限性。

原因很简单。模型停留在生成回答时，GPU吞吐和显存是主要问题；但是，模型开始调用工具、执行代码、访问数据库、检查结果并继续推理以后，系统压力会向外扩散。CPU调度、内存带宽、网络互连、安全运行时、电力管理、本地终端和物理仿真，都会进入同一条任务链路。

Agent是Agentic AI的核心执行单元。Agent一出现，AI基础设施的短板就从单卡性能扩展到了整个系统。

黄仁勋在GTC台北提到一句话：“Agentic AI has arrived”。这句话的背后的含义也指向的是AI负载的变化。AI正在从问答界面进入任务流程。一次Agent任务包含计划、工具调用、沙箱执行、结果回传、再次推理等多个步骤。计算资源能否稳定产出Token，比单张芯片参数更接近客户每天要算的运营指标。

在GTC台北上，NVIDIA在产品技术更新中，透露出的一个变化也在这方面。其实，NVIDIA的业务口原本就覆盖服务器、PC、机器人、自动驾驶等。但是当Agent成为新负载以后，这些业务被重新收拢，并指向同一个路径——怎样让有限的能源、芯片、软件和终端设备，持续转化为可收费、可交付、可验证的Token产出。

这也是黄仁勋经常提到的“五层蛋糕”中的核心理念之一。

01 重估Token“KPI”，从“生成”到“任务完成度”

Agentic AI执行的并非是某一次回答，而是一连串动作。

当模型开始规划步骤、调用工具、执行代码、访问数据库，再把结果送回模型继续推理，一个任务被拆成多少轮，每一轮消耗多少Token，工具调用有没有走弯路，CPU和外部系统让GPU等了多久，都会影响最终的任务完成时间。

这也是Token需要在Agentic AI阶段被重新定义的原因。对云服务商来说，Token关系到API、订阅和算力服务的计费；对企业来说，Token会进入代码生成、数据查询、客服工单、研发验证、仿真评估等流程。只有这些任务能稳定跑起来，Token才会从模型输出变成可衡量的生产力。

简单来说，企业要算的不是“生成了多少字”，而是“完成了多少任务”。

于是，NVIDIA把这条工程链路拆成了Agentic inference循环。GPU负责生成下一步动作，CPU负责执行工具调用和沙箱任务，外部系统返回结果以后，模型再继续推理。循环越短，Agent完成任务越快。同样的芯片和电力，也就能支撑更多任务。强化学习系统也一样，单位时间内完成的评估越多，模型改进的速度才会更快。

沿着这条工程链，Agent的软件栈也可以拆开来看。模型负责推理，Harness负责让模型协调浏览器、终端、存储和子Agent，工具负责具体执行，skills规定工具应该怎样调用，运行时则管理权限、安全和长时间任务。这里的每一层都会影响Token成本，因为Agent一旦走错步骤，就会多消耗一次推理、多等待一次外部系统，也多占用一段算力。

这也是为什么企业落地Agent时，通常不会先做一个万能助手。就比如，Cadence、CrowdStrike和ServiceNow这些企业，分别把Agent用于芯片设计、安全运营和IT服务管理。它们对应的都是具体岗位、具体流程和明确工具链。Agent越专用，执行路径就越重要；路径越清楚，Token消耗和任务时延才越容易控制。

NVIDIA Skills优化的就是这段路径。NVIDIA Skills 是NVIDIA 构建的AI智能体能力生态系统，包含三大核心组件：面向大模型能力增强的NeMo Skills、面向智能体安全治理的Verified Agent Skills，以及2026年GTC 刚发布的物理AI技能库。其解决了 AI 智能体“能做什么” 和“怎么安全地做” 两大核心问题，是NVIDIA Agentic AI 战略的关键落地载体。

NVIDIA Skills可为CUDA-X库、数据科学优化、企业知识、模型构建、AI、物理仿真和量子等方向，提供可由Agent读取的任务说明。对Agent来说，Skill的作用是告诉它调用什么工具、按什么步骤执行、怎样减少无效尝试。

截取自：NVIDIA

坦白讲，少走一步弯路，就少烧一段Token。

具体来看以CUDA-Q Skill为例，运行在Claude Agent中的工作流速度提升30%，步骤减少40%；NeMo Evaluator Skill可以把评估配置速度提升10倍，把自定义基准从数天压缩到数分钟。这些数字对应是任务路径被压短以后，Token消耗、等待时间和人工介入一起下降。

再往下，Token成本还关乎电力问题。传统数据中心通常按最大峰值签订电力合同，峰值里包含计算峰值、冷却冗余和突发负载预留。但AI负载并不总在满功率运行，预留电力如果没有用于Token生成，就会变成空置产能。

NVIDIA更新的DSX MaxLPS处理的正是这类问题。其可以实时监测每块GPU、每个机架和每排设备的功耗与配置，让运营方在固定电力包络内安全部署更多GPU。NVIDIA给出的数字是，同样电力包络内最多可多部署40%的GPU，对应40%更多计算、Token和收入。

截取自：NVIDIA developer

黄仁勋在现场说：“如今，AI已成为利润引擎，也是GDP引擎。”这句话放到AI工厂里，含义是，芯片采购价解释的是初始投入，单位电力能否稳定产出更多Token，系统故障和生命周期会不会抬高单位Token成本，这才是AI工厂运营者需要长期计算的部分。

02 消除GPU空转，Vera全面投产，打破AI工厂的“木桶短板”

Agent任务变长以后，GPU生成只是第一步。

代码要编译，数据库要查询，沙箱要运行，外部系统要回传结果，安全系统还要判断Agent能不能读取数据。这些工作大多发生在CPU和系统软件侧。原因在于，GPU擅长并行生成和矩阵计算，但Agent每生成一个动作以后，后续步骤往往要进入操作系统、数据库、网络、存储和安全策略。CPU要负责调度这些任务，执行大量分支判断和I/O操作，再把结果送回模型继续推理。

如果CPU处理这些步骤的速度跟不上，GPU就只能等待下一轮上下文和执行结果。这个等待放在单次任务里可能很短，放到大规模Agent和强化学习系统里，就会变成吞吐损失。

GPU负责生成下一步，CPU要把下一步尽快执行出来。

在GTC台北上，NVIDIA宣布Vera已经全面投产，并将从今年秋季开始由系统构建商和云合作伙伴陆续推出。

Vera面向的正是智能体AI、强化学习和数据处理等。NVIDIA给出的数字是，Vera的任务完成速度比传统x86 CPU快1.8倍。Anthropic、OpenAI、Space、xAI等AI实验室，以及字节跳动、CoreWeave、Lambda、Nebius、Nscale和OCI等云服务商，都已计划采用Vera。

截取自：NVIDIA

具体来看，Vera采用88个NVIDIA自研的Olympus核心，单核心每周期指令数相比Grace提升50%，配备1.2TB/s LPDDR5X内存带宽，并通过3.4TB/s片上互连让核心访问其他核心和缓存。在Python、代码分析、代码编译等常见Agentic工具上，Vera相比x86提供1.8倍性能。

如果把Vera放到Agent的任务链路中看。其88个Olympus核心决定的是并发能力，Olympus的单核心每周期指令数相比Grace提升50%，意味着每个核心在同样时钟周期内能处理更多指令。对Agent来说，这会影响Python执行、代码分析、代码编译和工具调度这些高频任务。

内存带宽同样重要。Vera配备1.2TB/sLPDDR5X内存带宽，作用是让CPU核心更快拿到数据。Agent运行时会频繁读取上下文、脚本、工具返回结果和外部数据，如果内存带宽不足，CPU核心即使数量很多，也会因为取不到数据而持续等待。另外，Vera通过3.4TB/s片上互连，让核心访问其他核心和缓存。

此外，Vera是Vera Rubin平台的主机CPU。通过NVLink-C2C让CPU与GPU之间实现高达1.8TB/s的相干带宽。所谓相干带宽，意思是CPU和GPU共享数据时，可以保持缓存和内存视图一致，减少反复复制和同步开销。Agent任务循环越多，CPU和GPU之间交换上下文、执行结果和中间状态的次数越多，这条通道就越重要。

截取自：NVIDIA

这一方式，对Agent很重要。Agent任务会在CPU和GPU之间来回切换：GPU推理，CPU执行工具，CPU拿到结果后再交给GPU继续推理。CPU和GPU之间的数据通道越快，任务循环越容易缩短。

在安全上，Vera把NVIDIA机密计算扩展至机架规模。机密计算保护的是数据在执行过程中的安全，而不只是存储或传输时的安全。Agent会代表用户访问敏感数据、调用高权限工具，如果安全只靠事后审计，风险发生时已经晚了。而把保护能力放进执行路径，才能在Agent读取数据、调用工具、跨节点运行时减少越权和数据暴露。

此次更新的Vera BlueField-4 STX锚定的是网络、存储和安全部分。其把Vera CPU与网络、存储加速和芯片级安全能力结合起来，为AI原生数据平台提供支撑。

放到场景里，Agent需要频繁检索数据、保存中间状态、调用外部服务，如果这些I/O任务的全部压力都在主CPU上，CPU会被数据搬运拖住。BlueField-4 STX的作用，就是把一部分网络、存储和安全工作从主CPU里分担出来，让CPU把更多时间留给任务执行。

再往集成层看，Vera负责CPU侧执行和调度，Rubin GPU负责大规模推理与训练，Vera BlueField-4 STX处理数据、网络和安全，Spectrum-6 SPX以太网机架处理AI工厂内部的网络流量。

截取自：NVIDIA

这或许才是Vera Rubin的重点。其把Agent任务经过的几段路径提前放到同一套系统里设计。任务链越长，客户越不能只靠机房里的临时拼接来解决性能、可靠性和运维问题。

量产能力方面，Vera Rubin平台已经进入全面生产阶段。NVIDIA表示，其量产体系依托超过150家供应链合作伙伴，覆盖数百个制造站点和数百万平方英尺工厂空间。

这背后对应的是AI工厂建设周期的问题。

因为AI工厂并不是采购芯片之后就能立即产生Token。客户还需要完成系统组装、测试验证、部署上线以及后续稳定运行。供应链规模越大、协同能力越强，系统交付的不确定性就越低，客户从建设到投产的周期也越容易控制。

为了进一步缩短这一周期，NVIDIA还重新设计了机架结构。

过去，组装一套Grace Blackwell机架大约需要两小时。Vera Rubin机架通过减少电缆和液冷软管数量，并采用定制PCB直接连接机架两侧，将装配时间压缩到约5分钟。组装流程越简单，连接点越少，潜在故障点也越少，系统上线速度随之提升。

从这个角度看，5分钟缩短的是客户开始产生计算产出、启动业务回报的时间。

而当系统真正投入运行后，关注点会从建设阶段转向运营阶段。

为此，NVIDIA推出了面向AI工厂运营的模块化开源软件平台DSX OS，用于基础设施的配置、运行和监测。其中，DSX Exchange负责打通计算、供电和冷却系统，通过统一API实现协同管理；DSX Flex把数据中心负载与电网信号连接起来，使AI工厂能够根据电力供应情况动态调整负载；DSX MaxLPS则在既定电力预算下提升可部署GPU数量，减少电力资源闲置带来的浪费。

如果把Vera CPU、Vera Rubin平台以及DSX软件体系放在一起看，会发现Vera解决的是计算节点，Vera Rubin负责系统级集成，DSX则负责数据中心的运营和调度。它们共同覆盖了AI工厂从建设、部署到运行的完整链路。

这背后对应的也是Agentic AI带来的变化。当AI执行任务，决定效率的是整个系统能否持续、稳定地完成任务流转。CPU、GPU、网络、存储、电力以及供应链等环节，都会影响任务完成速度，并最终影响单位Token成本。

03 Agent“下沉”，走向“云端协同”

数据中心解决的是大规模Token产出，但企业日常任务还有另一段路径。

Agent要处理任务，还要在权限边界内访问本地数据。但是其很多动作不能完全留在云端完成。原因很简单，云端可以提供模型能力，但企业流程发生在用户的设备、应用、账号和权限体系里。Agent如果进不去这些路径，就很难真正替用户完成工作。

所以，企业Agent，仅靠模型本身并不够。模型擅长推理和生成内容，但执行任务还需要能够调用浏览器、终端、文件系统、代码工具以及各种外部服务。负责协调这些能力的框架，被称为Harness。

可以把Harness理解为Agent的执行层。没有它，模型只能给出建议；有了它，模型才有机会把建议拆解成一系列可执行动作。Agent从“会说”走向“会做”，中间依赖的正是这类协调机制。

NVIDIA Agent Toolkit瞄准的就是这一层能力。其整体方案包含Nemotron模型、Agent开发库、Skills能力模块、NemoClaw蓝图以及OpenShell运行时环境。

在这套体系中，Nemotron负责推理和决策，决定下一步应该执行什么任务；NemoClaw帮助开发者基于OpenClaw、Hermes等开放Harness构建Agent；Skills定义Agent如何调用不同工具和服务；OpenShell则负责运行时管理，对敏感数据和高权限工具的访问进行控制。

换句话说，NVIDIA提供的是一套让模型能够接入工具、执行任务并安全运行的Agent基础设施。

Nemotron负责解决Agent的执行效率问题，OpenShell处理的则是Agent进入生产环境后的安全问题。

长时间运行的Agent会代表用户访问企业数据、调用数据库、读取文件甚至执行代码。传统软件的权限体系主要围绕人和应用设计：用户发起一次操作，系统完成一次授权和审计。但Agent可在几分钟内连续执行数百次工具调用，如果仍然依赖事后审计，很难跟上它的执行速度。

因此，Agent的安全控制需要从应用层下沉到运行时和操作系统层。

OpenShell承担的正是这一角色。它被集成到Canonical Ubuntu、Red Hat OpenShift以及Microsoft Windows等平台中，使Agent在访问文件、调用工具和执行代码时，能够直接受到操作系统权限体系和安全策略的约束。

（OpenShell 的自主代理架构其核心组件包括沙箱、策略引擎和隐私路由器）

截取自：NVIDIA developer

而当运行时安全问题得到解决后，Agent才具备大规模部署的基础。目前，Windows生态覆盖超过10亿台活跃设备，Red Hat OpenShift则广泛运行于大型企业环境之中。对于NVIDIA而言，把OpenShell嵌入这些平台，实际上是在为Agent进入现有企业基础设施铺路。

Nemotron和Agent Toolkit解决的是Agent如何完成任务，OpenShell解决的是Agent如何安全完成任务，那么接下来的问题则是：这些任务的执行载体是什么？

其实，并非所有Agent的任务都适合在数据中心完成。

当Agent需要理解屏幕内容、处理本地文件、调用操作系统权限、响应语音指令时，数据往返AI工厂会带来额外的网络延迟、数据传输，以及安全问题。对于很多实时交互任务而言，执行位置本身已经成为效率的一部分。

因此，Agent时代的计算架构开始从单纯依赖云端推理，转向云端与本地协同。

在这一背景下，NVIDIA把RTX Spark和RTX Station放进了Agent体系里。

RTX Spark是面向个人智能体PC。NVIDIA表示，其可让轻薄Windows笔记本和紧凑型桌面主机具备1 Petaflop AI性能，由MediaTek联合打造，运行微软Windows系统，面向始终在线、始终本地运行的个人Agent。RTX Spark的作用，就是把部分Agent执行能力留在本地，让云端模型能力与个人工作流形成协同。

截取自：NVIDIA

面向企业团队，NVIDIA也进一步更新了DGX Station（for Windows)。

与个人终端不同，企业研发、设计和软件开发团队往往需要同时运行多个模型和多个Agent，并持续共享代码、数据和中间状态。此时，瓶颈不再只是推理能力，而是模型、数据和Agent之间能否高效协同。

DGX Station基于GB300架构，将Grace Blackwell级基础设施带入Windows生态，最高支持748GB一致性内存、20 Petaflops FP4计算性能以及800Gb/s ConnectX网络，可运行万亿参数模型并编排数百个Agent。

在多Agent协作场景下，模型、代码和数据需要频繁共享上下文。如果CPU与GPU之间无法高效访问同一份数据，系统就需要不断进行数据复制和搬运。DGX Station优化的，正是这种本地协同成本。

04 物理AI落地，先过数据、验证“两道关”

如果说Agent AI解决的是数字世界里的任务执行，那么物理AI面对的则是另一个问题：如何让机器人、车辆和工业系统学会在真实世界中行动。

与语言模型主要学习人类已经产生的知识不同，物理AI需要学习的是现实世界的运行规律。机器人迈出一步后是否会失去平衡，车辆变道后周围交通会如何变化，机械臂抓取物体时目标会不会滑落，这些问题都不是语言问题，而是物理世界状态变化的问题。

因此，物理AI需要的不仅是模型，更需要一套覆盖数据生成、环境构建、模型训练、策略验证和边缘部署的完整开发体系。

为此，NVIDIA此次更新了开源物理AI技能与工具集合。其中，Omniverse负责构建基于OpenUSD的仿真与数字孪生环境；Cosmos负责物理世界的推理与生成；Isaac面向机器人仿真和学习；Metropolis提供视觉AI能力；Alpamayo服务自动驾驶开发；Jetson则负责将训练完成的模型部署到边缘设备运行。

这些产品看起来分散，但实际上对应着物理AI开发链路上的不同环节。

而在整条链路中，Cosmos 3是最核心的基础模型之一。

截取自：Github

Cosmos 3是一款面向物理AI的开放世界模型，采用混合Transformer架构，能够同时处理文本、图像、视频、声音、观察数据以及动作信息，并预测未来场景的发展变化。

在此基础上，NVIDIA提出了“世界推理（World Reasoning）”能力。

简单来说，世界推理回答的是这样一个问题：如果执行某个动作，接下来会发生什么？

例如机器人向前迈一步会不会跌倒，自动驾驶车辆变道后周围车辆会如何响应，工厂设备调整参数后是否会影响后续工序。

而“世界动作模型（World Action Model）”则进一步把这种预测转化为可学习的经验，让机器人、车辆和工业系统能够从中学习如何决策。

事实上，对于物理AI而言，这种能力的重要性在于解决训练数据的问题。因为物理AI所需的数据，与互联网时代的大模型截然不同。

机器人需要学习抓取和移动，自动驾驶需要学习道路交互，工业系统需要学习设备运行状态。而很多极端场景在现实世界里既昂贵又难以采集。真实道路上的危险驾驶场景不会每天发生，工厂里的异常故障也不可能为了训练模型反复制造。

所以，NVIDIA将Cosmos与Omniverse结合，开发者能够生成大量原本难以获得的训练样本，用合成数据扩大训练覆盖范围，并减少真实环境中的数据采集和人工标注成本。

这条路径目前已经进入实际产业场景。

和硕利用缺陷图像生成技能，将模型训练和部署时间缩短67%；台达电子利用合成缺陷数据检测金属母线过度焊接，检测率提升17%；英业达将笔记本电脑机箱制造中的缺陷数据收集工作量减少30%；Foxconn则与DeepHow合作，将一次通过率提升约3%。

这些场景中，均是先利用生成式AI扩大训练覆盖范围，再减少真实产线上的数据采集和标注负担。

数据只是第一步，对于自动驾驶、机器人以及先进制造而言，更大的挑战在于验证。因此，物理AI还需要一个能够反复试错的数字世界，这也是Omniverse和数字孪生体系存在的原因。

辅助驾驶场景就是典型案例。

理想汽车、千里科技和元戎启行正在利用Omniverse NuRec进行神经场景重建和渲染，每天生成超过1000个重建场景以及30多万次渲染与仿真。

这一过程中，Omniverse NuRec的作用，是把真实车队采集到的道路数据重建为可交互、可仿真的三维环境。

Omniverse NuRec（截取自：NVIDIA）

这样一来，开发团队就能够在同一个路口、同一段道路上反复测试不同的传感器配置、驾驶策略以及长尾场景，而不必每次都重新回到真实道路采集数据。

先进制造业同样遵循这一逻辑。NVIDIA透露，台积电还在探索基于Omniverse构建FabTwin数字孪生晶圆厂。

当数据和环境都具备之后，就来到了物理AI最关键的难关——让系统学会决策。这是开环训练与闭环训练的差别。开环训练检验的是模型面对历史数据时预测是否准确；闭环训练则会把模型做出的动作重新反馈到环境中，让下一轮观察受到这个动作影响。

现实世界里的错误往往会不断累积，因此闭环训练比单纯预测更接近真实环境。

针对这一环节，对应的是NVIDIA即将更新的Alpamayo 2 Super和AlpaGym。

Alpamayo 2 Super是一款320亿参数的开放推理模型，用于自动驾驶场景中的推理、规划、标注和评估；AlpaGym则提供开源闭环强化学习框架，让开发者能够在仿真环境中持续训练和优化自动驾驶策略。

场景上，NVIDIA与宇树科技联合推出Unitree H2 Plus人形机器人参考设计，搭载先进五指灵巧手（Sharpa Wave 触觉五指手，22 自由度）、Jetson Thor以及Isaac GR00T相关能力，并计划于10月推出。

截取自：NVIDIA

05 “AI工厂”开始比拼运行逻辑

到这里，GTC 台北 2026的核心逻辑已然逐渐清晰。

过去几年，AI基础设施竞争讨论最多的是芯片。行业习惯比较参数、比较算力规模、比较集群数量。算力越强，似乎就意味着竞争力越强。

但Agentic AI的出现，正在改变这套逻辑。一个Agent完成任务的过程中，需要访问数据、调用工具、执行代码、与其他Agent协同，并不断根据环境变化调整行动。此时，决定效率的因素是整个系统能否稳定地完成任务流转。

这也是为什么黄仁勋在整场演讲中反复强调Token。

Token产生得越快、成本越低、质量越稳定，AI工厂的运营效率就越高。从这个角度看，AI工厂的竞争也正在发生变化。固定电力预算下能够产生多少计算产出，任务执行过程中有多少等待时间，资源利用率能做到多高，系统扩展时会不会影响稳定性，安全治理能否跟上自主Agent的执行速度，这些问题开始变得和芯片性能同样重要。

因为对于企业而言，采购只是一次性支出，而运营才是长期成本。企业最终关心的，仍然是投入的资源，能够转化为多少实际业务价值。

而这恰恰也是AI工厂与传统数据中心最大的区别。

前者衡量的是容量，后者衡量的是产出。

因此，当下的产业逻辑是，当AI进入Agent时代之后，基础设施竞争开始从“谁拥有更强的算力”，逐渐转向“谁能够把算力变成持续运行的生产力”。

而后者，正在成为下一阶段AI产业竞争的新起点！

标签：工厂 kpi agent token nvidia

上一篇：Anthropic冲刺IPO：Claude一个月烧掉客户5亿美元，却成了上市前最强广告
下一篇：FREELANDER神行者与阿那亚达成全面战略合作

Token成为AI工厂新“kpi”，NVIDIA围绕“每瓦Token”展开全栈升级

相似文章

资讯分类

热门资讯

热门标签

热门产品