Token成为AI工厂新“kpi”,NVIDIA围绕“每瓦Token”展开全栈升级
发布时间:2026-06-03 01:35 浏览量:1
作者:毛烁
过去几年,外界看AI基础设施,习惯了先看GPU的性能、HBM容量、先进封装、单卡峰值算力和整机柜密度。而到了Agentic AI阶段,这套方法开始有了局限性。
原因很简单。模型停留在生成回答时,GPU吞吐和显存是主要问题;但是,模型开始调用工具、执行代码、访问数据库、检查结果并继续推理以后,系统压力会向外扩散。CPU调度、内存带宽、网络互连、安全运行时、电力管理、本地终端和物理仿真,都会进入同一条任务链路。
Agent是Agentic AI的核心执行单元。Agent一出现,AI基础设施的短板就从单卡性能扩展到了整个系统。
黄仁勋在GTC台北提到一句话:“Agentic AI has arrived”。这句话的背后的含义也指向的是AI负载的变化。AI正在从问答界面进入任务流程。一次Agent任务包含计划、工具调用、沙箱执行、结果回传、再次推理等多个步骤。计算资源能否稳定产出Token,比单张芯片参数更接近客户每天要算的运营指标。
在GTC台北上,NVIDIA在产品技术更新中,透露出的一个变化也在这方面。其实,NVIDIA的业务口原本就覆盖服务器、PC、机器人、自动驾驶等。但是当Agent成为新负载以后,这些业务被重新收拢,并指向同一个路径——怎样让有限的能源、芯片、软件和终端设备,持续转化为可收费、可交付、可验证的Token产出。
这也是黄仁勋经常提到的“五层蛋糕”中的核心理念之一。
01 重估Token“KPI”,从“生成”到“任务完成度”
Agentic AI执行的并非是某一次回答,而是一连串动作。
当模型开始规划步骤、调用工具、执行代码、访问数据库,再把结果送回模型继续推理,一个任务被拆成多少轮,每一轮消耗多少Token,工具调用有没有走弯路,CPU和外部系统让GPU等了多久,都会影响最终的任务完成时间。
这也是Token需要在Agentic AI阶段被重新定义的原因。对云服务商来说,Token关系到API、订阅和算力服务的计费;对企业来说,Token会进入代码生成、数据查询、客服工单、研发验证、仿真评估等流程。只有这些任务能稳定跑起来,Token才会从模型输出变成可衡量的生产力。
简单来说,企业要算的不是“生成了多少字”,而是“完成了多少任务”。
于是,NVIDIA把这条工程链路拆成了Agentic inference循环。GPU负责生成下一步动作,CPU负责执行工具调用和沙箱任务,外部系统返回结果以后,模型再继续推理。循环越短,Agent完成任务越快。同样的芯片和电力,也就能支撑更多任务。强化学习系统也一样,单位时间内完成的评估越多,模型改进的速度才会更快。
沿着这条工程链,Agent的软件栈也可以拆开来看。模型负责推理,Harness负责让模型协调浏览器、终端、存储和子Agent,工具负责具体执行,skills规定工具应该怎样调用,运行时则管理权限、安全和长时间任务。这里的每一层都会影响Token成本,因为Agent一旦走错步骤,就会多消耗一次推理、多等待一次外部系统,也多占用一段算力。
这也是为什么企业落地Agent时,通常不会先做一个万能助手。就比如,Cadence、CrowdStrike和ServiceNow这些企业,分别把Agent用于芯片设计、安全运营和IT服务管理。它们对应的都是具体岗位、具体流程和明确工具链。Agent越专用,执行路径就越重要;路径越清楚,Token消耗和任务时延才越容易控制。
NVIDIA Skills优化的就是这段路径。NVIDIA Skills 是NVIDIA 构建的AI智能体能力生态系统,包含三大核心组件:面向大模型能力增强的NeMo Skills、面向智能体安全治理的Verified Agent Skills,以及2026年GTC 刚发布的物理AI技能库。其解决了 AI 智能体“能做什么” 和“怎么安全地做” 两大核心问题,是NVIDIA Agentic AI 战略的关键落地载体。
NVIDIA Skills可为CUDA-X库、数据科学优化、企业知识、模型构建、AI、物理仿真和量子等方向,提供可由Agent读取的任务说明。对Agent来说,Skill的作用是告诉它调用什么工具、按什么步骤执行、怎样减少无效尝试。
截取自:NVIDIA
坦白讲,少走一步弯路,就少烧一段Token。
具体来看以CUDA-Q Skill为例,运行在Claude Agent中的工作流速度提升30%,步骤减少40%;NeMo Evaluator Skill可以把评估配置速度提升10倍,把自定义基准从数天压缩到数分钟。这些数字对应是任务路径被压短以后,Token消耗、等待时间和人工介入一起下降。
再往下,Token成本还关乎电力问题。传统数据中心通常按最大峰值签订电力合同,峰值里包含计算峰值、冷却冗余和突发负载预留。但AI负载并不总在满功率运行,预留电力如果没有用于Token生成,就会变成空置产能。
NVIDIA更新的DSX MaxLPS处理的正是这类问题。其可以实时监测每块GPU、每个机架和每排设备的功耗与配置,让运营方在固定电力包络内安全部署更多GPU。NVIDIA给出的数字是,同样电力包络内最多可多部署40%的GPU,对应40%更多计算、Token和收入。
截取自:NVIDIA developer
黄仁勋在现场说:“如今,AI已成为利润引擎,也是GDP引擎。”这句话放到AI工厂里,含义是,芯片采购价解释的是初始投入,单位电力能否稳定产出更多Token,系统故障和生命周期会不会抬高单位Token成本,这才是AI工厂运营者需要长期计算的部分。
02 消除GPU空转,Vera全面投产,打破AI工厂的“木桶短板”
Agent任务变长以后,GPU生成只是第一步。
代码要编译,数据库要查询,沙箱要运行,外部系统要回传结果,安全系统还要判断Agent能不能读取数据。这些工作大多发生在CPU和系统软件侧。原因在于,GPU擅长并行生成和矩阵计算,但Agent每生成一个动作以后,后续步骤往往要进入操作系统、数据库、网络、存储和安全策略。CPU要负责调度这些任务,执行大量分支判断和I/O操作,再把结果送回模型继续推理。
如果CPU处理这些步骤的速度跟不上,GPU就只能等待下一轮上下文和执行结果。这个等待放在单次任务里可能很短,放到大规模Agent和强化学习系统里,就会变成吞吐损失。
GPU负责生成下一步,CPU要把下一步尽快执行出来。
在GTC台北上,NVIDIA宣布Vera已经全面投产,并将从今年秋季开始由系统构建商和云合作伙伴陆续推出。
Vera面向的正是智能体AI、强化学习和数据处理等。NVIDIA给出的数字是,Vera的任务完成速度比传统x86 CPU快1.8倍。Anthropic、OpenAI、Space、xAI等AI实验室,以及字节跳动、CoreWeave、Lambda、Nebius、Nscale和OCI等云服务商,都已计划采用Vera。
截取自:NVIDIA
具体来看,Vera采用88个NVIDIA自研的Olympus核心,单核心每周期指令数相比Grace提升50%,配备1.2TB/s LPDDR5X内存带宽,并通过3.4TB/s片上互连让核心访问其他核心和缓存。在Python、代码分析、代码编译等常见Agentic工具上,Vera相比x86提供1.8倍性能。
如果把Vera放到Agent的任务链路中看。其88个Olympus核心决定的是并发能力,Olympus的单核心每周期指令数相比Grace提升50%,意味着每个核心在同样时钟周期内能处理更多指令。对Agent来说,这会影响Python执行、代码分析、代码编译和工具调度这些高频任务。
内存带宽同样重要。Vera配备1.2TB/sLPDDR5X内存带宽,作用是让CPU核心更快拿到数据。Agent运行时会频繁读取上下文、脚本、工具返回结果和外部数据,如果内存带宽不足,CPU核心即使数量很多,也会因为取不到数据而持续等待。另外,Vera通过3.4TB/s片上互连,让核心访问其他核心和缓存。
此外,Vera是Vera Rubin平台的主机CPU。通过NVLink-C2C让CPU与GPU之间实现高达1.8TB/s的相干带宽。所谓相干带宽,意思是CPU和GPU共享数据时,可以保持缓存和内存视图一致,减少反复复制和同步开销。Agent任务循环越多,CPU和GPU之间交换上下文、执行结果和中间状态的次数越多,这条通道就越重要。
截取自:NVIDIA
这一方式,对Agent很重要。Agent任务会在CPU和GPU之间来回切换:GPU推理,CPU执行工具,CPU拿到结果后再交给GPU继续推理。CPU和GPU之间的数据通道越快,任务循环越容易缩短。
在安全上,Vera把NVIDIA机密计算扩展至机架规模。机密计算保护的是数据在执行过程中的安全,而不只是存储或传输时的安全。Agent会代表用户访问敏感数据、调用高权限工具,如果安全只靠事后审计,风险发生时已经晚了。而把保护能力放进执行路径,才能在Agent读取数据、调用工具、跨节点运行时减少越权和数据暴露。
此次更新的Vera BlueField-4 STX锚定的是网络、存储和安全部分。其把Vera CPU与网络、存储加速和芯片级安全能力结合起来,为AI原生数据平台提供支撑。
放到场景里,Agent需要频繁检索数据、保存中间状态、调用外部服务,如果这些I/O任务的全部压力都在主CPU上,CPU会被数据搬运拖住。BlueField-4 STX的作用,就是把一部分网络、存储和安全工作从主CPU里分担出来,让CPU把更多时间留给任务执行。
再往集成层看,Vera负责CPU侧执行和调度,Rubin GPU负责大规模推理与训练,Vera BlueField-4 STX处理数据、网络和安全,Spectrum-6 SPX以太网机架处理AI工厂内部的网络流量。
截取自:NVIDIA
这或许才是Vera Rubin的重点。其把Agent任务经过的几段路径提前放到同一套系统里设计。任务链越长,客户越不能只靠机房里的临时拼接来解决性能、可靠性和运维问题。
量产能力方面,Vera Rubin平台已经进入全面生产阶段。NVIDIA表示,其量产体系依托超过150家供应链合作伙伴,覆盖数百个制造站点和数百万平方英尺工厂空间。
这背后对应的是AI工厂建设周期的问题。
因为AI工厂并不是采购芯片之后就能立即产生Token。客户还需要完成系统组装、测试验证、部署上线以及后续稳定运行。供应链规模越大、协同能力越强,系统交付的不确定性就越低,客户从建设到投产的周期也越容易控制。
为了进一步缩短这一周期,NVIDIA还重新设计了机架结构。
过去,组装一套Grace Blackwell机架大约需要两小时。Vera Rubin机架通过减少电缆和液冷软管数量,并采用定制PCB直接连接机架两侧,将装配时间压缩到约5分钟。组装流程越简单,连接点越少,潜在故障点也越少,系统上线速度随之提升。
从这个角度看,5分钟缩短的是客户开始产生计算产出、启动业务回报的时间。
而当系统真正投入运行后,关注点会从建设阶段转向运营阶段。
为此,NVIDIA推出了面向AI工厂运营的模块化开源软件平台DSX OS,用于基础设施的配置、运行和监测。其中,DSX Exchange负责打通计算、供电和冷却系统,通过统一API实现协同管理;DSX Flex把数据中心负载与电网信号连接起来,使AI工厂能够根据电力供应情况动态调整负载;DSX MaxLPS则在既定电力预算下提升可部署GPU数量,减少电力资源闲置带来的浪费。
如果把Vera CPU、Vera Rubin平台以及DSX软件体系放在一起看,会发现Vera解决的是计算节点,Vera Rubin负责系统级集成,DSX则负责数据中心的运营和调度。它们共同覆盖了AI工厂从建设、部署到运行的完整链路。
这背后对应的也是Agentic AI带来的变化。当AI执行任务,决定效率的是整个系统能否持续、稳定地完成任务流转。CPU、GPU、网络、存储、电力以及供应链等环节,都会影响任务完成速度,并最终影响单位Token成本。
03 Agent“下沉”,走向“云端协同”
数据中心解决的是大规模Token产出,但企业日常任务还有另一段路径。
Agent要处理任务,还要在权限边界内访问本地数据。但是其很多动作不能完全留在云端完成。原因很简单,云端可以提供模型能力,但企业流程发生在用户的设备、应用、账号和权限体系里。Agent如果进不去这些路径,就很难真正替用户完成工作。
所以,企业Agent,仅靠模型本身并不够。模型擅长推理和生成内容,但执行任务还需要能够调用浏览器、终端、文件系统、代码工具以及各种外部服务。负责协调这些能力的框架,被称为Harness。
可以把Harness理解为Agent的执行层。没有它,模型只能给出建议;有了它,模型才有机会把建议拆解成一系列可执行动作。Agent从“会说”走向“会做”,中间依赖的正是这类协调机制。
NVIDIA Agent Toolkit瞄准的就是这一层能力。其整体方案包含Nemotron模型、Agent开发库、Skills能力模块、NemoClaw蓝图以及OpenShell运行时环境。
在这套体系中,Nemotron负责推理和决策,决定下一步应该执行什么任务;NemoClaw帮助开发者基于OpenClaw、Hermes等开放Harness构建Agent;Skills定义Agent如何调用不同工具和服务;OpenShell则负责运行时管理,对敏感数据和高权限工具的访问进行控制。
换句话说,NVIDIA提供的是一套让模型能够接入工具、执行任务并安全运行的Agent基础设施。
Nemotron负责解决Agent的执行效率问题,OpenShell处理的则是Agent进入生产环境后的安全问题。
长时间运行的Agent会代表用户访问企业数据、调用数据库、读取文件甚至执行代码。传统软件的权限体系主要围绕人和应用设计:用户发起一次操作,系统完成一次授权和审计。但Agent可在几分钟内连续执行数百次工具调用,如果仍然依赖事后审计,很难跟上它的执行速度。
因此,Agent的安全控制需要从应用层下沉到运行时和操作系统层。
OpenShell承担的正是这一角色。它被集成到Canonical Ubuntu、Red Hat OpenShift以及Microsoft Windows等平台中,使Agent在访问文件、调用工具和执行代码时,能够直接受到操作系统权限体系和安全策略的约束。
(OpenShell 的自主代理架构其核心组件包括沙箱、策略引擎和隐私路由器)
截取自:NVIDIA developer
而当运行时安全问题得到解决后,Agent才具备大规模部署的基础。目前,Windows生态覆盖超过10亿台活跃设备,Red Hat OpenShift则广泛运行于大型企业环境之中。对于NVIDIA而言,把OpenShell嵌入这些平台,实际上是在为Agent进入现有企业基础设施铺路。
Nemotron和Agent Toolkit解决的是Agent如何完成任务,OpenShell解决的是Agent如何安全完成任务,那么接下来的问题则是:这些任务的执行载体是什么?
其实,并非所有Agent的任务都适合在数据中心完成。
当Agent需要理解屏幕内容、处理本地文件、调用操作系统权限、响应语音指令时,数据往返AI工厂会带来额外的网络延迟、数据传输,以及安全问题。对于很多实时交互任务而言,执行位置本身已经成为效率的一部分。
因此,Agent时代的计算架构开始从单纯依赖云端推理,转向云端与本地协同。
在这一背景下,NVIDIA把RTX Spark和RTX Station放进了Agent体系里。
RTX Spark是面向个人智能体PC。NVIDIA表示,其可让轻薄Windows笔记本和紧凑型桌面主机具备1 Petaflop AI性能,由MediaTek联合打造,运行微软Windows系统,面向始终在线、始终本地运行的个人Agent。RTX Spark的作用,就是把部分Agent执行能力留在本地,让云端模型能力与个人工作流形成协同。
截取自:NVIDIA
面向企业团队,NVIDIA也进一步更新了DGX Station(for Windows)。
与个人终端不同,企业研发、设计和软件开发团队往往需要同时运行多个模型和多个Agent,并持续共享代码、数据和中间状态。此时,瓶颈不再只是推理能力,而是模型、数据和Agent之间能否高效协同。
DGX Station基于GB300架构,将Grace Blackwell级基础设施带入Windows生态,最高支持748GB一致性内存、20 Petaflops FP4计算性能以及800Gb/s ConnectX网络,可运行万亿参数模型并编排数百个Agent。
在多Agent协作场景下,模型、代码和数据需要频繁共享上下文。如果CPU与GPU之间无法高效访问同一份数据,系统就需要不断进行数据复制和搬运。DGX Station优化的,正是这种本地协同成本。
04 物理AI落地,先过数据、验证“两道关”
如果说Agent AI解决的是数字世界里的任务执行,那么物理AI面对的则是另一个问题:如何让机器人、车辆和工业系统学会在真实世界中行动。
与语言模型主要学习人类已经产生的知识不同,物理AI需要学习的是现实世界的运行规律。机器人迈出一步后是否会失去平衡,车辆变道后周围交通会如何变化,机械臂抓取物体时目标会不会滑落,这些问题都不是语言问题,而是物理世界状态变化的问题。
因此,物理AI需要的不仅是模型,更需要一套覆盖数据生成、环境构建、模型训练、策略验证和边缘部署的完整开发体系。
为此,NVIDIA此次更新了开源物理AI技能与工具集合。其中,Omniverse负责构建基于OpenUSD的仿真与数字孪生环境;Cosmos负责物理世界的推理与生成;Isaac面向机器人仿真和学习;Metropolis提供视觉AI能力;Alpamayo服务自动驾驶开发;Jetson则负责将训练完成的模型部署到边缘设备运行。
这些产品看起来分散,但实际上对应着物理AI开发链路上的不同环节。
而在整条链路中,Cosmos 3是最核心的基础模型之一。
截取自:Github
Cosmos 3是一款面向物理AI的开放世界模型,采用混合Transformer架构,能够同时处理文本、图像、视频、声音、观察数据以及动作信息,并预测未来场景的发展变化。
在此基础上,NVIDIA提出了“世界推理(World Reasoning)”能力。
简单来说,世界推理回答的是这样一个问题:如果执行某个动作,接下来会发生什么?
例如机器人向前迈一步会不会跌倒,自动驾驶车辆变道后周围车辆会如何响应,工厂设备调整参数后是否会影响后续工序。
而“世界动作模型(World Action Model)”则进一步把这种预测转化为可学习的经验,让机器人、车辆和工业系统能够从中学习如何决策。
事实上,对于物理AI而言,这种能力的重要性在于解决训练数据的问题。因为物理AI所需的数据,与互联网时代的大模型截然不同。
机器人需要学习抓取和移动,自动驾驶需要学习道路交互,工业系统需要学习设备运行状态。而很多极端场景在现实世界里既昂贵又难以采集。真实道路上的危险驾驶场景不会每天发生,工厂里的异常故障也不可能为了训练模型反复制造。
所以,NVIDIA将Cosmos与Omniverse结合,开发者能够生成大量原本难以获得的训练样本,用合成数据扩大训练覆盖范围,并减少真实环境中的数据采集和人工标注成本。
这条路径目前已经进入实际产业场景。
和硕利用缺陷图像生成技能,将模型训练和部署时间缩短67%;台达电子利用合成缺陷数据检测金属母线过度焊接,检测率提升17%;英业达将笔记本电脑机箱制造中的缺陷数据收集工作量减少30%;Foxconn则与DeepHow合作,将一次通过率提升约3%。
这些场景中,均是先利用生成式AI扩大训练覆盖范围,再减少真实产线上的数据采集和标注负担。
数据只是第一步,对于自动驾驶、机器人以及先进制造而言,更大的挑战在于验证。因此,物理AI还需要一个能够反复试错的数字世界,这也是Omniverse和数字孪生体系存在的原因。
辅助驾驶场景就是典型案例。
理想汽车、千里科技和元戎启行正在利用Omniverse NuRec进行神经场景重建和渲染,每天生成超过1000个重建场景以及30多万次渲染与仿真。
这一过程中,Omniverse NuRec的作用,是把真实车队采集到的道路数据重建为可交互、可仿真的三维环境。
Omniverse NuRec(截取自:NVIDIA)
这样一来,开发团队就能够在同一个路口、同一段道路上反复测试不同的传感器配置、驾驶策略以及长尾场景,而不必每次都重新回到真实道路采集数据。
先进制造业同样遵循这一逻辑。NVIDIA透露,台积电还在探索基于Omniverse构建FabTwin数字孪生晶圆厂。
当数据和环境都具备之后,就来到了物理AI最关键的难关——让系统学会决策。这是开环训练与闭环训练的差别。开环训练检验的是模型面对历史数据时预测是否准确;闭环训练则会把模型做出的动作重新反馈到环境中,让下一轮观察受到这个动作影响。
现实世界里的错误往往会不断累积,因此闭环训练比单纯预测更接近真实环境。
针对这一环节,对应的是NVIDIA即将更新的Alpamayo 2 Super和AlpaGym。
Alpamayo 2 Super是一款320亿参数的开放推理模型,用于自动驾驶场景中的推理、规划、标注和评估;AlpaGym则提供开源闭环强化学习框架,让开发者能够在仿真环境中持续训练和优化自动驾驶策略。
场景上,NVIDIA与宇树科技联合推出Unitree H2 Plus人形机器人参考设计,搭载先进五指灵巧手(Sharpa Wave 触觉五指手,22 自由度)、Jetson Thor以及Isaac GR00T相关能力,并计划于10月推出。
截取自:NVIDIA
05 “AI工厂”开始比拼运行逻辑
到这里,GTC 台北 2026的核心逻辑已然逐渐清晰。
过去几年,AI基础设施竞争讨论最多的是芯片。行业习惯比较参数、比较算力规模、比较集群数量。算力越强,似乎就意味着竞争力越强。
但Agentic AI的出现,正在改变这套逻辑。一个Agent完成任务的过程中,需要访问数据、调用工具、执行代码、与其他Agent协同,并不断根据环境变化调整行动。此时,决定效率的因素是整个系统能否稳定地完成任务流转。
这也是为什么黄仁勋在整场演讲中反复强调Token。
Token产生得越快、成本越低、质量越稳定,AI工厂的运营效率就越高。从这个角度看,AI工厂的竞争也正在发生变化。固定电力预算下能够产生多少计算产出,任务执行过程中有多少等待时间,资源利用率能做到多高,系统扩展时会不会影响稳定性,安全治理能否跟上自主Agent的执行速度,这些问题开始变得和芯片性能同样重要。
因为对于企业而言,采购只是一次性支出,而运营才是长期成本。企业最终关心的,仍然是投入的资源,能够转化为多少实际业务价值。
而这恰恰也是AI工厂与传统数据中心最大的区别。
前者衡量的是容量,后者衡量的是产出。
因此,当下的产业逻辑是,当AI进入Agent时代之后,基础设施竞争开始从“谁拥有更强的算力”,逐渐转向“谁能够把算力变成持续运行的生产力”。
而后者,正在成为下一阶段AI产业竞争的新起点!