[CES] 黄仁勋CES重磅宣布最新AI芯片:AI下半场终于来了
连接:?NVLink 6将机架内的通信带宽推高至惊人的240 TB/s,是全球互联网总带宽的两倍以上。


AI的下半场:从“死记硬背”到“逻辑思考”
演讲中,黄仁勋敏锐地捕捉到了AI模型侧的根本性变化——Test-time Scaling(测试时扩展)。
“推理不再是一次性的回答,而是一个思考的过程。”他指出,随着DeepSeek R1和OpenAI o1等模型的出现,AI开始展现出思维链(Chain of Thought)能力。这意味着AI在给出答案前,需要消耗大量的算力进行多步推理、反思和规划。
对于投资者而言,这是一个巨大的增量信号:未来的算力消耗将从“训练侧”大规模转移到“推理侧”。为了支撑这种“让AI多想一会儿”的需求,算力必须足够便宜。Rubin架构的核心使命,就是将MoE(混合专家模型)的推理Token生成成本降低至Blackwell的1/10。只有将成本打下来,能够处理复杂任务的Agentic AI(代理智能体)才具备商业落地的可能性。
突破瓶颈:如何让AI“记住”更长的对话
而当AI从简单的问答转向长时间的复杂推理时,一个新的瓶颈出现了——记忆。
在Agentic AI时代,智能体需要记住漫长的对话历史和复杂的上下文,这会产生巨大的KV Cache(键值缓存)。传统的解决方案是将这些数据塞进昂贵的HBM显存中,但HBM容量有限且价格高昂,这被称为“显存墙”。
黄仁勋详细解释了这一问题:“AI的工作记忆存储在HBM内存中。每生成一个token,它都要读取整个模型和所有工作记忆。”对于需要长期运行、拥有持续记忆的AI智能体,这种架构显然不可持续。
解决方案是一套全新的存储架构。黄仁勋亮出了他的秘密武器:基于BlueField-4 DPU构建的推理上下文内存存储平台(Inference Context Memory Storage Platform)。

[物价飞涨的时候 这样省钱购物很爽]
还没人说话啊,我想来说几句


AI的下半场:从“死记硬背”到“逻辑思考”
演讲中,黄仁勋敏锐地捕捉到了AI模型侧的根本性变化——Test-time Scaling(测试时扩展)。
“推理不再是一次性的回答,而是一个思考的过程。”他指出,随着DeepSeek R1和OpenAI o1等模型的出现,AI开始展现出思维链(Chain of Thought)能力。这意味着AI在给出答案前,需要消耗大量的算力进行多步推理、反思和规划。
对于投资者而言,这是一个巨大的增量信号:未来的算力消耗将从“训练侧”大规模转移到“推理侧”。为了支撑这种“让AI多想一会儿”的需求,算力必须足够便宜。Rubin架构的核心使命,就是将MoE(混合专家模型)的推理Token生成成本降低至Blackwell的1/10。只有将成本打下来,能够处理复杂任务的Agentic AI(代理智能体)才具备商业落地的可能性。
突破瓶颈:如何让AI“记住”更长的对话
而当AI从简单的问答转向长时间的复杂推理时,一个新的瓶颈出现了——记忆。
在Agentic AI时代,智能体需要记住漫长的对话历史和复杂的上下文,这会产生巨大的KV Cache(键值缓存)。传统的解决方案是将这些数据塞进昂贵的HBM显存中,但HBM容量有限且价格高昂,这被称为“显存墙”。
黄仁勋详细解释了这一问题:“AI的工作记忆存储在HBM内存中。每生成一个token,它都要读取整个模型和所有工作记忆。”对于需要长期运行、拥有持续记忆的AI智能体,这种架构显然不可持续。
解决方案是一套全新的存储架构。黄仁勋亮出了他的秘密武器:基于BlueField-4 DPU构建的推理上下文内存存储平台(Inference Context Memory Storage Platform)。

[物价飞涨的时候 这样省钱购物很爽]
| 分享: |
| 注: | 在此页阅读全文 |
| 延伸阅读 | 更多... |
推荐: