奇异摩尔携手产业伙伴共建IO-NET芯粒工作组

科创之家 2026-04-06 8334人围观

3月31日,ODCC春季全会网络工作组会议在浙江舟山圆满落幕。为应对下一代AI网络技术的演进需求,腾讯牵头正式成立IO-NET项目工作组。该工作组将围绕面向Agent的新型互联体系,实现训练、推理、业务执行一体化展开深入探讨,携手产业链共建统一生态规范,推动AI网络持续演进。

作为IO-NET项目的重要成员,奇异摩尔依托工作组平台,牵头组织基于IO-NET的IOD芯粒工作组,联合产业链伙伴共同探索通用IOD的实现路径,为构建高效、标准化的下一代AI互联生态提供核心技术支撑。

奇异摩尔首席架构师朱琛发表主题演讲《基于通用IOD的XPU Scale-up网络互联实现路径》。演讲重点分析了Agent时代背景下,内存瓶颈正驱动集群架构向资源解耦方向演进。在这一演进过程中,通用IOD的应用场景从XPU-to-XPU拓展至XPU-to-CPU及XPU-to-Memory Pool。

朱琛指出,传统RDMA在XPU-to-CPU及XPU-to-Memory Pool场景下显得过于繁重,亟需一种更轻量化的DMA引擎。围绕这一需求,他从分层视角出发,系统探讨了从D2D,功能层以及Scale-up接口层通用IOD的实现路径。他进一步阐述了奇异摩尔作为腾讯牵头IO-NET项目组子项目的定位与未来规划,研究目标的及相关技术规范的落地展望。

Agent时代所带来的内存瓶颈

在大模型推理中,内存消耗大户远不止模型参数,更棘手的是KV Cache、长上下文、会话状态、多轮Agent记忆以及Prompt Cache等动态数据。KV Cache存储注意力机制中的键值向量,避免每生成一个token都重新计算,其大小随序列长度和批量大小线性增长,在大规模场景下甚至会超过模型权重本身。

为何需要统一内存池

在大模型训练与推理中,Batch Size是决定性能与效果的关键超参数。它不仅影响吞吐速度,更直接关系到模型的收敛行为与泛化能力。

随着Agent时代的到来,长序列已成为推理场景的主流趋势,显存需求呈指数级攀升。在这一背景下,Batch Size的选择正面临两难困境:

过大:过量占用GPU显存,极易触发显存溢出(OOM),同时推升Token生成延迟,影响服务稳定性;

过小:无法充分利用GPU计算资源,导致计算单元因“喂不饱”而持续空转,算力利用率大幅下降。

此时,统一内存池的重要性便凸显出来。通过构建全局统一、弹性伸缩的内存池,能够打破静态显存分配的僵化边界,在Batch Size动态变化时实现显存资源的灵活复用与高效调度——既能支撑更大Batch Size以提升吞吐,又能在高并发长序列场景下避免显存瓶颈,真正实现算力与内存的协同最优。

从CPU-GPU到全域统一编址

9a857ccc-2d80-11f1-90a1-92fbcf53809c.png

(图:奇异摩尔@ODCC春季大会)

如今,CPU与GPU不再是各自持有独立内存的异构设备,而是能够平等访问统一内存空间的计算单元,彻底消除了传统架构中数据在CPU内存与GPU显存之间反复拷贝的瓶颈。以英伟达为例,其通过NVLink-C2C互联构建了GPU与CPU对共享内存的无差别、低延迟访问,CPU和GPU可共享同一进程页表,硬件维护缓存一致性,GPU可直接访问CPU端LPDDR5X内存(总带宽900 GB/s),CPU也能以缓存行粒度访问GPU端内存。

华为的UB-Mesh在架构上也采用了类似思路,通过统一总线协议连接GPU、内存池、SSD、网卡等异构资源,构建可扩展至百万级芯片的大规模AI系统。

面向下一代AI推理,统一编址的理念正从“CPU-GPU对”向更广阔的异构计算生态延伸——XPU与内存池之间的协同、异构算力的统一调度、异构芯片间的互联能力,已成为下一代AI推理系统亟待突破的核心课题。

从XPU间互联到内存池互联

以IOD 芯粒让计算和互联解耦的技术路径已经逐步形成产业共识。正如Meta的最新的MTIA系列都基于上一代优化,采用模块化小芯片(芯粒,将大芯片拆分为多个独立小模块拼接,降低研发难度、提升复用性)设计,融入最新的 AI 工作负载洞察与硬件技术,并以更短的周期完成部署。这种更紧凑的迭代闭环,让硬件能更好地适配不断演变的模型架构,灵活支持未来大模型所需硬件技术的落地应用。

(图:奇异摩尔@ODCC春季大会)

Kiwi IOD作为一款相对通用、支持内存语义、具备RDMA引擎且灵活可扩展的IO芯粒,除了实现XPU间互联外,同样可为XPU-Memory Pool互联提供了理想技术载体。

原生支持内存语义

Kiwi IOD从底层支持内存语义(Memory Semantics),使得XPU访问远端内存池时,无需借助复杂的驱动或中间层,即可通过Load/Store指令直接读写池化内存。这种设计让远端内存访问的编程体验与访问本地内存无异,大幅降低软件开发复杂度。

轻量化协议封装

针对内存池互联场景,Kiwi IOD复用Scale-up协议,可优化报文封装开销,通过减轻IOD DMA操作(Read/Write/Atomic)的软件参与度,实现数据通路的硬件直通。

通用IOD的XPU

Scale-up网络互联实现路径

9b3a1b5a-2d80-11f1-90a1-92fbcf53809c.png

(图:奇异摩尔@ODCC春季大会)

从NoC接口来看,计算芯粒的NoC与IOD必须在协议层实现接口对齐。在协议层适配方面,UCIe协议层原生支持PCIe Flit模式与CXL Flit模式,计算芯粒与IOD的协议适配层需采用一致的映射方式以实现互通。在统一的IOD协议层接口下,IOD能够为NoC提供差异化支持:在XPU-to-XPU场景中,支持XPU个性化的原子操作;在XPU-to-Memory Pool场景中,支持XPU个性化的近存计算操作。

从功能层来看,以XPU-to-Memory Pool场景为例,内存池对XPU的内存分配策略(如静态分配、动态按需分配)以及池化内存到XPU地址空间的映射方式与地址翻译机制,可选择通过IOD实现。

从Scale-up接口来看,IOD本身支持多元化的Scale-up接口,其灵活性使其能够持续适应Scale-up生态的演进需求。

(图:IO-NET内存池项目计划)

展望未来,奇异摩尔将持续依托腾讯IO-NET工作组的整体规划,牵头打造面向IO-NET的芯粒工作组,携手产业链上下游,共同构建适用于XPU-to-XPU、XPU-to-CPU及Memory Pool等场景的通用IOD技术规范,并推动专用IOD硬件的定制化落地。以此为AI Agent时代背景下的推理瓶颈提供互联领域的关键支撑,加速下一代异构计算互联生态的标准化与规模化进程。

  • 随机文章
  • 热门文章
  • 热评文章
不容错过
Powered By Z-BlogPHP