奇异摩尔携手产业伙伴共建IO-NET芯粒工作组

科创之家 2026-04-06 共9236人围观

3月31日，ODCC春季全会网络工作组会议在浙江舟山圆满落幕。为应对下一代AI网络技术的演进需求，腾讯牵头正式成立IO-NET项目工作组。该工作组将围绕面向Agent的新型互联体系，实现训练、推理、业务执行一体化展开深入探讨，携手产业链共建统一生态规范，推动AI网络持续演进。

作为IO-NET项目的重要成员，奇异摩尔依托工作组平台，牵头组织基于IO-NET的IOD芯粒工作组，联合产业链伙伴共同探索通用IOD的实现路径，为构建高效、标准化的下一代AI互联生态提供核心技术支撑。

奇异摩尔首席架构师朱琛发表主题演讲《基于通用IOD的XPU Scale-up网络互联实现路径》。演讲重点分析了Agent时代背景下，内存瓶颈正驱动集群架构向资源解耦方向演进。在这一演进过程中，通用IOD的应用场景从XPU-to-XPU拓展至XPU-to-CPU及XPU-to-Memory Pool。

朱琛指出，传统RDMA在XPU-to-CPU及XPU-to-Memory Pool场景下显得过于繁重，亟需一种更轻量化的DMA引擎。围绕这一需求，他从分层视角出发，系统探讨了从D2D，功能层以及Scale-up接口层通用IOD的实现路径。他进一步阐述了奇异摩尔作为腾讯牵头IO-NET项目组子项目的定位与未来规划，研究目标的及相关技术规范的落地展望。

Agent时代所带来的内存瓶颈

在大模型推理中，内存消耗大户远不止模型参数，更棘手的是KV Cache、长上下文、会话状态、多轮Agent记忆以及Prompt Cache等动态数据。KV Cache存储注意力机制中的键值向量，避免每生成一个token都重新计算，其大小随序列长度和批量大小线性增长，在大规模场景下甚至会超过模型权重本身。

为何需要统一内存池

在大模型训练与推理中，Batch Size是决定性能与效果的关键超参数。它不仅影响吞吐速度，更直接关系到模型的收敛行为与泛化能力。

随着Agent时代的到来，长序列已成为推理场景的主流趋势，显存需求呈指数级攀升。在这一背景下，Batch Size的选择正面临两难困境：

过大：过量占用GPU显存，极易触发显存溢出（OOM），同时推升Token生成延迟，影响服务稳定性；

过小：无法充分利用GPU计算资源，导致计算单元因“喂不饱”而持续空转，算力利用率大幅下降。

此时，统一内存池的重要性便凸显出来。通过构建全局统一、弹性伸缩的内存池，能够打破静态显存分配的僵化边界，在Batch Size动态变化时实现显存资源的灵活复用与高效调度——既能支撑更大Batch Size以提升吞吐，又能在高并发长序列场景下避免显存瓶颈，真正实现算力与内存的协同最优。

从CPU-GPU到全域统一编址

（图：奇异摩尔@ODCC春季大会）

如今，CPU与GPU不再是各自持有独立内存的异构设备，而是能够平等访问统一内存空间的计算单元，彻底消除了传统架构中数据在CPU内存与GPU显存之间反复拷贝的瓶颈。以英伟达为例，其通过NVLink-C2C互联构建了GPU与CPU对共享内存的无差别、低延迟访问，CPU和GPU可共享同一进程页表，硬件维护缓存一致性，GPU可直接访问CPU端LPDDR5X内存（总带宽900 GB/s），CPU也能以缓存行粒度访问GPU端内存。

华为的UB-Mesh在架构上也采用了类似思路，通过统一总线协议连接GPU、内存池、SSD、网卡等异构资源，构建可扩展至百万级芯片的大规模AI系统。

面向下一代AI推理，统一编址的理念正从“CPU-GPU对”向更广阔的异构计算生态延伸——XPU与内存池之间的协同、异构算力的统一调度、异构芯片间的互联能力，已成为下一代AI推理系统亟待突破的核心课题。

从XPU间互联到内存池互联

以IOD 芯粒让计算和互联解耦的技术路径已经逐步形成产业共识。正如Meta的最新的MTIA系列都基于上一代优化，采用模块化小芯片（芯粒，将大芯片拆分为多个独立小模块拼接，降低研发难度、提升复用性）设计，融入最新的 AI 工作负载洞察与硬件技术，并以更短的周期完成部署。这种更紧凑的迭代闭环，让硬件能更好地适配不断演变的模型架构，灵活支持未来大模型所需硬件技术的落地应用。

（图：奇异摩尔@ODCC春季大会）

Kiwi IOD作为一款相对通用、支持内存语义、具备RDMA引擎且灵活可扩展的IO芯粒，除了实现XPU间互联外，同样可为XPU-Memory Pool互联提供了理想技术载体。

原生支持内存语义

Kiwi IOD从底层支持内存语义（Memory Semantics），使得XPU访问远端内存池时，无需借助复杂的驱动或中间层，即可通过Load/Store指令直接读写池化内存。这种设计让远端内存访问的编程体验与访问本地内存无异，大幅降低软件开发复杂度。

轻量化协议封装

针对内存池互联场景，Kiwi IOD复用Scale-up协议，可优化报文封装开销，通过减轻IOD DMA操作（Read/Write/Atomic）的软件参与度，实现数据通路的硬件直通。

通用IOD的XPU

Scale-up网络互联实现路径

（图：奇异摩尔@ODCC春季大会）

从NoC接口来看，计算芯粒的NoC与IOD必须在协议层实现接口对齐。在协议层适配方面，UCIe协议层原生支持PCIe Flit模式与CXL Flit模式，计算芯粒与IOD的协议适配层需采用一致的映射方式以实现互通。在统一的IOD协议层接口下，IOD能够为NoC提供差异化支持：在XPU-to-XPU场景中，支持XPU个性化的原子操作；在XPU-to-Memory Pool场景中，支持XPU个性化的近存计算操作。

从功能层来看，以XPU-to-Memory Pool场景为例，内存池对XPU的内存分配策略（如静态分配、动态按需分配）以及池化内存到XPU地址空间的映射方式与地址翻译机制，可选择通过IOD实现。

从Scale-up接口来看，IOD本身支持多元化的Scale-up接口，其灵活性使其能够持续适应Scale-up生态的演进需求。

（图：IO-NET内存池项目计划）

展望未来，奇异摩尔将持续依托腾讯IO-NET工作组的整体规划，牵头打造面向IO-NET的芯粒工作组，携手产业链上下游，共同构建适用于XPU-to-XPU、XPU-to-CPU及Memory Pool等场景的通用IOD技术规范，并推动专用IOD硬件的定制化落地。以此为AI Agent时代背景下的推理瓶颈提供互联领域的关键支撑，加速下一代异构计算互联生态的标准化与规模化进程。