3月31日,ODCC春季全会网络工作组会议在浙江舟山圆满落幕。为应对下一代AI网络技术的演进需求,腾讯牵头正式成立IO-NET项目工作组。该工作组将围绕面向Agent的新型互联体系,实现训练、推理、业务执行一体化展开深入探讨,携手产业链共建统一生态规范,推动AI网络持续演进。
作为IO-NET项目的重要成员,奇异摩尔依托工作组平台,牵头组织基于IO-NET的IOD芯粒工作组,联合产业链伙伴共同探索通用IOD的实现路径,为构建高效、标准化的下一代AI互联生态提供核心技术支撑。
奇异摩尔首席架构师朱琛发表主题演讲《基于通用IOD的XPU Scale-up网络互联实现路径》。演讲重点分析了Agent时代背景下,内存瓶颈正驱动集群架构向资源解耦方向演进。在这一演进过程中,通用IOD的应用场景从XPU-to-XPU拓展至XPU-to-CPU及XPU-to-Memory Pool。
朱琛指出,传统RDMA在XPU-to-CPU及XPU-to-Memory Pool场景下显得过于繁重,亟需一种更轻量化的DMA引擎。围绕这一需求,他从分层视角出发,系统探讨了从D2D,功能层以及Scale-up接口层通用IOD的实现路径。他进一步阐述了奇异摩尔作为腾讯牵头IO-NET项目组子项目的定位与未来规划,研究目标的及相关技术规范的落地展望。
Agent时代所带来的内存瓶颈
在大模型推理中,内存消耗大户远不止模型参数,更棘手的是KV Cache、长上下文、会话状态、多轮Agent记忆以及Prompt Cache等动态数据。KV Cache存储注意力机制中的键值向量,避免每生成一个token都重新计算,其大小随序列长度和批量大小线性增长,在大规模场景下甚至会超过模型权重本身。
为何需要统一内存池
在大模型训练与推理中,Batch Size是决定性能与效果的关键超参数。它不仅影响吞吐速度,更直接关系到模型的收敛行为与泛化能力。
随着Agent时代的到来,长序列已成为推理场景的主流趋势,显存需求呈指数级攀升。在这一背景下,Batch Size的选择正面临两难困境:
过大:过量占用GPU显存,极易触发显存溢出(OOM),同时推升Token生成延迟,影响服务稳定性;
过小:无法充分利用GPU计算资源,导致计算单元因“喂不饱”而持续空转,算力利用率大幅下降。
此时,统一内存池的重要性便凸显出来。通过构建全局统一、弹性伸缩的内存池,能够打破静态显存分配的僵化边界,在Batch Size动态变化时实现显存资源的灵活复用与高效调度——既能支撑更大Batch Size以提升吞吐,又能在高并发长序列场景下避免显存瓶颈,真正实现算力与内存的协同最优。
从CPU-GPU到全域统一编址

(图:奇异摩尔@ODCC春季大会)
如今,CPU与GPU不再是各自持有独立内存的异构设备,而是能够平等访问统一内存空间的计算单元,彻底消除了传统架构中数据在CPU内存与GPU显存之间反复拷贝的瓶颈。以英伟达为例,其通过NVLink-C2C互联构建了GPU与CPU对共享内存的无差别、低延迟访问,CPU和GPU可共享同一进程页表,硬件维护缓存一致性,GPU可直接访问CPU端LPDDR5X内存(总带宽900 GB/s),CPU也能以缓存行粒度访问GPU端内存。
华为的UB-Mesh在架构上也采用了类似思路,通过统一总线协议连接GPU、内存池、SSD、网卡等异构资源,构建可扩展至百万级芯片的大规模AI系统。
面向下一代AI推理,统一编址的理念正从“CPU-GPU对”向更广阔的异构计算生态延伸——XPU与内存池之间的协同、异构算力的统一调度、异构芯片间的互联能力,已成为下一代AI推理系统亟待突破的核心课题。
从XPU间互联到内存池互联
以IOD 芯粒让计算和互联解耦的技术路径已经逐步形成产业共识。正如Meta的最新的MTIA系列都基于上一代优化,采用模块化小芯片(芯粒,将大芯片拆分为多个独立小模块拼接,降低研发难度、提升复用性)设计,融入最新的 AI 工作负载洞察与硬件技术,并以更短的周期完成部署。这种更紧凑的迭代闭环,让硬件能更好地适配不断演变的模型架构,灵活支持未来大模型所需硬件技术的落地应用。
(图:奇异摩尔@ODCC春季大会)
Kiwi IOD作为一款相对通用、支持内存语义、具备RDMA引擎且灵活可扩展的IO芯粒,除了实现XPU间互联外,同样可为XPU-Memory Pool互联提供了理想技术载体。
原生支持内存语义
Kiwi IOD从底层支持内存语义(Memory Semantics),使得XPU访问远端内存池时,无需借助复杂的驱动或中间层,即可通过Load/Store指令直接读写池化内存。这种设计让远端内存访问的编程体验与访问本地内存无异,大幅降低软件开发复杂度。
轻量化协议封装
针对内存池互联场景,Kiwi IOD复用Scale-up协议,可优化报文封装开销,通过减轻IOD DMA操作(Read/Write/Atomic)的软件参与度,实现数据通路的硬件直通。
通用IOD的XPU
Scale-up网络互联实现路径

(图:奇异摩尔@ODCC春季大会)
从NoC接口来看,计算芯粒的NoC与IOD必须在协议层实现接口对齐。在协议层适配方面,UCIe协议层原生支持PCIe Flit模式与CXL Flit模式,计算芯粒与IOD的协议适配层需采用一致的映射方式以实现互通。在统一的IOD协议层接口下,IOD能够为NoC提供差异化支持:在XPU-to-XPU场景中,支持XPU个性化的原子操作;在XPU-to-Memory Pool场景中,支持XPU个性化的近存计算操作。
从功能层来看,以XPU-to-Memory Pool场景为例,内存池对XPU的内存分配策略(如静态分配、动态按需分配)以及池化内存到XPU地址空间的映射方式与地址翻译机制,可选择通过IOD实现。
从Scale-up接口来看,IOD本身支持多元化的Scale-up接口,其灵活性使其能够持续适应Scale-up生态的演进需求。
(图:IO-NET内存池项目计划)
展望未来,奇异摩尔将持续依托腾讯IO-NET工作组的整体规划,牵头打造面向IO-NET的芯粒工作组,携手产业链上下游,共同构建适用于XPU-to-XPU、XPU-to-CPU及Memory Pool等场景的通用IOD技术规范,并推动专用IOD硬件的定制化落地。以此为AI Agent时代背景下的推理瓶颈提供互联领域的关键支撑,加速下一代异构计算互联生态的标准化与规模化进程。
- 随机文章
- 热门文章
- 热评文章
- 4月10日将迎“龙年龙月龙日龙时”
- 折叠品类再添一员 传华为正开发三屏折叠手机
- 金价“疯”涨之谜 金价走势与实际利率“背离”
- 3月以来黄金ETF规模大增
- 追问|味觉异常可能增加脑卒中的患病风险?
- 如何加速ICT技术标准和产业发展?智能云网是关键
- 《自然》杂志:调查显示美室温超导研究人员学术造假
- 14家银行绿色贷款余额超20万亿 积极支持绿色低碳发展
- 白银投资者犹豫不决,短期内面临盘整或回调
- 为党而生——党的首个情报保卫专门机构在武汉诞生
- 学习语 | 营造崇廉拒腐的良好风尚
- MH迈汇:OPEC+对抑制油价上涨至100美元至关重要
- 兰州银行副行长王斌国辞任,将出任兰州金控董事长
- 1“赛事+”提升城市“流量” 陕西商洛拓经济发展新“赛道”
- 2“五一”临近 持基过节的投资者要注意这几点
- 3华发股份:成功入选“人民优选”品牌 五一黄金周热销30亿
- 4钟鼓楼老街区的古都新事
- 5非常危险!女子摔成粉碎性骨折!又是因为洞洞鞋,夏天多人中招……
- 6金税四期试点上线,财税体制改革拉开帷幕!或有资金借道信创ETF基金(562030)逢跌进场布局
- 7到2027年产业规模达到2000亿元 浙江发布历史经典产业高质量发展计划
- 8初步数据:我国一季度经常账户顺差392亿美元
- 9IDC:24Q1全球PC出货量恢复增长 达到疫情前水平
- 10“发现山西之美”TDC旅游发现者大会举办:共话文旅新生态 邀客体验新玩法
- 11国门“夫妻档” 国庆共坚守
- 12北交所一周审核动态:2家企业更新进展 胜业电气二轮问询回复中称家电头部客户对价格敏感度较低
- 13(中国新貌)“国宝”大熊猫:栖居更美境 云游更广天
- 1大裁员下,特斯拉两名顶级高管离职
- 2奇瑞将与欧洲高端品牌签署技术平台授权协议
- 32024中国长三角青年企业家交流大会在杭州举办
- 4雷克萨斯GX中东版 全部在售 2023款 2022款 2020款 2019款 2018款成都远卓名车雷克萨斯GX中东版团购钜惠20万 欢迎上门试驾
- 5零跑C16将搭载中创新航磷酸铁锂电池
- 6Q1净利微增7%,宁德时代股东总数较2023年年末减少10728户
- 7哪吒,需要背水一战
- 8“新”中有“机”!创新服务承接新流量 撬动消费升级
- 9非创始版SU7何时交付 小米:工厂生产爬坡 全力提高产能
- 10央媒评卧铺挂帘:谁买的票谁做主
- 11江西南昌首部“多规合一”国土空间总体规划获批
- 12方程豹旗舰硬派越野!豹8正式亮相:仰望U8“青春版”登场
- 13583家族/造型霸气 方程豹豹8量产版发布




