“存力中国行”探讨AI推理挑战,华为开源UCM技术
作者:365bet网址 发布时间:2025-11-07 09:28
由中国信息通信研究院主办的“储备中国行”活动于11月4日在北京举行,吸引了来自中国移动、华为、芯科移动等近20位行业代表齐聚。随着AI产业发展重点从“追逐模型能力极限”转向“追求推理体验优化”,先进的存储能力如何为AI推理“降本增效”成为人们关注的焦点。 “目前,AI推理面临KVCACHE存储升级、多模态数据升级、存储计算协同带宽不足、潮汐负载特性、成本控制等挑战。”中国移动云能力中心项目工程师负责人周宇在座谈会上面无表情。华为数据存储产品线战略与业务发展部总裁王旭东指出了行业痛点三个“不”:数据无法管理、算力无法供给、成本无法降低。在此背景下,华为开源的UCM(UnifiedCachemanager)内存管理技术被认为是打破这一局面的主要解决方案之一。该技术以KVCACHE多级缓存和推理内存管理为中心。通过推理框架、算力、存储三层协同,集成缓存加速算法工具,可以对推理过程中产生的kvcache内存数据进行分层管理,有效突破长序识别效率和成本瓶颈。据悉,UCM技术已于近日在墨清社区开源。开源内容包括四个关键能力:稀疏注意力、前缀缓存、预填充卸载和异构PD解耦。可以减少首轮代币延迟高达 90%,将系统吞吐量提升高达22倍,并实现上下文窗口10倍的扩展,显着提升AI性能。同时,主要框架和工具链向ModelEngine社区开放。开发者可以通过社区获取源代码和技术文档,共同完善技术架构和产业生态。业界普遍认为,UCM开源并不是简单的技术共享,而是让开发者和企业以更低的成本、更便捷的方式获得领先的AI推理能力,推动AI推理技术的大规模、普惠落地。杨娟娟主编、赵琳校对
电话
020-66888888