news 2026/7/4 8:35:34

CANN/ge LLM-DataDist接口列表

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
CANN/ge LLM-DataDist接口列表

# LLM-DataDist-interface-list

【免费下载链接】geGE(Graph Engine)是面向昇腾的图编译器和执行器,提供了计算图优化、多流并行、内存复用和模型下沉等技术手段,加速模型执行效率,减少模型内存占用。 GE 提供对 PyTorch、TensorFlow 前端的友好接入能力,并同时支持 onnx、pb 等主流模型格式的解析与编译。项目地址: https://gitcode.com/cann/ge

LLM-DataDist:大模型分布式集群和数据加速组件,提供了集群KV数据管理能力,以支持全量图和增量图分离部署。

  • 支持的产品形态如下:

    • Atlas A2 推理系列产品
    • Atlas A3 训练系列产品/Atlas A3 推理系列产品
  • 当前仅支持Python3.9与Python3.11。安装方法请参考Python官网https://www.python.org/。

  • 最大注册50GB的Device内存。注册内存越大,占用的OS内存越多。

LLM-DataDist-interface-list如下。

LLM-DataDist

表 1LLM-DataDist接口

接口名称简介
LLMDataDist-constructor构造LLMDataDist。
init初始化LLMDataDist。
finalize释放LLMDataDist。
link_clusters建链。
unlink_clusters断链。
check_link_status调用此接口可快速检测链路状态是否正常。
kv_cache_manager获取KvCacheManager实例。
switch_role切换当前LLMDataDist的角色,建议仅在使用PagedAttention的场景使用。

LLMConfig

表 2LLMConfig接口

接口名称简介
LLMConfig-constructor构造LLMConfig。
generate_options生成配置项字典。
device_id设置当前进程Device ID,对应底层ge.exec.deviceId配置项。
sync_kv_timeout配置拉取kv等接口超时时间,对应底层llm.SyncKvCacheWaitTime配置项。
enable_switch_role配置是否支持角色平滑切换,对应底层llm.EnableSwitchRole配置项。
ge_options配置额外的GE配置项。
listen_ip_infoPROMPT侧设置集群侦听信息,对应底层llm.listenIpInfo配置项。
mem_utilization配置ge.flowGraphMemMaxSize内存的利用率。默认值0.95。
buf_pool_cfg用户指定内存档位配置,提高内存申请性能和使用率。

KvCacheManager

表 3KvCacheManager接口

接口名称简介
KvCacheManager-constructor介绍KvCacheManager-constructor。
is_initialized查询KvCacheManager实例是否已初始化。
allocate_cache分配Cache,Cache分配成功后,会同时被cache_id与cache_keys引用,只有当这些引用都解除后,cache所占用的资源才会实际释放。
deallocate_cache释放Cache。
remove_cache_key移除CacheKey,仅当LLMRole为PROMPT时可调用。
pull_cache根据CacheKey,从对应的Prompt节点拉取KV到本地KV Cache,仅当LLMRole为DECODER时可调用。
copy_cache拷贝KV。
get_cache_tensors获取cache tensor。
allocate_blocks_cachePagedAttention场景下,分配多个blocks的Cache。
pull_blocksPagedAttention场景下,根据BlocksCacheKey,通过block列表的方式从对应的Prompt节点拉取KV到本地KV Cache,仅当LLMRole为DECODER时可调用。
copy_blocksPagedAttention场景下,拷贝KV。
swap_blocks对cpu_cache和npu_cache进行换入换出。
transfer_cache_async异步分层传输KV Cache。

KvCache

表 4KVCache接口

接口名称简介
KvCache-constructor构造KVCache。
cache_id获取KvCache的id。
cache_desc获取KvCache描述。
per_device_tensor_addrs获取KvCache的地址。
create_cpu_cache创建cpu cache。

LLMClusterInfo

表 5LLMClusterInfo接口

接口名称简介
LLMClusterInfo-constructor构造LLMClusterInfo。
remote_cluster_id设置对端集群ID。
append_local_ip_info添加本地集群IP信息。
append_remote_ip_info添加远端集群IP信息。

CacheTask

表 6CacheTask

接口名称简介
CacheTask-constructor构造CacheTask。
synchronize等待所有层传输完成,并获取整体执行结果。
get_results等待所有层传输完成,并获取每个TransferConfig对应执行结果。

其他

表 7其他

接口名称简介
LLMRoleLLMRole的枚举值。
PlacementCacheDesc的字段,表示cache所在的设备类型。
CacheDesc构造CacheDesc。
CacheKey构造CacheKey。
CacheKeyByIdAndIndex构造CacheKeyByIdAndIndex,通常在pull_cache接口中作为参数类型使用。
BlocksCacheKeyPagedAttention场景下,构造BlocksCacheKey。
LayerSynchronizer等待模型指定层执行完成,用户需要继承LayerSynchronizer并实现该接口。
该接口会在执行KvCacheManager.transfer_cache_async时被调用,当该接口返回成功,则开始当前层cache的传输。
TransferConfig构造TransferConfig。
TransferWithCacheKeyConfig构造TransferWithCacheKeyConfig。
LLMException获取异常的error-code。error-code列表详见LLMStatusCode。
LLMStatusCodeLLMStatusCode的枚举值。
DataTypeDataType的枚举类。

【免费下载链接】geGE(Graph Engine)是面向昇腾的图编译器和执行器,提供了计算图优化、多流并行、内存复用和模型下沉等技术手段,加速模型执行效率,减少模型内存占用。 GE 提供对 PyTorch、TensorFlow 前端的友好接入能力,并同时支持 onnx、pb 等主流模型格式的解析与编译。项目地址: https://gitcode.com/cann/ge

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/7/4 8:32:24

Watchbird:终极PHP WAF解决方案,5分钟部署保护AWD赛事安全

Watchbird:终极PHP WAF解决方案,5分钟部署保护AWD赛事安全 【免费下载链接】awd-watchbird A powerful PHP WAF for AWD 项目地址: https://gitcode.com/gh_mirrors/aw/awd-watchbird Watchbird是一款专为AWD(攻防对抗)赛事…

作者头像 李华
网站建设 2026/7/4 8:26:53

Windmill React UI无障碍开发指南:让你的应用惠及所有用户

Windmill React UI无障碍开发指南:让你的应用惠及所有用户 【免费下载链接】windmill-react-ui 🧩 The component library for fast and accessible development of gorgeous interfaces. 项目地址: https://gitcode.com/gh_mirrors/wi/windmill-react…

作者头像 李华
网站建设 2026/7/4 8:26:12

GPT-4.1不存在:揭穿命名迷思,聚焦GPT-4o真实能力边界

我需要澄清一个关键事实:截至目前(2024年中), OpenAI 官方从未发布过名为“GPT-4.1”的模型 ,也未在任何技术报告、开发者文档、API 更新日志或官方博客中使用该命名。 这一名称 不存在于OpenAI的公开技术谱系中 …

作者头像 李华
网站建设 2026/7/4 8:24:51

终极指南:如何在iPhone上流畅运行Minecraft Java版

终极指南:如何在iPhone上流畅运行Minecraft Java版 【免费下载链接】PojavLauncher_iOS A Minecraft: Java Edition Launcher for Android and iOS based on Boardwalk. Succeeded by https://github.com/AngelAuraMC/Amethyst-iOS 项目地址: https://gitcode.com…

作者头像 李华
网站建设 2026/7/4 8:24:03

自动驾驶笔记:卡尔曼滤波在车辆状态估计中的5个实战案例

自动驾驶笔记:卡尔曼滤波在车辆状态估计中的5个实战案例 【免费下载链接】Autopilot-Notes 自动驾驶笔记,以解析各模块知识点、整合行业优秀解决方案进行阐述,以帮助自己及有需要的读者;包含深度学习、deeplearning、无人驾驶、BE…

作者头像 李华
网站建设 2026/7/4 8:22:22

5分钟掌握Buzz:你的终极免费离线音频转录解决方案

5分钟掌握Buzz:你的终极免费离线音频转录解决方案 【免费下载链接】buzz Buzz transcribes and translates audio offline on your personal computer. Powered by OpenAIs Whisper. 项目地址: https://gitcode.com/GitHub_Trending/buz/buzz 还在为音频转录…

作者头像 李华