- 非官方的 Ascend CANN 算子库技术专题,涵盖架构、算子开发、性能优化等核心内容。
- 基于 Astro Starlight 构建,支持 Algolia DocSearch 与 sitemap,便于索引与检索。
- 文章同步托管于仓库,可本地启动后离线阅读。
卷一 · 架构与开发
- 第1篇:昇腾CANN算子库全景概览:分层架构、算子库组成与生态定位。
- 第2篇:CANN算子开发通用架构与工程实践:Ascend C 编程模型、流水线并行与工程化范式。
卷二 · 算子库专题
- 第3篇(上):ops-transformer:GMM、FIA、Dispatch/Combine 等 Transformer 关键算子。
- 第3篇(下):ops-transformer:MoE、MLA、LLaMA/DeepSeek 优化与路由实现。
- 第4篇(上):ops-nn:基础神经网络算子分类、激活/卷积/归一化优化。
- 第4篇(下):ops-nn:池化、选择索引等算子实现与调优实践。
- 第5篇:ops-math:144 个数学算子的分类、精度与性能优化策略。
- 第6篇(上):ops-cv:图像几何变换、插值与目标检测前处理算子。
- 第6篇(下):ops-cv:NMS/IoU、实例分割、图像增强与 3D 视觉算子。
- 第7篇(上):atvoss:模板化编程框架架构、五层设计与编程范式。
- 第7篇(下):atvoss:高级特性、表达式模板、实践案例与调优技巧。
卷三 · 性能与工具
- 第8篇:Tiling机制与内存管理深度解析:Tiling 框架、动态策略与内存层次优化。
- 第9篇:异步编程与并行计算在CANN中的应用:受限异步模型、Stream 调度与多级并行。
- 第10篇:量化技术与混合精度计算实践:FP16/BF16/INT8 能力、低比特思路与混合精度最佳实践。
- 第11篇:算子性能调优与实战指南:性能指标体系、瓶颈分析器与实战调优方法论。
- 克隆代码后执行
pnpm install && pnpm dev,默认端口4321。 - 调整侧边栏或导航请同步更新
astro.config.mjs,以保证目录一致性。