Skip to content

GEMM 教程

即将推出

本教程正在开发中。请稍后回来查看从零开始构建 GEMM 内核的完整指南。

概述

本教程将引导您从零开始构建 GEMM(通用矩阵乘法)内核,展示渐进式优化技术。

计划主题

  1. 朴素实现 — 基本三重循环方法
  2. 共享内存分块 — 减少全局内存访问
  3. 双缓冲 — 隐藏内存延迟
  4. Tensor Core (WMMA) — 利用硬件加速

前置要求

  • 基础 CUDA 编程知识
  • 矩阵运算理解
  • GPU 内存层次结构熟悉

保持更新

关注 GitHub 仓库 获取本教程的更新。

Released under the Apache 2.0 License.