示例
欢迎使用 TensorCraft-HPC 示例!本节提供实践教程和代码示例,帮助您开始高性能 AI 内核开发。
快速链接
| 示例 | 描述 | 难度 |
|---|---|---|
| GEMM 教程 | 从零开始构建 GEMM,渐进式优化 | 🟢 初级 |
| FlashAttention | 内存高效注意力实现 | 🟡 中级 |
| Python 绑定 | 从 Python 使用 TensorCraft | 🟢 初级 |
前置要求
运行示例前,请确保已安装:
- CUDA Toolkit 11.0+
- CMake 3.18+
- C++17 兼容编译器 (GCC 9+, Clang 10+, MSVC 19.28+)
- Python 3.8+(可选,用于 Python 绑定)
运行示例
C++ 示例
bash
# 克隆并构建
git clone https://github.com/LessUp/modern-ai-kernels.git
cd modern-ai-kernels
# 使用 CUDA 支持构建
cmake --preset dev
cmake --build --preset dev
# 运行示例
./build/dev/examples/gemm_examplePython 示例
bash
# 安装 Python 包
pip install -e .
# 运行 Python 示例
python examples/python/gemm_demo.py学习路径
我们建议按以下顺序学习以获得最佳体验:
- 从 GEMM 教程开始 — 学习 CUDA 内核优化的基础
- 探索 FlashAttention — 理解内存高效计算模式
- 尝试 Python 绑定 — 将 TensorCraft 集成到 Python 工作流