DIYFlashAttention

主题	收获
GPU 内存层级	HBM → L2 → SRAM → 寄存器的数据流动
Triton 编程	自动分块、autotune、内核优化技巧
FlashAttention 算法	在线 softmax、因果掩码、变长序列处理
性能调优	块大小选择、occupancy 优化、内存分析

项目数据

核心 Triton 内核

O(N)

注意力内存复杂度

GPU 架构支持

99%

内存节省（长序列）

快速开始

bash

# 安装
pip install diy-flash-attention

# 或者从源码安装
pip install -e ".[dev]"

# 验证安装
python -c "from kernels import flash_attention; print('✓ 安装成功')"

运行示例

python

import torch
from kernels import flash_attention

# FlashAttention — 长序列内存减少 99%
q = torch.randn(2, 8, 4096, 64, device="cuda", dtype=torch.float16)
k = torch.randn(2, 8, 4096, 64, device="cuda", dtype=torch.float16)
v = torch.randn(2, 8, 4096, 64, device="cuda", dtype=torch.float16)

out = flash_attention(q, k, v, causal=True)  # GPT 风格因果掩码
print(f"输出形状: {out.shape}")  # [2, 8, 4096, 64]

学习路径

🧑‍💻

内核开发者

从教程开始，逐行理解 FlashAttention 实现

推荐：教程 → API → 性能指南

🔬

研究人员

快速查阅 API 契约，复现和修改内核

语言切换

🇨🇳 中文 🇺🇸 English

DIYFlashAttention

读得懂的 Triton 代码

O(N) 内存复杂度

真实性能数据

架构自适应

完整测试覆盖

中英双语文档

为什么选择这个项目？ ​

你将学到什么 ​

项目数据 ​

快速开始 ​

运行示例 ​

学习路径 ​

语言切换 ​

为什么选择这个项目？

你将学到什么

项目数据

快速开始

运行示例

学习路径

语言切换