Skip to content

FlashAttention 示例

即将推出

本示例正在开发中。请稍后回来查看 FlashAttention 实现的详细讲解。

概述

FlashAttention 是一种内存高效的注意力机制,通过巧妙的分块策略将内存复杂度从 O(N²) 降低到 O(N)。

关键概念

  • 分块 — 分块处理注意力
  • 在线 Softmax — 增量计算 softmax
  • 内存效率 — 减少 HBM 访问

参考文献

Released under the Apache 2.0 License.