Attention Residuals:Attention终结者?残差连接变革
- Attention Residuals 概念提出,标题直指 LLM 中 Bye Bye Attention
- MoE 改善了 scaling,归一化策略已变革
- 残差连接 仍 surprisingly untouched,或成下一个突破点

Created by 任浩
Comprehensive updates on FlashAttention theory, benchmarks, and framework integrations
Explore the latest content tracked by FlashAttention Tracker
FlashAttention在AI推理优化中的工程亮点:
新兴注意力变体如何影响FlashAttention在大模型训练/推理中的ROI与优化优先级?
科研工程实践需评估这些演进对FlashAttention落地的潜在调整。
LookaheadKV提出快速且准确的KV缓存驱逐方法,通过瞥见未来而不生成实现。 这项LLM推理优化创新值得关注其与FlashAttention潜在结合。
vLLM中torch.compile的关键工程实现,显著提升大模型推理性能:
support_torch_compile包装torch.compile,支持守卫丢弃、懒编译及动态维度标记。Transformer架构计算极限新证:
Triton自定义内核融合攻克注意力机制内存痛点,与FlashAttention IO优化互补:
工程痛点:vLLM 中 Triton autotuner 处理 Qwen3.5/Qwen3-Next GDN (Gated Delta Net) 线性注意力层时 OOM,源于尝试基准内核配置失败——新型注意力变体兼容性影响 FlashAttention 栈部署稳定性。
密集输出投影混合注意力头,随模型维度二次方缩放,对整体计算贡献巨大。论文提出结构化Hadamard重构方案,探讨与FlashAttention IO-aware内核结合,提升大模型训练/推理效率潜力。
StitchCUDA关键进展,专注复杂机器学习工作负载的GPU程序生成与优化:
核心创新:通过快速块搜索同时定位动态垂直、斜杠和块稀疏注意力模式,动态阈值机制绕过排序开销,消除长尾分布提升稀疏性。
FlashAttention-3针对H100 GPU低利用率(FA-2仅35%),引入三大创新大幅提升性能:
Speculative Speculative Decoding (SSD) 是新型 LLM 推理算法,由 @tanishqkumar07 与 FlashAttention 作者 Tri Dao 等合作开发,比全球最强推理引擎快达 2x。作为 IO-aware 内核作者的新作,其在端到端推理栈中潜力巨大,值得追踪细节线程。
Together AI 发布 FlashAttention-4,在 NVIDIA Blackwell B200 上达 1,605 TFLOPs/s(71% 利用率),2.7x Triton 前向加速。
开源生态信号:CUDA Agent采用大规模代理RL系统,生成优化CUDA内核如资深GPU工程师,胜过torch.compile与专有模型。
对FlashAttention式内核工程大规模部署具启发,工程落地潜力大。