FlashAttention Tracker

March 18, 2026

Attention Residuals：Attention终结者？残差连接变革

Attention Residuals 概念提出，标题直指 LLM 中 Bye Bye Attention
MoE 改善了 scaling，归一化策略已变革
残差连接 仍 surprisingly untouched，或成下一个突破点

What is Attention Residuals? Bye Bye Attention in LLMs | by Mehul Gupta

March 18, 2026·

medium.com

March 18, 2026

FlashAttention推理内核：2-4x加速与内存优化剖析

FlashAttention在AI推理优化中的工程亮点：

专用内核较naive PyTorch推理实现2–4x加速。
作为关键突破，降低attention内存复杂度，助力高效大模型部署。
工程实践价值高，值得复现对比。

The Hidden Engineering behind Fast AI: Inference optimization for ...

March 18, 2026·

medium.com

March 17, 2026

新兴注意力变体如何影响FlashAttention ROI与优化优先级？

新兴注意力变体如何影响FlashAttention在大模型训练/推理中的ROI与优化优先级？

Attention Residuals：现代LLM残差连接与PreNorm标准，但以固定单位权重累积所有层输出
Mixture-of-Depths Attention：新论文发布

科研工程实践需评估这些演进对FlashAttention落地的潜在调整。

March 16, 2026

FlashAttention Tracker · 2026年3月16日日报

工程集成与推理优化

🔥 vLLM Compile Deep Dive视频: Ayush Satyam（PyTorch/vLLM贡献者）发布30分钟YouTube视频，详细解析vLLM中torch.compile工作流程，包括系统架构、编译管道、KV缓存管理及自定义CUDA内核。
-...

March 16, 2026

LookaheadKV：无需生成即可预览未来的高效KV缓存驱逐方法

LookaheadKV提出快速且准确的KV缓存驱逐方法，通过瞥见未来而不生成实现。这项LLM推理优化创新值得关注其与FlashAttention潜在结合。

LookaheadKV: Fast and Accurate KV Cache Eviction by Glimpsing into the Future without Generation

arxiv.org

LookaheadKV: Fast and Accurate KV Cache Eviction by Glimpsing into the Future without Generation

March 16, 2026

vLLM torch.compile编译管道与推理优化详解

vLLM中torch.compile的关键工程实现，显著提升大模型推理性能：

支持装饰器：support_torch_compile包装torch.compile，支持守卫丢弃、懒编译及动态维度标记。
分段图拆分：自定义后端进行策略性图断开与逐段编译，适配推理场景。
Pass Manager优化：注入推理专用FX图优化，如归一化融合、注意力后处理融合及通信计算融合。
CUDA Graph包装：捕获操作后无开销重放，结合注意力模块提取手写核加速。

March 16, 2026

Transformer注意力计算硬度：无捷径优化，对FlashAttention理论启示

Transformer架构计算极限新证：

首次非平凡下界：多层与多头注意力无法比独立求解更高效。
挑战加速捷径：揭示注意力机制固有复杂度，限制算法优化空间。
FlashAttention启示：工程优化须正视理论瓶颈，推动更深层创新。

March 12, 2026

聊天部署优化：注意力剪枝与KV缓存20x压缩

聊天挑战：迭代精炼下KV缓存管理 demanding，占用数GB，on-chip低延迟但浪费内存
剪枝实践：注意力头任务特定激活模式，创建精简模型；同算法参数剪枝近SOTA，加速生成缩小KV
压缩工程：GPU变换编码器（线性去相关+量化+熵压），20x压缩（部分80x），精度损失微小，多轮对话快速卸载外部存储
理论洞见：揭示KV缓存低秩结构，助力高效人-LLM交互

March 11, 2026

Triton内核融合RMSNorm+Softmax：解决GPU内存瓶颈，LLM提速2倍

Triton自定义内核融合攻克注意力机制内存痛点，与FlashAttention IO优化互补：

内存墙问题：PyTorch标准函数致GPU闲置98%，VRAM带宽浪费。
单次融合实现：RMSNorm & Causal Softmax直接在SRAM处理，绕过内存瓶颈。
性能基准：自定义内核击败PyTorch 2X，Causal Mask完美扩展。
工程资源：GitHub代码开源（qooba/bielik-anatomy-triton），用Python/PyTorch/Triton/CUDA。

March 11, 2026

Pruna 0.3.2 新增 ring_attn 与 sage_attn 注意力内核

新增内核：ring_attn 支持分布式注意力，扩展多设备训练；sage_attn 提供快速内存高效注意力。
编译器集成：x_fast 结合 xformers、triton、cudnn 和 torch tracing 加速推理。
组合优化：支持 ring_attn 与 torch_compile、padding_pruning 等兼容算法，提升大模型效率。
算法兼容：允许不相容算法应用于模型不同部分，值得验证与 FlashAttention 内核集成。

Pruna 0.3.2: More OSS Algos, More Ways to Optimize - DEV Community

dev.to

Pruna 0.3.2: More OSS Algos, More Ways to Optimize - DEV Community

March 11, 2026

FlashAttention Tracker · 2026年3月11日日报

算法与理论新进展

🔥 FlashPrefill 论文: FlashPrefill 通过瞬时模式发现和动态阈值技术实现长上下文预填充超快加速，在 256K 序列上达 27.78x 加速，在 4K 长度上维持 1.71x 加速。
Rethinking Attention Output...

March 10, 2026

Triton autotuner 在 Qwen3.5 GDN 层 OOM Bug

工程痛点：vLLM 中 Triton autotuner 处理 Qwen3.5/Qwen3-Next GDN (Gated Delta Net) 线性注意力层时 OOM，源于尝试基准内核配置失败——新型注意力变体兼容性影响 FlashAttention 栈部署稳定性。

[Bug]: Triton autotuner OOM on Qwen3.5/Qwen3-Next GDN layers (non- ...

March 10, 2026·

github.com

March 10, 2026

结构化Hadamard优化注意力输出投影二次瓶颈

密集输出投影混合注意力头，随模型维度二次方缩放，对整体计算贡献巨大。论文提出结构化Hadamard重构方案，探讨与FlashAttention IO-aware内核结合，提升大模型训练/推理效率潜力。

Rethinking Attention Output Projection: Structured Hadamard ...

March 10, 2026·

arxiv.org

March 10, 2026

StitchCUDA：AI多代理自动化端到端ML GPU编程

StitchCUDA关键进展，专注复杂机器学习工作负载的GPU程序生成与优化：

三代理协作：Planner系统设计、Coder实现代码、Verifier性能验证，实现全程序自动化
强化学习创新：rubric-based agentic RL训练Coder原子技能，避免reward...

March 10, 2026

FlashPrefill：即时稀疏模式发现，27.78x超快长上下文预填充

核心创新：通过快速块搜索同时定位动态垂直、斜杠和块稀疏注意力模式，动态阈值机制绕过排序开销，消除长尾分布提升稀疏性。

性能飞跃：256K序列达27.78x加速，4K短上下文仍1.71x，全长尺度稳健。
预填充瓶颈破解：针对LLM推理中二次方复杂度痛点，瞬时模式发现避开搜索延迟。
科研工程必读，补FlashAttention推理优化潜力巨大。

Paper page - FlashPrefill: Instantaneous Pattern Discovery and Thresholding for Ultra-Fast Long-Context Prefilling

huggingface.co

Paper page - FlashPrefill: Instantaneous Pattern Discovery and Thresholding for Ultra-Fast Long-Context Prefilling

March 10, 2026

March 8, 2026

FlashAttention-3在H100上通过异步与低精度实现2x加速

FlashAttention-3针对H100 GPU低利用率（FA-2仅35%），引入三大创新大幅提升性能：

Producer-Consumer异步：warp级软件流水线，重叠数据移动与计算，隐藏内存/指令延迟；
-...

March 6, 2026

Tri Dao 参与 SSD：LLM 推理加速高达 2x

Speculative Speculative Decoding (SSD) 是新型 LLM 推理算法，由 @tanishqkumar07 与 FlashAttention 作者 Tri Dao 等合作开发，比全球最强推理引擎快达 2x。作为 IO-aware 内核作者的新作，其在端到端推理栈中潜力巨大，值得追踪细节线程。

March 5, 2026

FlashAttention-4 在 Blackwell B200 上创 71% 利用率，破解资源瓶颈

Together AI 发布 FlashAttention-4，在 NVIDIA Blackwell B200 上达 1,605 TFLOPs/s（71% 利用率），2.7x Triton 前向加速。

非对称瓶颈：Tensor Core 吞吐从 H100 的 1 PFLOPs 跃至 B200...

FlashAttention-4 Hits 71% GPU Utilization on NVIDIA Blackwell B200

blockchain.news

FlashAttention-4 Hits 71% GPU Utilization on NVIDIA Blackwell B200

March 5, 2026

FlashAttention Tracker · 2026年3月5日日报

NVIDIA Blackwell 优化指南

🔥 FlashAttention 工作负载优化: NVIDIA 发布了针对 Blackwell GPU 的 FlashAttention 优化指南，使用 cuTile Python 框架实现 1.60x 至 1.66x 性能提升，强调增大...

March 4, 2026

CUDA Agent：代理RL生成高性能CUDA内核的开源突破

开源生态信号：CUDA Agent采用大规模代理RL系统，生成优化CUDA内核如资深GPU工程师，胜过torch.compile与专有模型。

从PyTorch/Transformers真实工作负载合成数千融合算子任务，经执行过滤。
ReAct代理循环在GPU沙箱：编写、编译、profile、迭代优化，得奖励。
分阶段训练：PPO预热、拒绝微调、128k token长序列RL稳定。

对FlashAttention式内核工程大规模部署具启发，工程落地潜力大。

🧰 The Open Source Issue: Qwen3.5 Small, NotebookLM Styles, and CUDA at Scale

March 4, 2026·

aicollective.substack.com

Digest Calendar

Recent Posts

Attention Residuals：Attention终结者？残差连接变革

What is Attention Residuals? Bye Bye Attention in LLMs | by Mehul Gupta

FlashAttention推理内核：2-4x加速与内存优化剖析

The Hidden Engineering behind Fast AI: Inference optimization for ...

新兴注意力变体如何影响FlashAttention ROI与优化优先级？

FlashAttention Tracker · 2026年3月16日日报

工程集成与推理优化

LookaheadKV：无需生成即可预览未来的高效KV缓存驱逐方法

LookaheadKV: Fast and Accurate KV Cache Eviction by Glimpsing into the Future without Generation

vLLM torch.compile编译管道与推理优化详解

Transformer注意力计算硬度：无捷径优化，对FlashAttention理论启示

聊天部署优化：注意力剪枝与KV缓存20x压缩

Triton内核融合RMSNorm+Softmax：解决GPU内存瓶颈，LLM提速2倍

Pruna 0.3.2 新增 ring_attn 与 sage_attn 注意力内核

Pruna 0.3.2: More OSS Algos, More Ways to Optimize - DEV Community

FlashAttention Tracker · 2026年3月11日日报

算法与理论新进展

Triton autotuner 在 Qwen3.5 GDN 层 OOM Bug

[Bug]: Triton autotuner OOM on Qwen3.5/Qwen3-Next GDN layers (non- ...

结构化Hadamard优化注意力输出投影二次瓶颈

Rethinking Attention Output Projection: Structured Hadamard ...

StitchCUDA：AI多代理自动化端到端ML GPU编程

FlashPrefill：即时稀疏模式发现，27.78x超快长上下文预填充

Paper page - FlashPrefill: Instantaneous Pattern Discovery and Thresholding for Ultra-Fast Long-Context Prefilling

FlashAttention-3在H100上通过异步与低精度实现2x加速

Tri Dao 参与 SSD：LLM 推理加速高达 2x

FlashAttention-4 在 Blackwell B200 上创 71% 利用率，破解资源瓶颈

FlashAttention-4 Hits 71% GPU Utilization on NVIDIA Blackwell B200

FlashAttention Tracker · 2026年3月5日日报

NVIDIA Blackwell 优化指南

CUDA Agent：代理RL生成高性能CUDA内核的开源突破

🧰 The Open Source Issue: Qwen3.5 Small, NotebookLM Styles, and CUDA at Scale

Reading Activity