咕咕嘎嘎-Token-Compression

咕咕嘎嘎 2026-06-17

2026-06-17

DS V4 sparse attention

使用了 Indexer Projection 的 trick，其中

相比于 DSA 更加压缩，其中

将序列压缩程度更大地切成 block，每个 block 内部 merge 之后做 dense attention

和 DS 的 sparse attention 不同，是一个 plug-in 的东西. 基于 flash-attention 的分块.

对于 flash-attention 划分出来的一个块，计算其 Q,K 的内部平均 cosine similarity，然后通过一个阈值设定是否是相似块（selective / fix）

核心思想是，对 fix block 我们认真地计算 attention，对于 fix block，我们可以把最稀疏的东西略掉.

如何判断是否稀疏？

首先每个块 mean pooling，然后计算内积后，得到对 attention 的估计 \(p\)
将含有 fix block 的 pair 给强制设成 \(m_{i,j}=1\) 并 \(p_{i,j}=-\infty\)；然后做 softmax 后，排序后，通过 Top-CDF 截断来将一些比较重要的 \(m_{i,j}\) 设为 \(1\).

然后 \(m=0\) 的就直接略去了.

在使用 flashattn 的 online softmax 的时候，注意到

注意到如果对于图片/视频，随意分块容易导致有很多 fix block

于是论文采用 Hilbert Curve 来遍历 \(T\times W\times H\) 的视觉 token，这样能够得提升 self-similarity.

在图像生成上远超了其他的一些方法；视频生成模型带来了 1.8x 加速.

在长序列中更加使用，并且 fix block 在计算是必要.

这个也是一个 plug-in framework. 注意到 block sparse 为了计算 importance 会多计算不少东西，有一点亏.

考虑到对于任何的 sparse pattern，其一定与反对角线相交. 于是文章提出了一个新的计算 importance 的方法：对于一个 block，提取其反对角线上的元素，用其来计算 importance weight.

注意到 Top-CDF 需要一个 threshold，而不同 head 的重要程度不尽相同，所需的 threshold 也不尽相同. 文章提出用 DP 来计算 threshold.
定义一次调整为将一个头的 threshold 下降 10%. 然后令 \(DP[h][m]\) 表示只调整了前 h 个头，并且总共调整次数为 m 的模型最佳表现. 转移是 trivial 的.

这样就能最后得到 accuracy 和 efficiency 的 curve.

考虑 256K 上下文中，S=16 时注意力本身达到了 13x 加速，S=8 时达到 9x 加速.

由于反对角线很容易计算，所以比 FlexPrefill 什么的有 5.9x 加速.