Accurate KV Cache Quantization with Outlier Tokens Tracing
在大规模语言模型(LLM)的推理阶段,“Accurate KV Cache Quantization with Outlier Tokens Tracing”(OTT)提出一种“动态追踪并剔除异常 token + 2 bit 层次量化 + 多缓存并行解码”的轻量级框架。论文发现只有极少量“异常 to
在大规模语言模型(LLM)的推理阶段,“Accurate KV Cache Quantization with Outlier Tokens Tracing”(OTT)提出一种“动态追踪并剔除异常 token + 2 bit 层次量化 + 多缓存并行解码”的轻量级框架。论文发现只有极少量“异常 to
在长上下文 LLM 推理中,QuantSpec 通过“层次化 INT4/INT8 KV 缓存 + 双全精度缓冲 + 自我推测式(self-speculative)解码”三板斧,把 KV 缓存这个内存与带宽瓶颈直接量化进速度。核心思路是:① 用与目标模型同架构的草稿模型,但把权重和 KV 缓存都压到
Paper Advantages Problems
概览 NoMAD-Attention 通过**“把 Q·K 乘加改写成寄存器查表+加法”**,用 CPU SIMD 寄存器的超低延迟随机 shuffle(≈1–2 cycles)来取代传统注意力里的大规模 FMA 运算,从而在 16 k 上下文长度下可为 4-bit LLaMA-7B 带来近 2×
在 GPU 里你熟悉的 INT8 × INT8 → INT32 “乘-加+累加”单指令,其实在近几代 主流 CPU 上也早已存在,只是名字各异、颗粒度不同:有的还是传统 SIMD 指令(128/256/512 bit 向量),有的已经把矩阵乘法整合进片上“Tile” 或协处理器里。下面梳理几条主流路
在进一步钻研 INT-FlashAttention 的源码与论文后,可以把整套设计拆分为 离线量化 → 带尺度因子的数据流 → INT8-aware Online-Softmax → 双 INT8 GEMM 融合内核 四个互相咬合的层次。下面从 量化数学、内核执行流、数值稳定性、硬件映射 四条主线,
概览(一句话总结) Dual Grained Quantization(DGQ)把「组内 INT4 细粒度权重」在推理前无损抬升到「INT8 通道尺度」,再搭配 A8 动态/静态激活量化,实现 W4 × A8 模式既享受 Fine-grained 精度,又保留 INT8 GEMM 的硬件效率,并用“
本文系统解读 QServe: W4A8KV4 Quantization and System Co-design for Efficient LLM Serving,并突出其三项核心创新: 1)提出 QoQ 算法,在保持推理精度几乎无损的前提下,将权重、激活与 KV-cache 分别量化到 4 bi
在全面阅读论文正文、补充材料与多方解读后,以下内容对 KVTuner: Sensitivity-Aware Layer-Wise Mixed-Precision KV Cache Quantization 的设计思想、实现流程与实验效果作深入解析,并与现有方案进行对比。 关键结论概述 KVTuner
总览 Cocktail 提出一种以「上下文分块」为粒度的自适应混合精度量化框架,用于压缩长上下文推理中的 Key-Value 缓存。方法先依据查询–上下文块相似度为每块分配不同位宽,再通过重排与定制计算核提升显存利用率和吞吐率。与统一位宽或逐 token 搜索的方法相比,Cocktail 在多款模型