Zijie's Blog

Accurate KV Cache Quantization with Outlier Tokens Tracing

在大规模语言模型(LLM)的推理阶段，“Accurate KV Cache Quantization with Outlier Tokens Tracing”（OTT）提出一种“动态追踪并剔除异常 token + 2 bit 层次量化 + 多缓存并行解码”的轻量级框架。论文发现只有极少量“异常 to

QuantSpec: Self-Speculative Decoding with Hierarchical Quantized KV Cache

在长上下文 LLM 推理中，QuantSpec 通过“层次化 INT4/INT8 KV 缓存 + 双全精度缓冲 + 自我推测式（self-speculative）解码”三板斧，把 KV 缓存这个内存与带宽瓶颈直接量化进速度。核心思路是：① 用与目标模型同架构的草稿模型，但把权重和 KV 缓存都压到

KV cache 量化工作总结

Paper Advantages Problems

NoMAD-Attention: Efficient LLM Inference on CPUs Through Multiply-add-free Attention

概览 NoMAD-Attention 通过**“把 Q·K 乘加改写成寄存器查表＋加法”**，用 CPU SIMD 寄存器的超低延迟随机 shuffle（≈1–2 cycles）来取代传统注意力里的大规模 FMA 运算，从而在 16 k 上下文长度下可为 4-bit LLaMA-7B 带来近 2×

CPU 的 INT8 × INT8 → INT32 计算

在 GPU 里你熟悉的 INT8 × INT8 → INT32 “乘-加+累加”单指令，其实在近几代主流 CPU 上也早已存在，只是名字各异、颗粒度不同：有的还是传统 SIMD 指令（128/256/512 bit 向量），有的已经把矩阵乘法整合进片上“Tile” 或协处理器里。下面梳理几条主流路

INT-FlashAttention: Enabling Flash Attention for INT8 Quantization

在进一步钻研 INT-FlashAttention 的源码与论文后，可以把整套设计拆分为离线量化 → 带尺度因子的数据流 → INT8-aware Online-Softmax → 双 INT8 GEMM 融合内核四个互相咬合的层次。下面从量化数学、内核执行流、数值稳定性、硬件映射四条主线，

DUAL GRAINED QUANTIZATION: EFFICIENT FINEGRAINED QUANTIZATION FOR LLM

概览（一句话总结） Dual Grained Quantization（DGQ）把「组内 INT4 细粒度权重」在推理前无损抬升到「INT8 通道尺度」，再搭配 A8 动态/静态激活量化，实现 W4 × A8 模式既享受 Fine-grained 精度，又保留 INT8 GEMM 的硬件效率，并用“

QServe: W4A8KV4 Quantization and System Co-design for Efficient LLM Serving

本文系统解读 QServe: W4A8KV4 Quantization and System Co-design for Efficient LLM Serving，并突出其三项核心创新： 1）提出 QoQ 算法，在保持推理精度几乎无损的前提下，将权重、激活与 KV-cache 分别量化到 4 bi

KVTuner: Sensitivity-Aware Layer-Wise Mixed-Precision KV Cache Quantization

在全面阅读论文正文、补充材料与多方解读后，以下内容对 KVTuner: Sensitivity-Aware Layer-Wise Mixed-Precision KV Cache Quantization 的设计思想、实现流程与实验效果作深入解析，并与现有方案进行对比。关键结论概述 KVTuner

Cocktail: Chunk-Adaptive Mixed-Precision Quantization for Long-Context LLM Inference

总览 Cocktail 提出一种以「上下文分块」为粒度的自适应混合精度量化框架，用于压缩长上下文推理中的 Key-Value 缓存。方法先依据查询–上下文块相似度为每块分配不同位宽，再通过重排与定制计算核提升显存利用率和吞吐率。与统一位宽或逐 token 搜索的方法相比，Cocktail 在多款模型