MOA: MIXTURE OF SPARSE ATTENTION FOR AUTOMATIC LARGE LANGUAGE MODEL COMPRESSION
下面是对 MoA(Mixture of Sparse Attention for Automatic Large Language Model Compression)论文的详细文档性解析,涵盖理论背景、方法框架、实验评价、使用指南等内容,便于读者快速理解与复现。 📘 1. 背景与动机 长上下文处
下面是对 MoA(Mixture of Sparse Attention for Automatic Large Language Model Compression)论文的详细文档性解析,涵盖理论背景、方法框架、实验评价、使用指南等内容,便于读者快速理解与复现。 📘 1. 背景与动机 长上下文处
PM-KVQ 把“时间轴上逐步降位宽 + 结构轴上按敏感度分配混合精度 + 校准轴上用位置插值补足短序列”三招揉成一套后训练量化流程,让 32 K-token 级 Long-CoT 推理所需 KV Cache 压缩到 2–4 bit,同时在数学、编程推理基准上比同等显存预算的最佳公开方法再高 6–8
系统测量了多款“长上下文”LLM 在两类任务——多文档问答与合成 Key-Value 检索——中的表现,并通过位置对照实验发现:模型对序列“首—尾”位置存在显著 首因偏置(primacy)与近因偏置(recency),而当关键信息处于中段时性能急剧下降,形成 U 形曲线;即便 GPT-3.5-Tur
在大模型推理中,如果直接把不重要的 KV 对整块丢弃(eviction),不仅会丢失上下文细节,还可能触发安全失效、幻觉或对话错乱等严重问题(arxiv.org, arxiv.org)。 《No Token Left Behind》提出的 MiKV(Mixed-precision KV cache)
摘要 KVQuant 针对长上下文推理时 KV Cache 占用显存急剧膨胀 的瓶颈,提出“四步一体”超低比特量化方案:① 通道级 Key 量化,② RoPE 前 Key 量化,③ 灵敏度加权非均匀量化(nuqX),④ 向量级稠密-稀疏拆分。在 LLaMA-7B/13B/30B/65B、Llama-