Zijie's Blog

Next

Stay Simple. Stay NexT.

0%

MOA: MIXTURE OF SPARSE ATTENTION FOR AUTOMATIC LARGE LANGUAGE MODEL COMPRESSION

浏览: 3

下面是对 MoA（Mixture of Sparse Attention for Automatic Large Language Model Compression）论文的详细文档性解析，涵盖理论背景、方法框架、实验评价、使用指南等内容，便于读者快速理解与复现。 📘 1. 背景与动机长上下文处

阅读更多 »

PM-KVQ: Progressive Mixed-precision KV Cache Quantization for Long-CoT LLMs

浏览: 15

PM-KVQ 把“时间轴上逐步降位宽 + 结构轴上按敏感度分配混合精度 + 校准轴上用位置插值补足短序列”三招揉成一套后训练量化流程，让 32 K-token 级 Long-CoT 推理所需 KV Cache 压缩到 2–4 bit，同时在数学、编程推理基准上比同等显存预算的最佳公开方法再高 6–8

阅读更多 »

Lost in the Middle: How Language Models Use Long Contexts

浏览: 8

系统测量了多款“长上下文”LLM 在两类任务——多文档问答与合成 Key-Value 检索——中的表现，并通过位置对照实验发现：模型对序列“首—尾”位置存在显著首因偏置（primacy）与近因偏置（recency），而当关键信息处于中段时性能急剧下降，形成 U 形曲线；即便 GPT-3.5-Tur

阅读更多 »

[MiKV] No Token Left Behind: Reliable KV Cache Compression via Importance-Aware Mixed Precision Quantization

浏览: 7

在大模型推理中，如果直接把不重要的 KV 对整块丢弃（eviction），不仅会丢失上下文细节，还可能触发安全失效、幻觉或对话错乱等严重问题(arxiv.org, arxiv.org)。《No Token Left Behind》提出的 MiKV（Mixed-precision KV cache）

阅读更多 »

KVQuant: Towards 10 Million Context Length LLM Inference with KV Cache Quantization

浏览: 10

摘要 KVQuant 针对长上下文推理时 KV Cache 占用显存急剧膨胀的瓶颈，提出“四步一体”超低比特量化方案：① 通道级 Key 量化，② RoPE 前 Key 量化，③ 灵敏度加权非均匀量化（nuqX），④ 向量级稠密-稀疏拆分。在 LLaMA-7B/13B/30B/65B、Llama-

阅读更多 »