Lost in the Middle: How Language Models Use Long Contexts
系统测量了多款“长上下文”LLM 在两类任务——多文档问答与合成 Key-Value 检索——中的表现,并通过位置对照实验发现:模型对序列“首—尾”位置存在显著 首因偏置(primacy)与近因偏置(recency),而当关键信息处于中段时性能急剧下降,形成 U 形曲线;即便 GPT-3.5-Turbo、Claude-1.3 及 LongChat-13B (16K) 这类声称可处理 8K–32K token 输入的模型也难以幸免(arxiv.org, aclanthology.org)。论文进一步追踪原因到模型架构、指令微调策略与训练长度,并为未来研究提供了可复现实验基准。
论文动机与核心贡献
长上下文≠有效利用
虽然硬件与稀疏注意力技术让上下文窗口扩展到数万 token,但 **“能接收” 并不代表 “能善用”;检索增强(RAG)、多文档 QA 等真实应用要求模型准确定位并整合任意位置的信息(huggingface.co)。
四项主要贡献
构建对照实验:在维持总长度不变的情况下,将含答案(或目标键值)的片段移动到不同位置,控制干扰变量。
实证 U 形曲线:发现几乎所有测试模型在“中段”信息利用率最低——最长时准确率较首段下降 30–45 pp(cs.stanford.edu)。
提出两项诊断任务:现实的多文档问答(HotpotQA 扩展版)与合成 Key-Value 检索,后者排除语言推理,仅考察纯检索能力(direct.mit.edu)。
分析成因 & 缓解启示:揭示 decoder-only 架构、训练序列长度不足、查询无感上下文化 等因素会加剧 positional bias,并提示可通过 encoder-decoder 结构或长序列指令微调 改善(direct.mit.edu, www2.eecs.berkeley.edu)。
任务与实验设计
1. 多文档问答(MD-QA)
输入构造:从 HotpotQA / 2WikiMulti 取 20 篇短文,对调含答案文档的位置(1st, 10th, 20th)产生 ≈4 k-token 上下文(arxiv.org)。
度量:Exact-Match (EM) 与 F1;另设 闭卷基线(不提供任何文档)衡量模型“瞎猜”能力。
2. Key-Value Retrieval
格式:JSON 字符串含 k 个随机 UUID key-value,模型需返回目标键对应值。
控制变量:改变 k(上下文长度)与目标键的位置;可测到纯粹的检索错误而非理解失败(medium.com)。
3. 被测模型
开源:MPT-30B-Instruct、LongChat-13B(16K)、Encoder-Decoder T5-XXL (4K)。
闭源:GPT-3.5-Turbo-0613、Claude-1.3。所有模型均在 2 k–32 k 长度上评测。
结果要点
结论:长上下文模型主要靠 首因 + 近因记忆;“中间失忆” 体现了注意力分配的结构性偏差。
成因与分析
架构差异:Encoder-Decoder 在不超训练长度时更稳健,但超长序列一样失效;显示 绝对位置嵌入退化 是根因之一(direct.mit.edu)。
指令微调不足:Cl100k-基 GPT-3.5 尚未在 16 k 以上数据上进行 alignment,导致长序列泛化差;实验中对 LongChat-13B 追加 16 k 指令数据后中段下降幅度减小 ≈8 pp(direct.mit.edu)。
查询无感上下文化:Decoder-only 仅在生成阶段看 Query,缺少与上下文联合建模;加入 query-aware prefix(如 Enc-Dec cross-attention) 可缓和 U 形现象。
与后续研究的关联
Found-in-the-Middle 通过校准注意力权重缓解 U 形曲线,显著提高中段检索准确率达 15 pp(arxiv.org)。
ETHIC benchmark、Random-Access Transformer 等工作把“lost-in-the-middle” 作为长上下文必测项,说明其已成为社区共识(arxiv.org, www2.eecs.berkeley.edu)。
多篇 KV-Cache 压缩/量化论文(KVQuant、MiKV)也利用该现象说明中段信息最易被忽视,可在中段更大胆压缩(emergentmind.com)。
工程启示
RAG 排序:在检索-增强应用中优先把最相关文档排首或尾,可显著提升现有 LLM 召回率。
指令微调:继续以 16 k+ token 输入做 SFT/LoRA,可让模型在超长序列中学会聚焦中段。
架构侧改进:试验 滑动窗口注意力、局部-全局混合、位置重标定 等可降低 primacy-recency 偏差。
结语
“Lost in the Middle” 揭示了当前 LLM 在长上下文中存在的结构性局限:信息并非被均等利用,而是两头重、中间轻。论文提出的评测方法与实验基准已成为后续长上下文研究的“照妖镜”,其发现正促使模型架构、训练范式乃至应用层检索策略全面升级,以真正发挥数万 token 窗口的价值。