系统测量了多款“长上下文”LLM 在两类任务——多文档问答与合成 Key-Value 检索——中的表现,并通过位置对照实验发现:模型对序列“首—尾”位置存在显著 首因偏置(primacy)与近因偏置(recency),而当关键信息处于中段时性能急剧下降,形成 U 形曲线;即便 GPT-3.5-Tur

阅读更多 »