Meta 超级智能实验室的首篇论文319策略,来了——
提出了一个名为REFRAG的高效解码框架,重新定义了 RAG(检索增强生成),最高可将首字生成延迟(TTFT)加速 30 倍。
毕竟算是超级智能实验的"开山之作",研究一出,就已经在网上掀起了不少的热议。
例如 Reddti 网友表示:
若效果真如研究所说的那样,那对 RAG 来说是相当不错的改进,看起来可以做到在不牺牲准确性的情况下,能显著提高速度和上下文大小。
天下苦 RAG 上下文计算冗余久矣
首先,我们需要理解并回顾一下 RAG 的工作原理。
当一个大型语言模型(LLM)被要求回答需要精确背景知识的问题时,如果仅依赖它内部参数化的知识,可能会出现事实性错误或信息滞后等情况。
而 RAG 就通过一个外部知识库(如企业文档、专业数据库等)进行检索,将与问题最相关的信息提取出来,作为上下文与原始问题一同提供给 LLM。LLM 在获得这些精确的参考资料后,就能生成内容更可靠、更具时效性的答案。
然而,这个模式在工程方面也带来了不小的挑战,即推理效率与信息量的权衡。
当 AI 检索到的参考资料非常多(也就是我们通常说的"长上下文")时,LLM 的处理负担会大幅增加。
模型处理上下文的计算复杂度通常与上下文长度的平方成正比,导致生成第一个字的延迟(Time-to-First-Token, TTFT)显著增加,这直接影响了实时交互应用的用户体验。
同时319策略,处理长上下文也意味着更高的计算和内存开销,为系统的规模化部署带来了挑战。
基于这样的背景,Meta 超级智能实验室的研究人员发现,在 RAG 应用中,LLM 处理检索到的多个文档时,其计算过程存在大量冗余。
通过实验,他们观察到模型内部的注意力机制在处理这些文档时,呈现出一种"块对角"(block-diagonal)的稀疏模式。
这意味着,模型的注意力主要集中在单个文档内部,以及各文档与用户问题之间的关联上。而不同文档片段之间的交叉注意力得分通常很低,表明它们之间的关联性较弱。
然而,标准的 Transformer 架构并不会区分这些关联性的强弱,而是对上下文中的所有词元(token)进行全局的注意力计算,这导致了大量计算资源被消耗在分析那些关联性很弱的文档片段上。
基于这一观察,研究团队提出:RAG 解码过程中的大部分注意力计算对于最终结果的贡献有限,可以在不显著影响性能的前提下被优化或移除。
REFRAG,就此应运而生。
REFRAG:一种选择性压缩解码方案
REFRAG 这个框架,主要通过"压缩(Compress)、感知(Sense)、扩展(Expand)"的流程,优化了 LLM 处理外部知识的方式。
压缩:将上下文转换为紧凑表征
REFRAG 首先改变了上下文的呈现方式,它没有将所有检索到的原始文本直接输入给主 LLM,而是引入了一个轻量级的编码器模型。
这个编码器将长篇的参考资料切分为多个"块"(chunks),并为每个"块"生成一个紧凑的向量表示——"块嵌入"(chunk embedding)。这个"块嵌入"可以视为原始文本块的浓缩摘要。
这一步骤带来了两个直接的好处,首先就是缩短输入序列长度,因为 LLM 需要处理的输入从数千个词元缩减为数百个"块嵌入",显著降低了后续的计算量。
其次是由于这些"块嵌入"可以被预先计算并存储319策略,当知识库中的同一文档被再次检索时,系统可以直接调用缓存的嵌入,避免了重复的编码计算。
感知:智能判断关键信息
考虑到并非所有信息都适合压缩,某些包含关键细节的文本片段需要被保留。
为此,REFRAG 训练了一个基于强化学习(RL)的策略网络。
这个网络的功能是分析所有的"块嵌入"和用户问题,判断哪些文本块包含最核心的信息,需要以原始文本的形式呈现给 LLM。
扩展:结合压缩与原始文本
经过前两步的处理,最终输入到主 LLM 的是一个混合序列,它包含了大部分上下文的"块嵌入"(压缩表示)和少量被判断为关键的"原始文本块"。
LLM 基于这份经过优化的输入材料来生成答案,大部分背景信息通过压缩表示快速获取,而核心细节则通过原始文本进行精确理解。通过这种方式,REFRAG 在保留关键信息的同时,最大限度地降低了计算负载。
性能无损,效率提升
根据论文数据,REFRAG 框架在多个维度上取得了较为不错的成果。
例如在推理速度方面,以首字生成延迟(TTFT)为例,REFRAG 实现了最高30.85 倍的加速。与之前的先进方法相比,也取得了3.75 倍的提升。
这意味着在需要快速响应的场景下,系统的延迟可以得到有效控制。
其次,实验还表明,在获得显著加速的同时,REFRAG 在困惑度(Perplexity)以及多种下游任务(如问答、摘要)的准确率上,与使用完整上下文的基线模型相比没有性能损失。
此外,由于压缩技术使得模型能在同等计算预算下处理更多信息,上下文窗口等效扩大了16 倍,这在某些任务上反而带来了性能增益。
据了解,这个方法的设计不仅适用于 RAG,也适用于多轮对话、长文档摘要等其他需要处理长上下文信息的任务。
总而言之,Meta 超级智能实验室的这项研究,通过巧妙的算法设计,有效解决了当前大模型在处理长上下文时面临的核心效率问题。REFRAG 为开发更高效、更经济、更具扩展性的 AI 应用提供了一个重要的解决方案。
参考链接:
[ 1 ] https://arxiv.org/abs/2509.01092
[ 2 ] https://www.reddit.com/r/singularity/comments/1nai17r/new_research_from_meta_superintelligence_labs_big/
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
专属 AI 产品从业者的实名社群,只聊 AI 产品最落地的真问题 扫码添加小助手,发送「姓名 + 公司 + 职位」申请入群~
进群后,你将直接获得:
� � 最新最专业的 AI 产品信息及分析 � �
� � 不定期发放的热门产品内测码 � �
� � 内部专属内容与专业讨论 � �
� � 点亮星标 � �
科技前沿进展每日见319策略
融配资提示:文章来自网络,不代表本站观点。