WithAI.Design

5分钟阅读

RAG已死?不,它在智能体时代完成了进化

RAG已死?不,它在智能体时代完成了进化

RAG已死?不,它在智能体时代完成了进化

译者按

你可能听过“AI现在能记住上百万字,不用查资料了”,所以有人说“RAG这技术凉了”——但事实是,RAG没凉,反而变得更聪明了!

简单说,RAG以前就是AI的“搜索引擎”,不管啥问题都先搜一堆资料给AI参考。后来大模型能记住更多内容,大家就觉得“不用搜了,直接让AI凭记忆回答就行”。但实际用下来发现:记太多东西又贵又慢(好比开会请10个人却只问一个人问题),而且图片、图表这些内容,大模型根本记不住也看不懂,还得靠“搜”;更重要的是,现在的RAG学会“偷懒”了——先判断要不要搜、该搜啥、去哪搜,不做无用功,比以前精准多了。

这篇文章其实就是想告诉大家:AI查资料的技术没被淘汰,反而进化成了“智能管家”,会根据需求精准发力。以后咱们用AI处理工作、查信息,会更省钱、更快、更准,尤其是遇到带图的专业文档时,这技术更是离不开~

核心摘要

  • 长上下文并未淘汰检索技术。更大的上下文窗口会增加成本和噪声,而检索能聚焦关键信息。此外,对于典型工作负载,RAG比长上下文方案便宜8-82倍,且延迟更低。
  • 多模态至关重要:grep和词法搜索在代码场景表现出色,但对图表和图形完全失效。企业内容需要语义+视觉感知的检索与重排能力。
  • 条件检索优于自动检索:2025年的RAG是模块化的,需决策是否检索、检索内容、检索来源及检索方式,而非盲目检索。这意味着元数据至关重要,需投入离线预计算来描述数据集,运行时决策依赖对现有资源的清晰认知。
  • 精细化评估:阶段式指标必不可少。仅依赖端到端评估会阻碍系统优化。

智能体时代并未让检索技术过时,反而让智能检索成为核心需求。

本文基于Amélie Chatelain在Weights & Biases 2025 Fully Connected大会上的演讲内容。

自2023年底以来,机器学习社区多次宣称检索增强生成(RAG)已死。随着大型语言模型(LLM)不断推出更大的上下文窗口——Anthropic Claude的10万token、Google Gemini的100万token乃至更高——一种观点逐渐占据上风:“既然能把所有内容都塞进上下文,何必还要检索?”

但到了2025年的今天,检索技术非但没有消亡,反而愈发活跃。它不再是2023年那种简单的流水线式方案,而是智能体系统中一套复杂、可控的注意力分配机制。本文将探讨RAG为何没有消亡,反而不断成熟,以及LightOn团队为何坚信强大的检索流水线是AI系统的核心支柱。


RAG的炒作周期:时间线

时间回到2020年5月。当全世界还在应对疫情封锁时,Facebook人工智能研究院发表了一篇论文,定义了未来五年企业AI的发展方向:RAG技术。这种方法能让语言模型在不重新训练的情况下获取外部知识。随后在2022年11月,ChatGPT横空出世。一夜之间,所有人都开始关注大型语言模型和生成式AI,市场的闸门彻底打开。

到2023年初,RAG进入了期望膨胀期峰值。风险投资大量涌入,初创公司如雨后春笋般涌现,每家都承诺RAG能解决模型幻觉、普及企业知识、革新工作方式。向量数据库成为必备基础设施,当时的叙事简单而诱人:人人可用的RAG,能解决所有问题。

但风暴很快来临。2023年5月,Anthropic发布了支持10万token上下文的Claude。RAG的“铠甲”首次出现裂痕,质疑的声音开始出现:“如果模型能将整个代码库存入内存,还有必要检索吗?”

2024年2月,转折点到来。Google发布了支持100万token上下文的Gemini,这相当于《指环王》三部曲的总文字量。科技圈陷入热议,大量博客文章宣称:“RAG已死:为何检索增强生成不再是AI的未来”。其逻辑看似无懈可击:既然能把所有内容都塞进上下文,何必构建复杂的检索流水线?

“RAG已死”的论调持续发酵。2024年11月,Anthropic推出模型上下文协议(MCP),标题再次宣称“MCP杀死了RAG”——却忽略了MCP本质上就是一种检索机制。RAG中的“R”(检索)简直欲哭无泪。

2025年2月,许多人认为RAG的棺材钉终于敲下。Claude Code发布,采用grep和文件通配符进行代码导航,无需向量搜索。这与Cursor等其他智能代码工具的索引检索方案形成鲜明对比。行业共识似乎达成:RAG只是2023年的短暂潮流,如今已被更优方案取代。

但事实是,这些所谓的“RAG杀手”从未真正淘汰检索技术——它们只是推动了检索的进化。接下来我们详细分析。


核心问题:长上下文真的杀死了RAG吗?

要回答这个问题,我们需要审视“把所有内容塞进上下文窗口”的真实成本——无论是经济成本还是性能成本。

会议类比:长上下文如同低效沟通

想象一个熟悉的场景:有人有一个简单问题,但他没有找对人询问,而是召集了10人开会。结果是什么?

10人参加30分钟会议的成本约为750美元,而直接询问相关专家仅需75美元。长上下文的运作逻辑与此相同:当只需几千token就能承载答案时,却引入百万token,不仅会让信号淹没在噪声中,还会产生高额成本。而专注的RAG流水线,就相当于直接询问专家。

长上下文就像大型会议:低效、缓慢且昂贵。

长上下文的真实经济成本

在准备演讲时,我试图寻找“全量塞入上下文”与“最小化检索”的具体成本对比数据,但一无所获。因此,我开发了一个长上下文计算器。你可以通过Streamlit体验(链接),代码已开源在GitHub(链接),可根据自身业务场景调整参数。

以下是具体数据:针对1000页的知识库(约60万token),假设每天100次查询。

核心结论:即使启用缓存,长上下文工作流仍会增加复杂性,且在延迟和价格上处于劣势。在实际场景中,检索约5个目标片段的方案仍便宜一个数量级——因为生成过程主导了端到端的耗时。

长上下文的幻觉:容量≠理解能力

认为100万token能解决所有问题,本质上是一种误解。

首先,我们要明确100万token的实际规模:看似庞大,但普通的纯文本代码库就能轻松突破这个限制。

GitHub上热门机器学习仓库的大致token数(通过工具计算)。

多模态内容会让情况更糟:一张图片的token成本约为1000-1500。预算会快速耗尽。为了更直观理解,我们用一个有趣的标尺:《指环王》(数据来自Antoine Chaffin)。《魔戒同盟》约25万token,三部曲+附录约70万token,而电影(非加长版,2小时58分钟,24帧/秒)若简单按帧分词,约需1.71亿“图像token”。可见,100万token并非想象中那样无限。

《魔戒同盟》书籍(紫色)、《指环王》三部曲书籍(蓝色)与《魔戒同盟》电影(非加长版)的token量可视化对比。

此外,研究反复表明,随着上下文长度增加,模型性能会下降。基准测试显示,性能取决于模型类型、模态,甚至答案在上下文中的位置——这就是经典的“中间遗忘”现象。

性能会因模型、模态甚至答案在上下文的位置而大幅波动。当我们将整个知识库塞入上下文时,完全无法控制答案的位置。数据来自HELMET基准测试(上)和MMLongBench(下)。

这并非暂时的工程问题,而是规模化下的注意力稀释。更多上下文不代表更好的理解能力,反而意味着需要过滤更多噪声。


为何grep不够用:多模态挑战

Claude Code基于grep的词法检索取得成功,引发了一个问题:语义检索是否还有必要?答案完全取决于你的内容类型。

grep的适用场景

grep在以下场景表现出色:

  • 术语一致的纯文本文档
  • 结构清晰、标识符有意义的代码
  • 精确字符串匹配即可满足需求的内容

Claude Code正是面向这类场景:代码库中的函数名、变量名和注释都是为人类可读性和grep检索设计的。

可以把grep比作给同事发私信:发送请求、等待回复,必要时扩大搜索范围。它无需索引,易于部署——但对于某些场景,其速度和成本可能不如向量数据库(再次参考我的计算器)。

但当答案藏在图表中时,grep就失效了。

grep的失效场景:视觉化现实

但企业知识并非都像代码那样结构化。考虑以下查询:

查询:“哪些元件位于套管悬挂器上方?”

文档:油气操作手册中的技术 diagrams,展示了井身结构及带视觉标签的空间关系。

你的文档可能并不适合grep检索。

grep无法做到:

  • 解析图像中的空间关系
  • 理解图表中的视觉层级
  • 从图表、图形或示意图中提取信息
  • 理解视觉语境中“上方”的语义含义

你无法用grep检索图表。这就是多模态RAG的核心价值:结合视觉-语言模型进行检索,同时理解文本和视觉内容的语义。

生产级系统需要:

  • 支持文本+图像的多模态嵌入模型
  • 具备视觉理解能力的重排器(如MonoQwen),能理解视觉上下文,确保提供给LLM的内容精准无误

智能检索:智能体时代的RAG

2023年到2025年的最大转变是:RAG不再是“固定检索k个片段”,而是一套决策体系——有意识地分配注意力。

四大决策节点

现代检索系统在每个阶段都会做出条件决策:

1. 是否检索:工具路由(是否需要开会?)

并非所有查询都需要检索。智能体应基于以下因素决策:

  • 查询类型:是事实查询、总结查询还是其他类型?
  • 时效性要求:现有知识是否足够?
  • 安全/隐私限制:是否需要联网查询?

示例

  • “2+2等于多少?”→ 直接回答,无需检索
  • “我们第三季度的营收数据是多少?”→ 需要检索企业知识库
  • “巴黎本周末的天气如何?”→ 时效性查询,需联网检索

📊 评估方式:通过与理想路由的F1分数对比,同时跟踪延迟和成本,避免为简单查询过度调用工具。

2. 检索内容:工具参数构建(会议议程是什么?)

若需要检索,需结合用户上下文(角色、部门、访问权限、历史数据等)和领域知识(通过实体识别、查询扩展构建过滤器等),构建最优查询。

示例转化

{
  "query": "LightOn第三季度报告的核心数据是什么?",
  "filters": {
    "time_range": {
      "start": "2025-07-01",
      "end": "2025-09-30"
    },
    "document_type": "report",
    "department": "finance"
  }
}

📊 评估方式:通过对比有无查询改写的检索召回率/精确率差异,以及过滤器提取准确率,评估系统的查询理解能力。

3. 检索来源与方式:检索策略(邀请谁参加会议?谁先发言?)

选择合适的检索策略:代码用词法检索,散文用语义/混合检索,若答案在图表中则用多模态检索;利用丰富的元数据和离线预计算,选择正确的数据集,避免在查询时让用户等待。

示例场景

  • 财务报告查询→ 使用财务文档数据集,结合视觉检索捕捉报告中的各类图表
  • 提及特定代码函数→ 使用代码库数据集
  • 模糊查询→ 检索多个数据集,对结果进行重排合并

✨ 关键洞察:若没有关于数据集内容的丰富元数据,就无法确定检索哪个数据集、使用哪种策略。这需要离线预计算——提前投入资源描述数据集特征,确保运行时决策快速准确。

📊 评估方式:分别测量重排前后的检索指标,评估检索和重排能力。

4. 生成答案:基于精准上下文作答(撰写准确有用的会议纪要)

检索和重排后,基于最小化的可靠上下文生成答案。

📊 评估方式:从答案与来源的一致性、任务准确性等维度评估生成质量。

核心要点:这应是最后的评估指标,而非唯一指标。为什么?

评估:定位复杂系统中的故障点

向条件化、多阶段检索的转变带来了一个关键挑战:当智能体失效时,问题出在哪个环节?

故障会级联传递。若工具路由错误,后续所有环节都会失效;若查询构建不佳,检索会得到无关文档。因此,评估必须隔离每个阶段。

只有通过这种精细化的可见性,才能:

  • 确定需要优化的组件
  • 区分故障是系统性问题还是边缘案例
  • 在每个阶段优化成本与质量的平衡
  • 基于数据决策模型选择、提示策略和系统架构

若跳过精细化评估,仅测量最终答案质量,无异于自寻死路。你会得到一个无法正常工作的流水线,却找不到问题根源。


结论:RAG没有消亡,而是不断成长

过去两年并未淘汰检索技术,而是迫使RAG走向成熟。如今的RAG是一种“有意识的注意力分配”:决策是否检索;若需要,决策检索内容、来源和方式;保持上下文精简;全面测量每个环节。换句话说,不要再“为了以防万一”召开大型会议,而是找对专家、只带必要材料、保持沟通高效——这就是智能体时代的RAG。

这种进化与从流水线到智能体的整体行业转变相契合。核心洞察包括:

  1. 决策是否检索:知道何时无需开会——并非所有查询都需要外部上下文。
  2. 智能路由:找专家而非整个部门——基于元数据的定向检索优于穷举搜索。
  3. 全面测量:跟踪每个决策节点——精细化评估对复杂系统至关重要。

未来并非“RAG与长上下文对立”,而是智能系统根据每个查询的具体需求,实时决策如何策略性地结合两者。

RAG已死,RAG永生。

想了解LightOn如何构建“先思考再检索”的检索系统?

探索我们在智能检索领域的最新研究和产品,或联系我们观看演示 👉 联系我们!

更多 AI 前沿技术与设计灵感,欢迎关注「设计小站」公众号(ID:sjxz00),一起探索科技与设计的融合创新。

原文:https://www.lighton.ai/lighton-blogs/rag-is-dead-long-live-rag-retrieval-in-the-age-of-agents

标签