超越检索深入剖析缓存增强生成 (CAG) 与知识密集型AI的未来

9月 5日 2025

引言: 延迟瓶颈与效率追求

检索增强生成 (Retrieval- Augmented Generation, RAG) 已成为将大型语言模型 (LLM) 与外部事实知识相结合的主流范式，它在缓解模型幻觉和提供最新信息方面取得了巨大成功。然而，这种强大的能力是以显著的架构成本为代价的。随着生成式AI应用向实时交互和高并发场景不断渗透，RAG固有的局限性日益凸显，成为系统性能和可维护性的关键瓶颈。

RAG革命及其权衡

RAG的核心挑战源于其“即时检索”的设计哲学。系统的每一次响应都依赖于一个复杂且耗时的实时流程，这主要体现在以下三个方面：

检索延迟 (Retrieval Latency): 这是RAG最根本的性能瓶颈。实时向量搜索和文档抓取过程不可避免地会引入延迟，对于需要即时反馈的交互式应用（如智能客服、实时助手）而言，这种延迟可能严重影响用户体验。2. 系统复杂性 (System Complexity): 一个完整的RAG系统是一个多组件架构，通常包括向量数据库（如Pinecone）、嵌入模型、文本分块策略和检索管道等。每个组件都需要独立的配置、优化和维护，这不仅增加了运营开销，也引入了多个潜在的故障点。3. 检索错误 (Retrieval Errors): RAG的最终输出质量高度依赖于检索器的表现。如果检索器未能找到相关、准确或完整的文档，LLM的生成质量将受到直接影响，因为模型的上下文信息存在缺陷。换言之，LLM的回答质量上限被检索质量所限制。

CAG作为一种范式转移的出现

为应对这些挑战，业界提出了一种名为缓存增强生成 (Cache- Augmented Generation, CAG) 的新

范式。CAG并非简单地对RAG进行修补，而是从根本上重新思考了LLM与知识的交互方式。它标志着从动态的“即时”检索模型向一种抢先的、“一次计算，多次复用”的缓存模型的转变。这一转变之所以成为可能，直接得益于近年来LLM上下文窗口容量的爆炸性增长¹。

CAG的出现并非孤立的技术创新，而是LLM底层架构演进的直接产物。早期LLM的上下文窗口极小（例如2K- 4K tokens），这使得RAG成为一种必然选择——系统必须检索小而精的文本片段，因为这是模型所能容纳的全部¹⁴。然而，随着Llama 3.1 8B、IBM Granite等现代模型将上下文窗口扩展至128K tokens甚至更长（相当于数百页文本），一种新的可能性应运而生：对于特定规模的数据集，我们是否可以完全绕过检索步骤，将整个知识源直接置于模型上下文中？⁵。这一思路直接催生了CAG范式。因此，CAG的可行性与LLM硬件和模型架构的发展趋势紧密相连，它代表了一种由硬件/架构突破所解锁的软件创新。

第一部分：解构缓存增强生成（CAG）

核心范式：从动态检索到静态预加载

CAG的根本理念在于将计算负担从实时的推理阶段前置到一个一次性的、离线的预处理阶段¹³。这个过程可以被比作一场开卷考试，考生在考试前已经通读、理解并标记了整本教科书的重点，而不是在回答每个问题时才去翻阅索引⁹。

通过这种方式，处理整个知识库的高昂计算成本被分摊到未来无数次的查询中，使得每一次独立的查询都变得极为迅速¹⁵。这种“预计算”的哲学彻底改变了知识密集型任务的性能曲线。

CAG的引擎：键值（KV）缓存详解

键值(KV)缓存是实现CAG的核心技术机制，它远比简单的提示词缓存(prompt caching)更为复杂和强大¹⁸。要理解其工作原理，首先需要回顾Transformer模型中的注意力机制。

Transformer注意力机制背景

在标准的Transformer架构中，模型为输入序列中的每个token计算三个向量：查询（Query，Q）、键(Key,K)和值(Value,V)。当前token的Q向量会与之前所有token的K向量进行比较（通常是点积运算），以计算出注意力分数。这些分数经过归一化后，用于加权求和所有token的V向量，从而生成当前token的输出表示18。在没有缓存的情况下，每生成一个新token，模型都需要为上下文中的所有token重新计算K和V向量，这是一个巨大的计算冗余18。

CAG正是通过优化这一过程来提升效率的。其工作流程分为三个关键阶段：

阶段一：预计算与缓存创建（“一次计算”步骤）

知识预加载：首先，一个经过精心策划的静态知识库(表示为D)被选中，并被格式化以适应LLM的上下文窗口大小13。2. 前向传播与编码：整个知识库D作为初始输入，在LLM中进行一次完整的前向传播。在此过程中，模型会计算出知识库中每个token在每个注意力层对应的K和V张量14。3. KV缓存生成：这组预先计算好的K和V张量的集合，就是所谓的”KV缓存”（表示为CKV)。它代表了模型对整个知识库的内部、已处理的理解状态18。4. 缓存存储：生成的 () C_{-}{KV}(随后被保存到内存（如RAM、Redis)或磁盘中，以供后续持久化使用13。这是一个一次性的、前置的计算成本19。

阶段二：带缓存的推理（“多次复用”步骤）

缓存加载：当一个新的用户查询(表示为q)到达时，系统会加载预计算好的KV缓存CKV13。
增量计算：用户查询q被分词后，模型只需为这些新的查询token计算Q向量14。
注意力计算优化：这些新的Q向量将直接与加载的缓存 () C_{-}{KV}(中已存在的K向量进行比较。为整个知识库重新计算K和V向量的昂贵过程被完全跳过13。
响应生成：模型利用查询和缓存的上下文生成响应（表示为R)，其过程可表示为R=LLM(q|CKV)18。这个流程消除了实时检索步骤，并极大地减少了冗余计算，从而实现了近乎瞬时的响应。

阶段三：缓存管理与重置（可选）

在多轮对话或持续交互的场景中，随着新的查询和响应token不断生成，KV缓存会以仅追加（append- only)的方式增长19。为了防止内存溢出并有效管理上下文，可以采用缓存重置机制。该机制只需截断内存中新追加的token，而无需从磁盘重新加载整个基础知识缓存13。这是一个极其

高效的操作，能够确保系统在多个会话中保持高性能。

CAG不仅仅是RAG的替代方案，它更是针对Transformer架构核心瓶颈——自注意力机制的二次方复杂度（O(n2)）——的一种直接优化策略。它从根本上改变了计算的性质，从完全的重新计算转变为高效的增量更新。

在Transformer模型中，生成文本的主要性能瓶颈在于自注意力计算，即每个新生成的token都必须关注之前的所有token，其计算成本随序列长度n的增加呈二次方增长。在标准的RAG或长提示词场景中，每次请求都需要从头处理整个上下文（检索到的文档+查询）。如果上下文包含

C个token，查询包含Q个token，那么计算成本大致与 $\Phi (C + Q)^{\wedge}2\Phi$ 成正比。

CAG的预计算步骤承担了初始的C2成本。然而，对于后续的每一次查询，成本不再是 $\Phi (C + Q)^{\wedge}2\Phi$ 。由于C个上下文token的K和V向量已经被缓存，模型只需计算新的Q个查询token对C个缓存token的注意力。其成本显著降低，更接近于 $Q \times C$ ，当 $Q \ll C$ 时，这种效率提升尤为显著。因此，CAG可以被视为一种架构模式，它直接缓解了Transformer架构在处理静态知识密集型任务时最昂贵的计算环节，将一个成本高昂的实时计算转变为一个高效的分摊计算。

第二部分：权威比较：CAG vs. RAG

架构差异：简洁性与灵活性的对决

RAG架构：一个复杂的多阶段流水线。它需要数据提取（解析、分块）、嵌入模型、向量存储（如Pinecone、Weaviate）、检索器模块以及LLM生成器。这种架构引入了多个外部依赖和潜在的故障点。- CAG架构：一个流线型的、通常是单系统的设计。它最大限度地减少了对外部系统的依赖，无需向量数据库和复杂的检索逻辑。其核心组件是LLM本身和一个用于存储/加载KV缓存的机制。这种简洁性降低了运营成本并简化了部署流程。

性能基准：量化分析

延迟：CAG展现出决定性的优势。通过消除实时检索步骤，其响应速度显著加快。研究表明，在相同的硬件和数据集上，CAG的延迟比RAG降低了40%到80%以上。例如，一项在HotPotQA数据集上的研究发现，CAG的平均推理时间为每查询0.7秒，而RAG为1.2秒。
准确性与可靠性: 对于静态且定义明确的知识库, CAG可以达到与RAG相当甚至更高的准确性¹。通过对整个知识库的全局视角, CAG避免了因检索不完整或错误而导致的不一致性¹⁰。相比之下, RAG的准确性从根本上受限于其检索器的性能; 如果未能检索到正确的文档, LLM就无法生成正确的答案⁵。- 可扩展性与数据处理: 这是RAG的核心优势所在。它能够处理TB级别的海量动态知识库, 因为它只在需要时检索相关的小块信息⁷。而CAG则受到LLM上下文窗口大小的限制, 使其不适用于网络规模的语料库或需要持续更新的数据集⁵。

表1: CAG vs. RAG - 架构对比分析

下表提供了一个清晰的、一目了然的参考, 帮助架构师和开发者快速理解这两种系统之间的根本权衡。

特性	缓存增强生成(CAG)	检索增强生成(RAG)
数据源	预加载至内存/缓存;静态或半静态4	从外部数据库实时检索4
知识范围	受限于LLM上下文窗口(如<128K tokens)5	几乎无限;可处理海量动态语料库7
检索过程	推理期间无检索;在离线预计算时发生一次6	每次查询都进行按需、实时的向量搜索3
延迟	极低;近乎瞬时的响应7	因检索开销而较高3
系统复杂性	简化;无外部向量数据库或检索器9	高;多组件流水线(提取、嵌入、索引、检索)3
准确性驱动因素	全局上下文理解;避免检索错误10	检索器和排序器的质量5
最佳应用场景	FAQ、手册、人力资源政策、对延迟敏感的机器人4	新闻、研究、电子商务、实时数据源4
主要局限性	知识陈旧;上下文窗口大小限制6	检索错误;较高的延迟和运营成本4

表2：实施决策框架

该框架旨在将比较分析转化为一个可操作的决策工具，引导开发者通过一系列战略性问题来确定最适合其特定用例的架构。

问题	选择CAG,如果...	选择RAG,如果...	考虑混合方案,如果...
1.你的知识库有多大?	它可以舒适地放入LLM的上下文窗口(如<100K tokens)5。	它是海量的(数百万文档)或无界的11。	你有一个核心的静态知识库和一个更大的动态知识库7。
2.你的知识库多久更新一次?	不频繁(如季度性政策更新)10。	持续不断(如实时新闻、实时库存)4。	核心数据是静态的,但补充数据是动态的(如促销活动)10。
3.亚秒级延迟是关键要求吗?	是的,对于实时聊天机器人或交互式工具等应用4。	不是,几秒的延迟是可以接受的12。	你需要对常见查询实现低延迟,但可以容忍对罕见查询的延迟7。
4.你的团队能管理多大的复杂性?	你偏好一个简化的、低维护的架构9。	你有资源来管理一个多组件的检索流水线11。	你有专业知识来同时管理缓存和检索逻辑25。
5.在固定数据集上的绝对一致性至关重要吗?	是的,对于合规、法律或政策机器人,检索错误是不可接受的7。	不是,优先考虑的是访问最广泛、最新的信息4。	你需要核心信息的一致性和其他信息的广度24。

第三部分：实践中的挑战与缓解策略

尽管CAG在特定场景下表现出色，但其实施并非没有挑战。理解并有效应对这些局限性是成功部

署CAG系统的关键。

CAG的主要局限性

上下文窗口限制: 这是最根本的制约因素。整个知识源必须能够容纳在模型的上下文窗口内，这使得CAG不适用于极大规模的数据集。4- 知识陈旧性(Knowledge Staleness): 缓存反映的是某个时间点的知识库快照。源文档的任何更新都要求重新生成整个KV缓存，这可能带来巨大的维护开销。6- “大海捞针”现象(“Lost-in-the-Middle”)：研究表明，LLM在处理长上下文时，倾向于更多地关注开头和结尾的信息，而可能忽略中间的关键事实。对于依赖长上下文的CAG来说，这是一个重大风险。15- 资源开销: 生成初始KV缓存需要大量的计算资源和时间。存储大型缓存也需要可观的RAM，这可能导致成本增加。4- 缓存污染与安全: 如果管理不当，缓存可能会被不相关或过时的信息污染。此外，将敏感内容存储在内存缓存中会引入安全风险，需要强大的加密和访问控制机制来保障数据安全。21

新兴解决方案与缓解技术

缓解知识陈旧性: 对于半静态数据，实施缓存失效策略（如设置生存时间TTL、事件驱动更新）可以在时效性和性能之间取得平衡。对于关键数据集，可以采用“写穿透”(write-through)缓存策略来确保数据一致性。20- 应对“大海捞针”: 缓解策略包括主题缓存分段（将大缓存分解为多个主题集中的小缓存）、使用学习型位置编码，或在上下文中交错插入查询标记以保持中间部分的相关性。15- 高级缓存策略: 对于生产系统，必须从简单的内存字典转向更健壮的解决方案，如Redis或Memcached。这些工具提供了可扩展性、持久化和线程安全等高级功能。20- 深入探讨: 自适应上下文压缩(Adaptive Contextual Compression, ACC): 这是一种前沿技术，旨在通过在知识库被缓存之前对其进行智能压缩，来克服上下文窗口的限制。29- ACC工作原理: 它是一个多阶段的流水线，用于优化缓存中包含的信息。30- 相关性评分与排序: 通过分析查询日志和历史访问模式，为每个文档或片段分配一个相关性权重。这确保了高优先级的信息被保留下来。30- 无损压缩与摘要: 采用分层摘要（如使用BART模型）和句子融合等技术，在不损失事实完整性的前提下压缩内容。它可以在文档、段落和句子等多个层级上创建摘要，选择最紧凑且最相关的表示。30- 策略优化: 压缩过程被建模为一个强化学习问题（马尔可夫决策过程）。系统训练一个策略，在固定的token预算下最大化缓存的效用（平衡响应质量和token成本），从而随时间学习到最优的压缩策略。31

CAG的局限性并非终点，而是催生新一轮技术创新的主要驱动力，例如对更复杂的上下文管理技术（如ACC）的研究。这形成了一个反馈循环：一种技术的普及（长上下文LLM催生了CAG）直接推动了使其真正可扩展所需的补充技术的发明。

这个创新周期的演进路径清晰可见：

初始问题：LLM缺乏外部知识。解决方案：RAG。2. 新问题：RAG速度慢且系统复杂。解决方案：利用长上下文创建CAG。3. 新问题：CAG的上下文窗口仍然是瓶颈，且信息可能在中间丢失。解决方案：发明更智能的上下文管理方法，从而产生了自适应上下文压缩（ACC）等技术。

这一模式揭示了LLM系统架构演进的规律：解决一个层面的架构问题，通常会在下一个抽象层面创造出一个新的、更细致的问题。从RAG到CAG，再到由ACC增强的CAG，正是这一创新周期的完美体现。未来不仅在于更大的上下文窗口，更在于如何更智能地利用我们拥有的空间。

第四部分：未来是混合的：高级架构与前瞻

混合CAG-RAG框架：两全其美

对于许多现实世界的应用而言，一种结合了CAG和RAG优势的混合架构正成为最实用和最强大的解决方案。

架构设计：混合模型利用CAG处理“热点”的、基础性的、频繁访问的知识。这些静态数据（如公司政策、产品手册）被预加载到KV缓存中，以实现即时、低延迟的响应。当查询无法由缓存解答（即“缓存未命中”）或被识别为需要动态信息时，系统会触发一个轻量级的RAG流水线，从外部数据源获取实时或专门的数据。应用案例：一个医疗保健助理聊天机器人。它使用CAG预加载稳定的医疗指南和药物信息，以快速响应标准查询。而对于关于最新临床试验或特定患者实时数据的查询，它则使用RAG来获取这些动态信息。这种设计在速度和一致性与灵活性和时效性之间取得了完美的平衡。

LLM能力演进的影响

超越百万级Token：随着上下文窗口持续向IM tokens甚至更远的未来扩展，可被视为“可管

理”的数据集范围将呈指数级增长¹¹。这将使CAG成为越来越广泛应用的可行选项，模糊了当前需要RAG处理的界限。- 高效注意力机制：对更高效注意力机制（如Longformer、Reformer）的研究，其计算复杂度可从二次方扩展转为线性扩展，将进一步降低长上下文的计算开销，从而提升CAG的可行性和性能¹⁵。

未来研究方向

动态与增量缓存：开发无需完全重新生成即可增量更新KV缓存的方法将是关键研究领域。这将使CAG能够更有效地处理半动态数据集¹⁶。- 更智能的缓存替换策略：超越简单的TTL或LRU（最近最少使用）策略，转向使用机器学习来预测未来最可能需要的缓存项的自适应策略²。- 联合优化：研究联合微调LLM和缓存/检索策略，以创建一个完全集成的系统，该系统能够学习访问和利用知识的最优策略³⁰。

战略性结论：从检索到记忆

本报告的分析表明，CAG并非要取代RAG，成为所谓的“RAG杀手”，而是AI架构师工具箱中一个至关重要且功能强大的新工具¹¹。

最终的结论是，AI系统正在经历一场从仅仅能够查找信息（检索）到能够记忆并高效复用信息（缓存）的演进。这代表着为LLM创建更持久、更高效的“工作记忆”迈出了关键一步，这是通往更强大、更智能系统的必经之路¹¹。未来的竞争优势不取决于在RAG和CAG之间做出非此即彼的选择，而在于如何将两者进行精密的、智能化的集成。

引用的著作

Don’t Do RAG: When Cache-Augmented Generation is All You Need for Knowledge Tasks, 访问时间为九月 5, 2025, https://arxiv.org/html/2412.15605v1
Architectural Advancements in Retrieval Augmented Generation: Addressing RAG’s Challenges with CAG & KAG - Coforge, 访问时间为九月 5, 2025, https://www.coforge.com/what-we-know/blog/architectural-advancements-in-retrieval-augmented-generation-addressing-rags-challenges-with-cag-kag
Exploring the Shift from Traditional RAG to Cache-Augmented Generation (CAG) - Medium, 访问时间为九月 5, 2025, https://medium.com/@ajayverma23/exploring-the-shift-from-traditional-rag-to-cache-augmented-generation-cag-a672942ab420
Cache-Augmented Generation (CAG): The Next Frontier in LLM Optimization | by Jagadeesan Ganesh | Medium, 访问时间为九月 5, 2025, https://medium.com/@jagadeesan.gamesh/cache-augmented-generation-cag-the-next-frontier-in-llm-optimization-d4c83e31ba0b
hhhuang/CAG: Cache-Augmented Generation: A Simple, Efficient Alternative to RAG - GitHub, 访问时间为九月 5, 2025, https://github.com/hhhuang/CAG
Cache-Augmented Generation (CAG): Is It Better Than RAG? - Analytics Vidhya, 访问时间为九月 5, 2025, https://www.analyticsvidhya.com/blog/2025/03/cache-augmented-generation-ca/g/
CAG vs. RAG Explained | B EYE, 访问时间为九月 5, 2025, https://b-eye.com/blog/cag-vs-rag-explained/
Cache Augmented Generation (CAG), Knowledge Augmented Generation (KAG), and GraphRAG: The Future of AI-Powered Content Creation | by Sivanesh | Latent Space | Medium, 访问时间为九月 5, 2025, https://medium.com/latent-space/cache-augmented-generation-cag-knowledge-augmented-generation-kag-and-graphrag-the-future-of-bfc04d62cfae
CAG: What Is Cache-Augmented Generation and How to Use It - Lumenova AI, 访问时间为九月 5, 2025, https://www.lumenova.ai/blog/cag-what-is-cache-augmented-generation/
Cache-Augmented Generation (CAG) vs. Retrieval-Augmented Generation (RAG): Choosing the Right LLM Architecture - Forte Group, 访问时间为九月 5, 2025, https://fortegrp.com/insights/cag-vs-rag
RAG vs. CAG: What Cache-Augmented Generation Means for Enterprise AI, 访问时间为九月 5, 2025, https://www.eyelevel.ai/post/rag-vs-cag
Retrieval vs. Cache-Augmented Generation (CAG vs. RAG) - FlowHunt, 访问时间为九月 5, 2025, https://www.flowhunt.io/blog/retrieval-vs-cache-augmented-generation-cag-vs-rag/
Optimizing LLMs with cache augmented generation - IBM Developer, 访问时间为九月 5, 2025, https://developer.ibm.com/articles/awb-llms-cache-augmented-generation/
Cache Augmented Generation (CAG): An Introduction | by Ernese Norelus | Medium, 访问时间为九月 5, 2025, https://ernesenorelus.medium.com/cache-augmented-generation-cag-an-introduction-305c11de1b28
Enhancing Cache-Augmented Generation (CAG) with Adaptive Contextual Compression for Scalable Knowledge Integration - arXiv, 访问时间为九月 5, 2025, https://arxiv.org/html/2505.08261v1
(PDF) Cache-Augmented Generation in Large Language Models … 访问时间为九月 5, 2025, https://www.researchgate.net/publication/390673393 Cache-Augmented Generation_in_Large_Language_Models_Evaluating_Latency_Accuracy_and_Scalability_Through_Experimental_Data_and_Community_Discourse
Is Cache Augmented Generation a good alternative to RAG? - ProjectPro, 访问时

间为九月5, 2025, https://www.projectpro.io/article/cache- augmented- generation/111818. Cache- Augmented Generation (CAG) Explained: The Link to Prompt Caching - Medium, 访问时间为九月5, 2025, https://medium.com/@kswastik29/what- people- are- not- telling- you- is- that- cag- is- the- sameras- prompt- caching- e2b2f2fBaf1ea19. Don’t Do RAG: When Cache- Augmented Generation is All You Need for Knowledge Tasks - arXiv, 访问时间为九月5, 2025, https://arxiv.org/pdf/24121560520. CAG: Enhancing speed and efficiency in AI systems - IBM Developer, 访问时间为九月5, 2025, https://developer.ibm.com/articles/awb- cache- rag- efficiency- speed- ai/21. Cache- Augmented Generation (CAG): A Faster, Smarter LLM - - , 访问时间为九月5, 2025, https://www.webuters.com/what- is- cag- cache- augmented- generation22. RAG vs CAG: Key differences in AI generation strategies - Snyk, 访问时间为九月5, 2025, https://snyk.io/articles/rag- vs- cag- key- differences- in- ai- generation- strategies/23. A Deep Dive into Cache Augmented Generation (CAG) - Association of Data Scientists, 访问时间为九月5, 2025, https://adacci.org/a- deep- dive- into- cache- augmented- generation- cag/24. RAG vs. CAG: Solving Knowledge Gaps in AI Models - YouTube, 访问时间为九月5, 2025, https://www.youtube.com/watch?v=Hdaf1Ot3sEY25. A Breakdown of RAG vs CAG - r/LLMDevs - Reddit, 访问时间为九月5, 2025, https://www.reddit.com/r/LLMDevs/comments/1lkbvss/a_breakdown_of Rag_vs_cag/26. Don’t Do RAG: Cache is the future - Level Up Coding, 访问时间为九月5, 2025, https://levelup.gitconnected.com/dont- do- rag- cache- is- the- future- d1e995f0c76f27. How Organizations Can Overcome Challenges In Advanced Caching Strategies - Forbes, 访问时间为九月5, 2025, https://www.forbes.com/councils/forbestechcouncil/2025/02/05/how- organizations- can- overcome- challenges- in- advanced- caching- strategies/28. A Survey on Mitigation of Cache Pollution Attacks in NDN - ResearchGate, 访问时间为九月5, 2025, https://www.researchgate.net/publication/390275104_A_Survey_on_Mitigation_ofCache_Pollution_Attacks_in_NDN29. [2505.08261] Enhancing Cache- Augmented Generation (CAG) with Adaptive Contextual Compression for Scalable Knowledge Integration - arXiv, 访问时间为九月5, 2025, https://arxiv.org/abs/2505.0826130. Enhancing Cache- Augmented Generation (CAG) with Adaptive Contextual Compression for Scalable Knowledge Integration - ResearchGate, 访问时间为九月5, 2025, https://www.researchgate.net/publication/391706974_Enhancing_Cache- Augmented_Generation_CAG_with_Adaptive_Contextual_Compression_for_Scalable_Knowledge_Integration

[Literature Review] Enhancing Cache-Augmented Generation (CAG) with Adaptive Contextual Compression for Scalable Knowledge Integration - Moonlight, 访问时间为九月 5, 2025, https://www.themoonlight.io/en/review/enhancing-cache-augmented-generation-cag-with-adaptive-contextual-compression-for-scalable-knowledge-integration 32. Adaptive Contextual Compression (ACC) pipeline: (1) Snippet Ranking - ResearchGate, 访问时间为九月 5, 2025, https://www.researchgate.net/figure/Adaptive-Contextual-Compression-ACC-pipeline-1-Snippet-Ranking-2-Multi-Level_fig1_391706974
Cache-Augmented Generation (CAG) vs Retrieval-Augmented Generation (RAG) | Towards AI, 访问时间为九月 5, 2025, https://towardsai.net/p/artificial-intelligence/cache-augmented-generation-cag-vs-retrieval-augmented-generation-rag
medium.com, 访问时间为九月 5, 2025, https://medium.com/@jagadeesan.gamesh/hybrid-architectures-combining-rag-cag-and-long-context-models-for-maximum-efficiency-19c6106235b0#:~:text=A %20hybrid%20AI%20model%20combining,performance%20for%20real%2Dworld%20applications.
Enhancing Cache-Augmented Generation (CAG) with … - arXiv, 访问时间为九月 5, 2025, https://arxiv.org/pdf/2505.08261?
Understanding CAG: AI’s Conversation Memory - APlpie.ai, 访问时间为九月 5, 2025, https://apipie.ai/docs/blog/understanding-cag-cache-augmented-generation
Understanding CAG (Cache Augmented Generation): AI’s Conversation Memory With APlpie.ai - DEV Community, 访问时间为九月 5, 2025, https://dev.to/apipie-ai/understanding-cag-cache-augmented-generation-ais-conversation-memory-26gp
www.eyelevel.ai, 访问时间为九月 5, 2025, https://www.eyelevel.ai/post/rag-vs-cag#:~:text=Retrieval%2DAugmented%20Generation%20(RAG),fast%2C%20low%2Dlatency%20reuse.

超越检索 深入剖析缓存增强生成 (CAG) 与知识密集型AI的未来