超越检索 深入剖析缓存增强生成 (CAG) 与知识密集型AI的未来
引言: 延迟瓶颈与效率追求
检索增强生成 (Retrieval- Augmented Generation, RAG) 已成为将大型语言模型 (LLM) 与外部事实知识相结合的主流范式,它在缓解模型幻觉和提供最新信息方面取得了巨大成功。然而,这种强大的能力是以显著的架构成本为代价的。随着生成式AI应用向实时交互和高并发场景不断渗透,RAG固有的局限性日益凸显,成为系统性能和可维护性的关键瓶颈。
RAG革命及其权衡
RAG的核心挑战源于其“即时检索”的设计哲学。系统的每一次响应都依赖于一个复杂且耗时的实时流程,这主要体现在以下三个方面:
- 检索延迟 (Retrieval Latency): 这是RAG最根本的性能瓶颈。实时向量搜索和文档抓取过程不可避免地会引入延迟,对于需要即时反馈的交互式应用(如智能客服、实时助手)而言,这种延迟可能严重影响用户体验。2. 系统复杂性 (System Complexity): 一个完整的RAG系统是一个多组件架构,通常包括向量数据库(如Pinecone)、嵌入模型、文本分块策略和检索管道等。每个组件都需要独立的配置、优化和维护,这不仅增加了运营开销,也引入了多个潜在的故障点。3. 检索错误 (Retrieval Errors): RAG的最终输出质量高度依赖于检索器的表现。如果检索器未能找到相关、准确或完整的文档,LLM的生成质量将受到直接影响,因为模型的上下文信息存在缺陷。换言之,LLM的回答质量上限被检索质量所限制。
CAG作为一种范式转移的出现
为应对这些挑战,业界提出了一种名为缓存增强生成 (Cache- Augmented Generation, CAG) 的新
范式。CAG并非简单地对RAG进行修补,而是从根本上重新思考了LLM与知识的交互方式。它标志着从动态的“即时”检索模型向一种抢先的、“一次计算,多次复用”的缓存模型的转变。这一转变之所以成为可能,直接得益于近年来LLM上下文窗口容量的爆炸性增长1。
CAG的出现并非孤立的技术创新,而是LLM底层架构演进的直接产物。早期LLM的上下文窗口极小(例如2K- 4K tokens),这使得RAG成为一种必然选择——系统必须检索小而精的文本片段,因为这是模型所能容纳的全部14。然而,随着Llama 3.1 8B、IBM Granite等现代模型将上下文窗口扩展至128K tokens甚至更长(相当于数百页文本),一种新的可能性应运而生:对于特定规模的数据集,我们是否可以完全绕过检索步骤,将整个知识源直接置于模型上下文中?5。这一思路直接催生了CAG范式。因此,CAG的可行性与LLM硬件和模型架构的发展趋势紧密相连,它代表了一种由硬件/架构突破所解锁的软件创新。
第一部分:解构缓存增强生成(CAG)
核心范式:从动态检索到静态预加载
CAG的根本理念在于将计算负担从实时的推理阶段前置到一个一次性的、离线的预处理阶段13。这个过程可以被比作一场开卷考试,考生在考试前已经通读、理解并标记了整本教科书的重点,而不是在回答每个问题时才去翻阅索引9。
通过这种方式,处理整个知识库的高昂计算成本被分摊到未来无数次的查询中,使得每一次独立的查询都变得极为迅速15。这种“预计算”的哲学彻底改变了知识密集型任务的性能曲线。
CAG的引擎:键值(KV)缓存详解
键值(KV)缓存是实现CAG的核心技术机制,它远比简单的提示词缓存(prompt caching)更为复杂和强大18。要理解其工作原理,首先需要回顾Transformer模型中的注意力机制。
Transformer注意力机制背景
在标准的Transformer架构中,模型为输入序列中的每个token计算三个向量:查询(Query,Q)、键(Key,K)和值(Value,V)。当前token的Q向量会与之前所有token的K向量进行比较(通常是点积运算),以计算出注意力分数。这些分数经过归一化后,用于加权求和所有token的V向量,从而生成当前token的输出表示18。在没有缓存的情况下,每生成一个新token,模型都需要为上下文中的所有token重新计算K和V向量,这是一个巨大的计算冗余18。
CAG正是通过优化这一过程来提升效率的。其工作流程分为三个关键阶段:
阶段一:预计算与缓存创建(“一次计算”步骤)
- 知识预加载:首先,一个经过精心策划的静态知识库(表示为D)被选中,并被格式化以适应LLM的上下文窗口大小13。2. 前向传播与编码:整个知识库D作为初始输入,在LLM中进行一次完整的前向传播。在此过程中,模型会计算出知识库中每个token在每个注意力层对应的K和V张量14。3. KV缓存生成:这组预先计算好的K和V张量的集合,就是所谓的”KV缓存”(表示为CKV)。它代表了模型对整个知识库的内部、已处理的理解状态18。4. 缓存存储:生成的 () C_{-}{KV}(随后被保存到内存(如RAM、Redis)或磁盘中,以供后续持久化使用13。这是一个一次性的、前置的计算成本19。
阶段二:带缓存的推理(“多次复用”步骤)
缓存加载:当一个新的用户查询(表示为q)到达时,系统会加载预计算好的KV缓存CKV13。
增量计算:用户查询q被分词后,模型只需为这些新的查询token计算Q向量14。
注意力计算优化:这些新的Q向量将直接与加载的缓存 () C_{-}{KV}(中已存在的K向量进行比较。为整个知识库重新计算K和V向量的昂贵过程被完全跳过13。
响应生成:模型利用查询和缓存的上下文生成响应(表示为R),其过程可表示为R=LLM(q|CKV)18。这个流程消除了实时检索步骤,并极大地减少了冗余计算,从而实现了近乎瞬时的响应。
阶段三:缓存管理与重置(可选)
在多轮对话或持续交互的场景中,随着新的查询和响应token不断生成,KV缓存会以仅追加(append- only)的方式增长19。为了防止内存溢出并有效管理上下文,可以采用缓存重置机制。该机制只需截断内存中新追加的token,而无需从磁盘重新加载整个基础知识缓存13。这是一个极其
高效的操作,能够确保系统在多个会话中保持高性能。
CAG不仅仅是RAG的替代方案,它更是针对Transformer架构核心瓶颈——自注意力机制的二次方复杂度(O(n2))——的一种直接优化策略。它从根本上改变了计算的性质,从完全的重新计算转变为高效的增量更新。
在Transformer模型中,生成文本的主要性能瓶颈在于自注意力计算,即每个新生成的token都必须关注之前的所有token,其计算成本随序列长度n的增加呈二次方增长。在标准的RAG或长提示词场景中,每次请求都需要从头处理整个上下文(检索到的文档+查询)。如果上下文包含
C个token,查询包含Q个token,那么计算成本大致与 $\Phi (C + Q)^{\wedge}2\Phi$ 成正比。
CAG的预计算步骤承担了初始的C2成本。然而,对于后续的每一次查询,成本不再是 $\Phi (C + Q)^{\wedge}2\Phi$ 。由于C个上下文token的K和V向量已经被缓存,模型只需计算新的Q个查询token对C个缓存token的注意力。其成本显著降低,更接近于 $Q \times C$ ,当 $Q \ll C$ 时,这种效率提升尤为显著。因此,CAG可以被视为一种架构模式,它直接缓解了Transformer架构在处理静态知识密集型任务时最昂贵的计算环节,将一个成本高昂的实时计算转变为一个高效的分摊计算。
第二部分:权威比较:CAG vs. RAG
架构差异:简洁性与灵活性的对决
- RAG架构:一个复杂的多阶段流水线。它需要数据提取(解析、分块)、嵌入模型、向量存储(如Pinecone、Weaviate)、检索器模块以及LLM生成器。这种架构引入了多个外部依赖和潜在的故障点。- CAG架构:一个流线型的、通常是单系统的设计。它最大限度地减少了对外部系统的依赖,无需向量数据库和复杂的检索逻辑。其核心组件是LLM本身和一个用于存储/加载KV缓存的机制。这种简洁性降低了运营成本并简化了部署流程。
性能基准:量化分析
延迟:CAG展现出决定性的优势。通过消除实时检索步骤,其响应速度显著加快。研究表明,在相同的硬件和数据集上,CAG的延迟比RAG降低了40%到80%以上。例如,一项在HotPotQA数据集上的研究发现,CAG的平均推理时间为每查询0.7秒,而RAG为1.2秒。
准确性与可靠性: 对于静态且定义明确的知识库, CAG可以达到与RAG相当甚至更高的准确性1。通过对整个知识库的全局视角, CAG避免了因检索不完整或错误而导致的不一致性10。相比之下, RAG的准确性从根本上受限于其检索器的性能; 如果未能检索到正确的文档, LLM就无法生成正确的答案5。- 可扩展性与数据处理: 这是RAG的核心优势所在。它能够处理TB级别的海量动态知识库, 因为它只在需要时检索相关的小块信息7。而CAG则受到LLM上下文窗口大小的限制, 使其不适用于网络规模的语料库或需要持续更新的数据集5。
表1: CAG vs. RAG - 架构对比分析
下表提供了一个清晰的、一目了然的参考, 帮助架构师和开发者快速理解这两种系统之间的根本权衡。
特性 | 缓存增强生成(CAG) | 检索增强生成(RAG) |
数据源 | 预加载至内存/缓存;静态或半静态4 | 从外部数据库实时检索4 |
知识范围 | 受限于LLM上下文窗口(如<128K tokens)5 | 几乎无限;可处理海量动态语料库7 |
检索过程 | 推理期间无检索;在离线预计算时发生一次6 | 每次查询都进行按需、实时的向量搜索3 |
延迟 | 极低;近乎瞬时的响应7 | 因检索开销而较高3 |
系统复杂性 | 简化;无外部向量数据库或检索器9 | 高;多组件流水线(提取、嵌入、索引、检索)3 |
准确性驱动因素 | 全局上下文理解;避免检索错误10 | 检索器和排序器的质量5 |
最佳应用场景 | FAQ、手册、人力资源政策、对延迟敏感的机器人4 | 新闻、研究、电子商务、实时数据源4 |
主要局限性 | 知识陈旧;上下文窗口大小限制6 | 检索错误;较高的延迟和运营成本4 |
表2:实施决策框架
该框架旨在将比较分析转化为一个可操作的决策工具,引导开发者通过一系列战略性问题来确定最适合其特定用例的架构。
问题 | 选择CAG,如果... | 选择RAG,如果... | 考虑混合方案,如 果... |
1.你的知识库有多大? | 它可以舒适地放入LLM的上下文窗口(如<100K tokens)5。 | 它是海量的(数百万文档)或无界的11。 | 你有一个核心的静态知识库和一个更大的动态知识库7。 |
2.你的知识库多久更新一次? | 不频繁(如季度性政策更新)10。 | 持续不断(如实时新闻、实时库存)4。 | 核心数据是静态的,但补充数据是动态的(如促销活动)10。 |
3.亚秒级延迟是关键要求吗? | 是的,对于实时聊天机器人或交互式工具等应用4。 | 不是,几秒的延迟是可以接受的12。 | 你需要对常见查询实现低延迟,但可以容忍对罕见查询的延迟7。 |
4.你的团队能管理多大的复杂性? | 你偏好一个简化的、低维护的架构9。 | 你有资源来管理一个多组件的检索流水线11。 | 你有专业知识来同时管理缓存和检索逻辑25。 |
5.在固定数据集上的绝对一致性至关重要吗? | 是的,对于合规、法律或政策机器人,检索错误是不可接受的7。 | 不是,优先考虑的是访问最广泛、最新的信息4。 | 你需要核心信息的一致性和其他信息的广度24。 |
第三部分:实践中的挑战与缓解策略
尽管CAG在特定场景下表现出色,但其实施并非没有挑战。理解并有效应对这些局限性是成功部
署CAG系统的关键。
CAG的主要局限性
- 上下文窗口限制: 这是最根本的制约因素。整个知识源必须能够容纳在模型的上下文窗口内,这使得CAG不适用于极大规模的数据集。4- 知识陈旧性(Knowledge Staleness): 缓存反映的是某个时间点的知识库快照。源文档的任何更新都要求重新生成整个KV缓存,这可能带来巨大的维护开销。6- “大海捞针”现象(“Lost-in-the-Middle”):研究表明,LLM在处理长上下文时,倾向于更多地关注开头和结尾的信息,而可能忽略中间的关键事实。对于依赖长上下文的CAG来说,这是一个重大风险。15- 资源开销: 生成初始KV缓存需要大量的计算资源和时间。存储大型缓存也需要可观的RAM,这可能导致成本增加。4- 缓存污染与安全: 如果管理不当,缓存可能会被不相关或过时的信息污染。此外,将敏感内容存储在内存缓存中会引入安全风险,需要强大的加密和访问控制机制来保障数据安全。21
新兴解决方案与缓解技术
- 缓解知识陈旧性: 对于半静态数据,实施缓存失效策略(如设置生存时间TTL、事件驱动更新)可以在时效性和性能之间取得平衡。对于关键数据集,可以采用“写穿透”(write-through)缓存策略来确保数据一致性。20- 应对“大海捞针”: 缓解策略包括主题缓存分段(将大缓存分解为多个主题集中的小缓存)、使用学习型位置编码,或在上下文中交错插入查询标记以保持中间部分的相关性。15- 高级缓存策略: 对于生产系统,必须从简单的内存字典转向更健壮的解决方案,如Redis或Memcached。这些工具提供了可扩展性、持久化和线程安全等高级功能。20- 深入探讨: 自适应上下文压缩(Adaptive Contextual Compression, ACC): 这是一种前沿技术,旨在通过在知识库被缓存之前对其进行智能压缩,来克服上下文窗口的限制。29- ACC工作原理: 它是一个多阶段的流水线,用于优化缓存中包含的信息。30- 相关性评分与排序: 通过分析查询日志和历史访问模式,为每个文档或片段分配一个相关性权重。这确保了高优先级的信息被保留下来。30- 无损压缩与摘要: 采用分层摘要(如使用BART模型)和句子融合等技术,在不损失事实完整性的前提下压缩内容。它可以在文档、段落和句子等多个层级上创建摘要,选择最紧凑且最相关的表示。30- 策略优化: 压缩过程被建模为一个强化学习问题(马尔可夫决策过程)。系统训练一个策略,在固定的token预算下最大化缓存的效用(平衡响应质量和token成本),从而随时间学习到最优的压缩策略。31
CAG的局限性并非终点,而是催生新一轮技术创新的主要驱动力,例如对更复杂的上下文管理技术(如ACC)的研究。这形成了一个反馈循环:一种技术的普及(长上下文LLM催生了CAG)直接推动了使其真正可扩展所需的补充技术的发明。
这个创新周期的演进路径清晰可见:
- 初始问题:LLM缺乏外部知识。解决方案:RAG。2. 新问题:RAG速度慢且系统复杂。解决方案:利用长上下文创建CAG。3. 新问题:CAG的上下文窗口仍然是瓶颈,且信息可能在中间丢失。解决方案:发明更智能的上下文管理方法,从而产生了自适应上下文压缩(ACC)等技术。
这一模式揭示了LLM系统架构演进的规律:解决一个层面的架构问题,通常会在下一个抽象层面创造出一个新的、更细致的问题。从RAG到CAG,再到由ACC增强的CAG,正是这一创新周期的完美体现。未来不仅在于更大的上下文窗口,更在于如何更智能地利用我们拥有的空间。
第四部分:未来是混合的:高级架构与前瞻
混合CAG-RAG框架:两全其美
对于许多现实世界的应用而言,一种结合了CAG和RAG优势的混合架构正成为最实用和最强大的解决方案。
架构设计:混合模型利用CAG处理“热点”的、基础性的、频繁访问的知识。这些静态数据(如公司政策、产品手册)被预加载到KV缓存中,以实现即时、低延迟的响应。当查询无法由缓存解答(即“缓存未命中”)或被识别为需要动态信息时,系统会触发一个轻量级的RAG流水线,从外部数据源获取实时或专门的数据。应用案例:一个医疗保健助理聊天机器人。它使用CAG预加载稳定的医疗指南和药物信息,以快速响应标准查询。而对于关于最新临床试验或特定患者实时数据的查询,它则使用RAG来获取这些动态信息。这种设计在速度和一致性与灵活性和时效性之间取得了完美的平衡。
LLM能力演进的影响
超越百万级Token:随着上下文窗口持续向IM tokens甚至更远的未来扩展,可被视为“可管
理”的数据集范围将呈指数级增长11。这将使CAG成为越来越广泛应用的可行选项,模糊了当前需要RAG处理的界限。- 高效注意力机制:对更高效注意力机制(如Longformer、Reformer)的研究,其计算复杂度可从二次方扩展转为线性扩展,将进一步降低长上下文的计算开销,从而提升CAG的可行性和性能15。
未来研究方向
- 动态与增量缓存:开发无需完全重新生成即可增量更新KV缓存的方法将是关键研究领域。这将使CAG能够更有效地处理半动态数据集16。- 更智能的缓存替换策略:超越简单的TTL或LRU(最近最少使用)策略,转向使用机器学习来预测未来最可能需要的缓存项的自适应策略2。- 联合优化:研究联合微调LLM和缓存/检索策略,以创建一个完全集成的系统,该系统能够学习访问和利用知识的最优策略30。
战略性结论:从检索到记忆
本报告的分析表明,CAG并非要取代RAG,成为所谓的“RAG杀手”,而是AI架构师工具箱中一个至关重要且功能强大的新工具11。
最终的结论是,AI系统正在经历一场从仅仅能够查找信息(检索)到能够记忆并高效复用信息(缓存)的演进。这代表着为LLM创建更持久、更高效的“工作记忆”迈出了关键一步,这是通往更强大、更智能系统的必经之路11。未来的竞争优势不取决于在RAG和CAG之间做出非此即彼的选择,而在于如何将两者进行精密的、智能化的集成。
引用的著作
Don’t Do RAG: When Cache-Augmented Generation is All You Need for Knowledge Tasks, 访问时间为 九月 5, 2025, https://arxiv.org/html/2412.15605v1
Architectural Advancements in Retrieval Augmented Generation: Addressing RAG’s Challenges with CAG & KAG - Coforge, 访问时间为 九月 5, 2025, https://www.coforge.com/what-we-know/blog/architectural-advancements-in-retrieval-augmented-generation-addressing-rags-challenges-with-cag-kag
Exploring the Shift from Traditional RAG to Cache-Augmented Generation (CAG) - Medium, 访问时间为 九月 5, 2025, https://medium.com/@ajayverma23/exploring-the-shift-from-traditional-rag-to-cache-augmented-generation-cag-a672942ab420
Cache-Augmented Generation (CAG): The Next Frontier in LLM Optimization | by Jagadeesan Ganesh | Medium, 访问时间为九月 5, 2025, https://medium.com/@jagadeesan.gamesh/cache-augmented-generation-cag-the-next-frontier-in-llm-optimization-d4c83e31ba0b
hhhuang/CAG: Cache-Augmented Generation: A Simple, Efficient Alternative to RAG - GitHub, 访问时间为九月 5, 2025, https://github.com/hhhuang/CAG
Cache-Augmented Generation (CAG): Is It Better Than RAG? - Analytics Vidhya, 访问时间为九月 5, 2025, https://www.analyticsvidhya.com/blog/2025/03/cache-augmented-generation-ca/g/
CAG vs. RAG Explained | B EYE, 访问时间为九月 5, 2025, https://b-eye.com/blog/cag-vs-rag-explained/
Cache Augmented Generation (CAG), Knowledge Augmented Generation (KAG), and GraphRAG: The Future of AI-Powered Content Creation | by Sivanesh | Latent Space | Medium, 访问时间为九月 5, 2025, https://medium.com/latent-space/cache-augmented-generation-cag-knowledge-augmented-generation-kag-and-graphrag-the-future-of-bfc04d62cfae
CAG: What Is Cache-Augmented Generation and How to Use It - Lumenova AI, 访问时间为九月 5, 2025, https://www.lumenova.ai/blog/cag-what-is-cache-augmented-generation/
Cache-Augmented Generation (CAG) vs. Retrieval-Augmented Generation (RAG): Choosing the Right LLM Architecture - Forte Group, 访问时间为九月 5, 2025, https://fortegrp.com/insights/cag-vs-rag
RAG vs. CAG: What Cache-Augmented Generation Means for Enterprise AI, 访问时间为九月 5, 2025, https://www.eyelevel.ai/post/rag-vs-cag
Retrieval vs. Cache-Augmented Generation (CAG vs. RAG) - FlowHunt, 访问时间为九月 5, 2025, https://www.flowhunt.io/blog/retrieval-vs-cache-augmented-generation-cag-vs-rag/
Optimizing LLMs with cache augmented generation - IBM Developer, 访问时间为九月 5, 2025, https://developer.ibm.com/articles/awb-llms-cache-augmented-generation/
Cache Augmented Generation (CAG): An Introduction | by Ernese Norelus | Medium, 访问时间为九月 5, 2025, https://ernesenorelus.medium.com/cache-augmented-generation-cag-an-introduction-305c11de1b28
Enhancing Cache-Augmented Generation (CAG) with Adaptive Contextual Compression for Scalable Knowledge Integration - arXiv, 访问时间为九月 5, 2025, https://arxiv.org/html/2505.08261v1
(PDF) Cache-Augmented Generation in Large Language Models … 访问时间为九月 5, 2025, https://www.researchgate.net/publication/390673393 Cache-Augmented Generation_in_Large_Language_Models_Evaluating_Latency_Accuracy_and_Scalability_Through_Experimental_Data_and_Community_Discourse
Is Cache Augmented Generation a good alternative to RAG? - ProjectPro, 访问时
间为九月5, 2025, https://www.projectpro.io/article/cache- augmented- generation/111818. Cache- Augmented Generation (CAG) Explained: The Link to Prompt Caching - Medium, 访问时间为九月5, 2025, https://medium.com/@kswastik29/what- people- are- not- telling- you- is- that- cag- is- the- sameras- prompt- caching- e2b2f2fBaf1ea19. Don’t Do RAG: When Cache- Augmented Generation is All You Need for Knowledge Tasks - arXiv, 访问时间为九月5, 2025, https://arxiv.org/pdf/24121560520. CAG: Enhancing speed and efficiency in AI systems - IBM Developer, 访问时间为九月5, 2025, https://developer.ibm.com/articles/awb- cache- rag- efficiency- speed- ai/21. Cache- Augmented Generation (CAG): A Faster, Smarter LLM - - , 访问时间为九月5, 2025, https://www.webuters.com/what- is- cag- cache- augmented- generation22. RAG vs CAG: Key differences in AI generation strategies - Snyk, 访问时间为九月5, 2025, https://snyk.io/articles/rag- vs- cag- key- differences- in- ai- generation- strategies/23. A Deep Dive into Cache Augmented Generation (CAG) - Association of Data Scientists, 访问时间为九月5, 2025, https://adacci.org/a- deep- dive- into- cache- augmented- generation- cag/24. RAG vs. CAG: Solving Knowledge Gaps in AI Models - YouTube, 访问时间为九月5, 2025, https://www.youtube.com/watch?v=Hdaf1Ot3sEY25. A Breakdown of RAG vs CAG - r/LLMDevs - Reddit, 访问时间为九月5, 2025, https://www.reddit.com/r/LLMDevs/comments/1lkbvss/a_breakdown_of Rag_vs_cag/26. Don’t Do RAG: Cache is the future - Level Up Coding, 访问时间为九月5, 2025, https://levelup.gitconnected.com/dont- do- rag- cache- is- the- future- d1e995f0c76f27. How Organizations Can Overcome Challenges In Advanced Caching Strategies - Forbes, 访问时间为九月5, 2025, https://www.forbes.com/councils/forbestechcouncil/2025/02/05/how- organizations- can- overcome- challenges- in- advanced- caching- strategies/28. A Survey on Mitigation of Cache Pollution Attacks in NDN - ResearchGate, 访问时间为九月5, 2025, https://www.researchgate.net/publication/390275104_A_Survey_on_Mitigation_ofCache_Pollution_Attacks_in_NDN29. [2505.08261] Enhancing Cache- Augmented Generation (CAG) with Adaptive Contextual Compression for Scalable Knowledge Integration - arXiv, 访问时间为九月5, 2025, https://arxiv.org/abs/2505.0826130. Enhancing Cache- Augmented Generation (CAG) with Adaptive Contextual Compression for Scalable Knowledge Integration - ResearchGate, 访问时间为九月5, 2025, https://www.researchgate.net/publication/391706974_Enhancing_Cache- Augmented_Generation_CAG_with_Adaptive_Contextual_Compression_for_Scalable_Knowledge_Integration
- [Literature Review] Enhancing Cache-Augmented Generation (CAG) with Adaptive Contextual Compression for Scalable Knowledge Integration - Moonlight, 访问时间为 九月 5, 2025, https://www.themoonlight.io/en/review/enhancing-cache-augmented-generation-cag-with-adaptive-contextual-compression-for-scalable-knowledge-integration 32. Adaptive Contextual Compression (ACC) pipeline: (1) Snippet Ranking - ResearchGate, 访问时间为 九月 5, 2025, https://www.researchgate.net/figure/Adaptive-Contextual-Compression-ACC-pipeline-1-Snippet-Ranking-2-Multi-Level_fig1_391706974
- Cache-Augmented Generation (CAG) vs Retrieval-Augmented Generation (RAG) | Towards AI, 访问时间为 九月 5, 2025, https://towardsai.net/p/artificial-intelligence/cache-augmented-generation-cag-vs-retrieval-augmented-generation-rag
- medium.com, 访问时间为 九月 5, 2025, https://medium.com/@jagadeesan.gamesh/hybrid-architectures-combining-rag-cag-and-long-context-models-for-maximum-efficiency-19c6106235b0#:~:text=A %20hybrid%20AI%20model%20combining,performance%20for%20real%2Dworld%20applications.
- Enhancing Cache-Augmented Generation (CAG) with … - arXiv, 访问时间为 九月 5, 2025, https://arxiv.org/pdf/2505.08261?
- Understanding CAG: AI’s Conversation Memory - APlpie.ai, 访问时间为 九月 5, 2025, https://apipie.ai/docs/blog/understanding-cag-cache-augmented-generation
- Understanding CAG (Cache Augmented Generation): AI’s Conversation Memory With APlpie.ai - DEV Community, 访问时间为 九月 5, 2025, https://dev.to/apipie-ai/understanding-cag-cache-augmented-generation-ais-conversation-memory-26gp
- www.eyelevel.ai, 访问时间为 九月 5, 2025, https://www.eyelevel.ai/post/rag-vs-cag#:~:text=Retrieval%2DAugmented%20Generation%20(RAG),fast%2C%20low%2Dlatency%20reuse.