构建企业级 RAG 系统的 8 种工具技术栈（告别烦恼）

自从我深入参与一个大型企业级 RAG（检索增强生成）项目以来，我意识到，仅仅依靠 GPT 和咖啡是远远不够的。RAG 的本质是将你的 LLM（逻辑学习模型）与你自己的数据连接起来。正如 AWS 所说，RAG 允许模型“引用其训练数据之外的权威知识库”。在实践中，这意味着要集成代码辅助、数据索引、编排和监控工具，以确保你的 AI 保持准确性和可靠性。Firecrawl 的 RAG 概述恰如其分地指出，这种方法利用“公司文档……以及 LLM 中内置的通用知识，从而使 AI 的响应更加准确可靠”。以下是我在大型 RAG 项目中始终必备的关键工具，以上内容均基于我的个人经验。

1. ForgeCode – 基于命令行界面的AI结对程序员

在 RAG 系统中编写或重构代码时，我的首选助手是ForgeCode。ForgeCode（以前称为“Forge”）是一个内置于终端的 AI 编码代理——它就像是命令行版的“AI 结对程序员”。官方文档将其描述为“一款非侵入式的轻量级终端 AI 助手”。实际上，这意味着我无需切换上下文或 IDE——ForgeCode 与我的 shell 原生兼容。我只需npx forgecode@latest在代码仓库中运行 ForgeCode，然后开始讨论目标或 bug 修复。它会返回代码修改、脚手架文件，甚至在我提出要求时返回 Git 提交。

在日常使用中，ForgeCode会将代码锁定在本地（因此密钥和代码不会离开您的计算机）。一位开发者指出，它“在本地运行且是开源的，所以我的源代码从未离开过我的计算机”。集成非常无缝——它只需使用熟悉的命令行标志，甚至可以与带有终端面板的编辑器配合使用。简而言之，它能以极快的速度提供高质量的代码建议，而无需我使用新的用户界面。我发现它对于快速构建新的 RAG 组件原型或重构管道非常宝贵。（该领域还有其他工具——例如 Google 的 Gemini CLI 和 Anthropic 的 Claude Code CLI——但 ForgeCode 的易用性和速度使其成为我的日常主力工具。）

2. 向量数据库（Pinecone、Qdrant、Weaviate等）

RAG 的核心部分是对文档嵌入进行相似性搜索——这正是向量数据库的用武之地。在将所有文档分块并嵌入（使用 OpenAI、Cohere 或类似的嵌入模型）之后，我需要一个地方来存储和查询这些高维向量。为此，我通常会使用托管服务。Pinecone是我的首选——它是一个“完全托管的向量数据库”，可以“随使用量自动扩展”。这意味着我可以索引数十亿个向量，而 Pinecone 则负责分发和扩展。

同类产品还包括Weaviate和Qdrant，它们各有优势（例如，Qdrant 以其强大的元数据过滤功能而闻名）。如果只是概念验证，我可能会尝试像Chroma这样的轻量级方案，但对于企业级 RAG，我通常会选择 Pinecone 或 Qdrant，因为它们更可靠。

模式始终如一：将查询文本转换为词嵌入，然后在向量数据库中运行最近邻搜索。这样就能找到相关的文档，并将其输入到语言学习模型（LLM）中。现代指南强调，向量数据库“旨在高效地存储和搜索海量词嵌入集合”——这正是我所需要的。简而言之，一个可靠的向量数据库在我的技术栈中是必不可少的。

3. LLM 编排框架（LangChain、LlamaIndex等）

我的 RAG 逻辑并非从零开始拼凑而成；我借助了LangChain和LlamaIndex等框架，将它们整合在一起。例如，LangChain 就是为此而生的：它是一个“用于使用大型语言模型 (LLM) 进行应用程序开发的开源编排框架”。

在实践中，我使用 LangChain 模块（链、代理、提示）来管理流程：检索词嵌入、调用 LLM、后处理答案，并循环调用任何我需要的工具。类似地，LlamaIndex（以前称为 GPT-Index）是一个很棒的工具包，可以通过索引将 LLM 连接到数据源。这些框架结合起来，让我无需编写大量样板代码——它们提供了 RAG 管道所需的“提示工程工具”和连接器集合。

例如：当我需要添加防护措施或微调数据添加到提示的方式时，这些框架已经提供了相应的组件。LangSmith（LangChain 生态系统的一部分）甚至还支持对提示进行版本控制。一个优秀的编排库意味着我可以把更多的时间花在设计 RAG 逻辑上，而不是底层实现上。

4. 流水线编排和模型服务（Prefect、BentoML等）

大规模的 RAG 系统并非仅仅是一个脚本，而是一个包含计划任务、故障处理和并发控制的完整数据管道。为此，我使用企业级工作流工具。Prefect （及其兼容 LLM 的 Marvin 插件）已成为我的首选：它是一款专为 LLM 应用设计的、具有强大调度和监控功能的工作流管理工具。

我可以构建一个 Prefect 流程，它可以按计划或事件触发，自动摄取新文档、更新嵌入、刷新向量数据库并触发检索器/LLM 调用。BentoML是我使用的另一个工具：它实现了模型服务的标准化。我会将推理调用（用于嵌入或 LLM 提示）封装在 BentoML 部署中，这样就能获得一致的 API 端点、版本控制以及在容器中轻松扩展的能力。

简而言之，Prefect 和 BentoML 确保我的 RAG 流水线能够在生产环境中可靠运行，在失败时自动重试，并以受控的方式公开服务。

5. LLM 提供商（OpenAI、Anthropico Gemini等）

归根结底，我仍然需要实际的语言模型。实际上，这意味着要接入主流的语言模型API。例如，我经常使用OpenAI的GPT模型（GPT-4或text-embedding-ada）或Anthropic的Claude，有时也会使用Google Gemini或Hugging Face托管的模型。

我的技术栈很灵活——我会根据成本、上下文窗口和领域需求选择合适的模型。由于这些调用是通过 API 进行的，所以我将它们与我的编排机制（LangChain 代理或 Bento 端点）结合起来。这一点虽然不那么引人注目，但值得注意：始终在你的技术栈中保留至少一个高质量模型（以及一定的预算），因为你的 RAG 系统最终会依赖 LLM 来进行数据生成。

6. 可观测性和监控（Langfuse、Datadog 等）

开发复杂的 RAG 流水线让我深刻体会到可观测性的重要性。当系统出现故障（或出现异常）时，我需要追踪故障源。这时，Langfuse和Datadog新推出的 LLM 可观测性工具就派上了用场。

Langfuse是一个开源平台，用于记录和追踪每一次LLM交互。它提供提示追踪、指标分析以及提示/响应检查功能。
Datadog现在提供 LLM 可观测性：它提供“对 LLM 链和代理系统的端到端跟踪，并可查看输入输出、错误、延迟和令牌使用情况”。

我关注的其他项目包括：Helicone（开源LLM日志记录器）、Aporia（机器学习可观测性和防护机制）以及Galileo GenAI Studio。至于基础设施指标，我仍然依赖Grafana/Prometheus。

规模化之后，你不能把 RAG 流水线当作黑盒来对待。可观测性平台（例如 Langfuse、Helicone）加上应用性能管理 (APM) 工具（例如 Datadog）可以让你全面了解 RAG 系统的运行状况和成本。

7. 评估和质量保证工具（TruLens、Giskard等）

与监测密切相关的是评估。毕竟，RAG 的目标是提高准确率，所以我们需要一些方法来检验这一点。在我的工作流程中，我使用TruLens和Giskard之类的工具。

TruLens提供“专门的 RAG 指标和幻觉检测”。我可以用它来分析用户查询和 AI 回答的日志，看看我们在哪些方面出现了偏差或产生了幻觉。
Giskard是一个开源的机器学习测试框架，可以检测输出中的偏差或事实错误。

我们将制定诸如“如果存在引用，答案应注明来源”或“数值事实必须与文档相符”之类的规则。该领域的其他公司包括Confident AI和DeepEval。

我不会盲目信任这套流程。我会收集一组测试题，并使用这些工具自动评估答案的准确性和相关性。这样我就能知道模型升级或数据集变更究竟是带来了帮助还是损害。

8. 数据摄取与抓取（Firecrawl、Airflow等）

在上述任何方法奏效之前，我需要先整理好数据。对于一般的数据导入，我通常依赖Apache Airflow或自定义 ETL 脚本从数据库、PDF 或 API 中提取数据。

就网页数据而言，我发现像Firecrawl这样的专业爬虫工具非常宝贵。Firecrawl 专为应对具有反机器人保护机制的复杂网站而设计。它“擅长处理具有反机器人保护机制和复杂 JavaScript 代码的挑战性网站”，并返回可用于索引的干净内容。每当我需要抓取网页文档或企业内部网数据时，它都能帮我节省大量时间。

简而言之，我的技术栈包括数据库连接器、文档解析器和无头浏览器爬虫。目标是将所有源数据转换为文本块和嵌入。正确处理数据是 RAG（垃圾进，垃圾出）的基础。

结论

参与大型 RAG 项目让我明白，你需要的是工具箱，而不是锤子。其中涉及的组件数量惊人——编码辅助工具（例如 ForgeCode）、存储引擎（向量数据库）、编排库（LangChain）、DevOps 工具（Prefect、BentoML）以及可观测性系统（Langfuse、Datadog）。在遇到瓶颈之前就准备好这些工具，就能快速迭代。

我鼓励所有致力于解决 RAG 问题的工程团队尝试使用这些组件。尝试将 ForgeCode 集成到工作流程中，使用 Pinecone 为数据建立索引，使用 LangChain/Prefect 搭建管道，并接入像 Langfuse 这样的可观测性堆栈。一旦完成这些操作，您就会发现发布 RAG 功能时更有信心了。

👉不妨试试这些工具——它们彻底改变了我的 RAG 项目，它们也能提升你的项目水平！

文章来源：https://dev.to/forgecode/8-tool-tech-stack-to-build-an-enterprise-grade-rag-system-without-the-headaches-42h

菜单

分享

构建企业级 RAG 系统的 8 种工具技术栈（告别烦恼）

构建企业级 RAG 系统的 8 种工具技术栈（告别烦恼）

1. ForgeCode – 基于命令行界面的AI结对程序员

2. 向量数据库（Pinecone、Qdrant、Weaviate等）

3. LLM 编排框架（LangChain、LlamaIndex等）

4. 流水线编排和模型服务（Prefect、BentoML等）

5. LLM 提供商（OpenAI、Anthropico Gemini等）

6. 可观测性和监控（Langfuse、Datadog 等）

7. 评估和质量保证工具（TruLens、Giskard等）

8. 数据摄取与抓取（Firecrawl、Airflow等）

结论

系统设计面试中的 19 种微服务模式

使用 React 和 AWS Amplify 实现无服务器架构第三部分：跟踪应用使用情况

模型-视图-控制器（MVC）模式到底是什么？DEV 全球项目展示挑战赛，由 Mux 主办：快来展示你的项目吧！

我在两年内从 PHP 开发人员晋升为高级 C#/.NET 开发人员。

了解 Docker：第 12 部分 – 传递构建参数

Yarn 和第三方 NPM 客户端的黑暗未来 DEV 的全球展示与讲述挑战赛，由 Mux 呈现：展示你的项目！

CSS DEV 的全球展示挑战赛“响应式字体”由 Mux 呈现：展示你的项目！

我是如何以学生开发者的身份免费获得 Tabnine Pro 的，你也可以！

五大顶级JS框架

从 Rector PHP 开始：利用自动化改进您的 PHP 代码