LlamaIndex RAG 教程

LlamaIndex 接入 Claude API:给 RAG 知识库配置多模型接口

LlamaIndex 项目可以通过 OpenAI 兼容接口接入 ClaudeGPT API,用统一 API Key 调用 Claude、GPT、Gemini 等模型,适合文档问答、企业知识库和长文本检索增强生成。

安装依赖

LlamaIndex 的 OpenAI 集成可以配置自定义 API 地址。不同版本包名可能略有变化,下面以常见 Python 安装方式为例。

pip install llama-index llama-index-llms-openai

配置 OpenAI 兼容接口

api_base 指向 ClaudeGPT API 的 OpenAI 兼容地址,模型名以控制台实际支持列表为准。

import os
from llama_index.llms.openai import OpenAI

llm = OpenAI(
    model="claude-sonnet",
    api_key=os.environ["CLAUDEGPT_API_KEY"],
    api_base="https://b.onerouter.com/openai/v1",
    temperature=0.2,
)

response = llm.complete("用中文解释 LlamaIndex 在 RAG 中的作用。")
print(response)

在查询引擎里使用

如果你的索引已经创建完成,可以把 LLM 配到查询引擎中。实际写法会随项目结构不同而变化,核心仍然是把 LLM 指向兼容接口。

query_engine = index.as_query_engine(llm=llm)
answer = query_engine.query("这份文档的核心结论是什么?")
print(answer)

RAG 知识库成本优化

LlamaIndex 常用于文档问答,成本控制要从检索、上下文和模型路由三个方向入手。

适合哪些业务

企业知识库

内部制度、产品文档、客服资料的问答和总结。

长文档分析

合同、报告、论文、代码文档的检索增强问答。

AI 客服

把常见问题和业务材料接入可控回答流程。

常见问题

模型名怎么填?

以 ClaudeGPT API 控制台支持的模型列表为准,不要凭记忆手写。

为什么回答成本很高?

通常是召回片段过多、上下文太长或 Agent 多轮调用造成的。先用 AI API 成本计算器 估算单次调用成本。

能不能和 Dify/FastGPT 同时用?

可以。它们本质上都是模型调用入口,建议不同项目使用不同 Key 方便统计。

相关教程:LangChain 接入 Claude APIPython 调用 Claude APIAPI Key 错误排查