LlamaIndex 接入 Claude API 教程：RAG 知识库模型配置

安装依赖

LlamaIndex 的 OpenAI 集成可以配置自定义 API 地址。不同版本包名可能略有变化，下面以常见 Python 安装方式为例。

pip install llama-index llama-index-llms-openai

配置 OpenAI 兼容接口

把 api_base 指向 ClaudeGPT API 的 OpenAI 兼容地址，模型名以控制台实际支持列表为准。

import os
from llama_index.llms.openai import OpenAI

llm = OpenAI(
    model="claude-sonnet",
    api_key=os.environ["CLAUDEGPT_API_KEY"],
    api_base="https://b.onerouter.com/openai/v1",
    temperature=0.2,
)

response = llm.complete("用中文解释 LlamaIndex 在 RAG 中的作用。")
print(response)

在查询引擎里使用

如果你的索引已经创建完成，可以把 LLM 配到查询引擎中。实际写法会随项目结构不同而变化，核心仍然是把 LLM 指向兼容接口。

query_engine = index.as_query_engine(llm=llm)
answer = query_engine.query("这份文档的核心结论是什么？")
print(answer)

RAG 知识库成本优化

LlamaIndex 常用于文档问答，成本控制要从检索、上下文和模型路由三个方向入手。

限制 top_k，避免一次召回过多片段。
对长文档先摘要再入库，减少查询时上下文长度。
把简单问题路由给低价模型，把复杂推理交给 Claude/GPT。
对重复问题使用缓存，减少重复调用。
按项目创建不同 API Key，方便看每个知识库的成本。

适合哪些业务

企业知识库

内部制度、产品文档、客服资料的问答和总结。

长文档分析

合同、报告、论文、代码文档的检索增强问答。

AI 客服

把常见问题和业务材料接入可控回答流程。

常见问题

模型名怎么填？

以 ClaudeGPT API 控制台支持的模型列表为准，不要凭记忆手写。

为什么回答成本很高？

通常是召回片段过多、上下文太长或 Agent 多轮调用造成的。先用 AI API 成本计算器估算单次调用成本。

能不能和 Dify/FastGPT 同时用？

可以。它们本质上都是模型调用入口，建议不同项目使用不同 Key 方便统计。

LlamaIndex 接入 Claude API：给 RAG 知识库配置多模型接口