安装依赖
LlamaIndex 的 OpenAI 集成可以配置自定义 API 地址。不同版本包名可能略有变化,下面以常见 Python 安装方式为例。
pip install llama-index llama-index-llms-openai
配置 OpenAI 兼容接口
把 api_base 指向 ClaudeGPT API 的 OpenAI 兼容地址,模型名以控制台实际支持列表为准。
import os
from llama_index.llms.openai import OpenAI
llm = OpenAI(
model="claude-sonnet",
api_key=os.environ["CLAUDEGPT_API_KEY"],
api_base="https://b.onerouter.com/openai/v1",
temperature=0.2,
)
response = llm.complete("用中文解释 LlamaIndex 在 RAG 中的作用。")
print(response)
在查询引擎里使用
如果你的索引已经创建完成,可以把 LLM 配到查询引擎中。实际写法会随项目结构不同而变化,核心仍然是把 LLM 指向兼容接口。
query_engine = index.as_query_engine(llm=llm)
answer = query_engine.query("这份文档的核心结论是什么?")
print(answer)
RAG 知识库成本优化
LlamaIndex 常用于文档问答,成本控制要从检索、上下文和模型路由三个方向入手。
- 限制 top_k,避免一次召回过多片段。
- 对长文档先摘要再入库,减少查询时上下文长度。
- 把简单问题路由给低价模型,把复杂推理交给 Claude/GPT。
- 对重复问题使用缓存,减少重复调用。
- 按项目创建不同 API Key,方便看每个知识库的成本。
适合哪些业务
企业知识库
内部制度、产品文档、客服资料的问答和总结。
长文档分析
合同、报告、论文、代码文档的检索增强问答。
AI 客服
把常见问题和业务材料接入可控回答流程。
常见问题
模型名怎么填?
以 ClaudeGPT API 控制台支持的模型列表为准,不要凭记忆手写。
为什么回答成本很高?
通常是召回片段过多、上下文太长或 Agent 多轮调用造成的。先用 AI API 成本计算器 估算单次调用成本。
能不能和 Dify/FastGPT 同时用?
可以。它们本质上都是模型调用入口,建议不同项目使用不同 Key 方便统计。
相关教程:LangChain 接入 Claude API、Python 调用 Claude API、API Key 错误排查。