重排序
AcceleAI 提供文档重排序(Rerank)API,用于对候选文档按照与查询的语义相关性进行排序。在 RAG 流程中,重排序通常作为向量检索之后的精排环节,能显著提升最终结果的准确性。
API 端点
POST https://api.acceleai.cn/v1/rerank请求头:
Authorization: Bearer <ACCELE_AI_API_KEY>
Content-Type: application/json请求参数
| 参数 | 类型 | 必填 | 说明 |
|---|---|---|---|
model | string | 是 | 重排序模型标识符 |
query | string | 是 | 查询文本 |
documents | array | 是 | 待排序的文档列表(字符串数组) |
top_n | integer | 否 | 返回前 N 个结果 |
return_documents | boolean | 否 | 是否在返回结果中包含文档原文 |
可用模型
| 模型 | 说明 |
|---|---|
jina-reranker-v3 | Jina 最新重排模型 |
jina-reranker-m0 | Jina 轻量版 |
jina-colbert-v2 | 基于 ColBERT 架构 |
gte-rerank-v2 | 通义 GTE 重排模型 |
qwen3-reranker-0.6b | Qwen3 轻量重排 |
qwen3-reranker-4b | Qwen3 标准重排 |
qwen3-reranker-8b | Qwen3 大型重排 |
bce-reranker-base | BCE 基础重排模型 |
使用示例
Python
import requests
url = "https://api.acceleai.cn/v1/rerank"
headers = {
"Authorization": "Bearer <ACCELE_AI_API_KEY>",
"Content-Type": "application/json"
}
payload = {
"model": "jina-reranker-v3",
"query": "什么是向量数据库?",
"top_n": 3,
"return_documents": True,
"documents": [
"向量数据库是专门用于存储和检索高维向量数据的数据库系统。",
"关系型数据库使用表格结构存储数据,通过 SQL 语言进行查询。",
"向量数据库的典型应用包括语义搜索、推荐系统和 RAG 检索增强生成。",
"NoSQL 数据库提供灵活的数据模型,适合非结构化数据存储。",
"Milvus、Pinecone 和 Qdrant 是目前主流的向量数据库产品。"
]
}
response = requests.post(url, headers=headers, json=payload)
results = response.json()
for item in results["results"]:
print(f"排名 {item['index']}: 相关性 {item['relevance_score']:.4f}")
if "document" in item:
print(f" 内容: {item['document']['text']}")cURL 示例
curl -X POST https://api.acceleai.cn/v1/rerank \
-H "Authorization: Bearer <ACCELE_AI_API_KEY>" \
-H "Content-Type: application/json" \
-d '{
"model": "jina-reranker-v3",
"query": "什么是向量数据库?",
"top_n": 3,
"return_documents": true,
"documents": [
"向量数据库专门存储高维向量数据。",
"关系型数据库使用 SQL 查询。",
"Milvus 是主流的向量数据库。"
]
}'返回格式
{
"results": [
{
"index": 0,
"relevance_score": 0.9532,
"document": {
"text": "向量数据库专门存储高维向量数据。"
}
},
{
"index": 2,
"relevance_score": 0.8741,
"document": {
"text": "Milvus 是主流的向量数据库。"
}
}
]
}典型用法:RAG 精排
在 RAG 流程中,推荐将 Rerank 作为向量检索之后的精排步骤:
- 粗排: 使用向量嵌入(Embeddings)从知识库中召回 Top-20 候选文档
- 精排: 使用 Rerank API 对候选文档重新排序,取 Top-3
- 生成: 将精排后的文档作为上下文,输入大模型生成最终回答
这种两阶段检索方案能在保证检索速度的同时,大幅提升结果的相关性。