Skip to Content

重排序

AcceleAI 提供文档重排序(Rerank)API,用于对候选文档按照与查询的语义相关性进行排序。在 RAG 流程中,重排序通常作为向量检索之后的精排环节,能显著提升最终结果的准确性。

API 端点

POST https://api.acceleai.cn/v1/rerank

请求头:

Authorization: Bearer <ACCELE_AI_API_KEY> Content-Type: application/json

请求参数

参数类型必填说明
modelstring重排序模型标识符
querystring查询文本
documentsarray待排序的文档列表(字符串数组)
top_ninteger返回前 N 个结果
return_documentsboolean是否在返回结果中包含文档原文

可用模型

模型说明
jina-reranker-v3Jina 最新重排模型
jina-reranker-m0Jina 轻量版
jina-colbert-v2基于 ColBERT 架构
gte-rerank-v2通义 GTE 重排模型
qwen3-reranker-0.6bQwen3 轻量重排
qwen3-reranker-4bQwen3 标准重排
qwen3-reranker-8bQwen3 大型重排
bce-reranker-baseBCE 基础重排模型

使用示例

Python

import requests url = "https://api.acceleai.cn/v1/rerank" headers = { "Authorization": "Bearer <ACCELE_AI_API_KEY>", "Content-Type": "application/json" } payload = { "model": "jina-reranker-v3", "query": "什么是向量数据库?", "top_n": 3, "return_documents": True, "documents": [ "向量数据库是专门用于存储和检索高维向量数据的数据库系统。", "关系型数据库使用表格结构存储数据,通过 SQL 语言进行查询。", "向量数据库的典型应用包括语义搜索、推荐系统和 RAG 检索增强生成。", "NoSQL 数据库提供灵活的数据模型,适合非结构化数据存储。", "Milvus、Pinecone 和 Qdrant 是目前主流的向量数据库产品。" ] } response = requests.post(url, headers=headers, json=payload) results = response.json() for item in results["results"]: print(f"排名 {item['index']}: 相关性 {item['relevance_score']:.4f}") if "document" in item: print(f" 内容: {item['document']['text']}")

cURL 示例

curl -X POST https://api.acceleai.cn/v1/rerank \ -H "Authorization: Bearer <ACCELE_AI_API_KEY>" \ -H "Content-Type: application/json" \ -d '{ "model": "jina-reranker-v3", "query": "什么是向量数据库?", "top_n": 3, "return_documents": true, "documents": [ "向量数据库专门存储高维向量数据。", "关系型数据库使用 SQL 查询。", "Milvus 是主流的向量数据库。" ] }'

返回格式

{ "results": [ { "index": 0, "relevance_score": 0.9532, "document": { "text": "向量数据库专门存储高维向量数据。" } }, { "index": 2, "relevance_score": 0.8741, "document": { "text": "Milvus 是主流的向量数据库。" } } ] }

典型用法:RAG 精排

在 RAG 流程中,推荐将 Rerank 作为向量检索之后的精排步骤:

  1. 粗排: 使用向量嵌入(Embeddings)从知识库中召回 Top-20 候选文档
  2. 精排: 使用 Rerank API 对候选文档重新排序,取 Top-3
  3. 生成: 将精排后的文档作为上下文,输入大模型生成最终回答

这种两阶段检索方案能在保证检索速度的同时,大幅提升结果的相关性。