图像理解

AcceleAI 支持通过多模态大模型同时处理图像和文本输入，实现图像内容理解、视觉问答、多图比较分析等能力。接口兼容 OpenAI Chat Completions 格式。

核心能力

图像内容描述（物体、场景、行为识别）
基于图像的问答交互
多图对比与综合分析
图文结合推理

快速开始


from openai import OpenAI
 
client = OpenAI(
    api_key="<ACCELE_AI_API_KEY>",
    base_url="https://api.acceleai.cn/v1"
)
 
response = client.chat.completions.create(
    model="gpt-4o",
    messages=[
        {
            "role": "user",
            "content": [
                {"type": "text", "text": "请描述这张图片的内容"},
                {
                    "type": "image_url",
                    "image_url": {"url": "https://example.com/image.jpg"}
                }
            ]
        }
    ],
    max_tokens=500
)
 
print(response.choices[0].message.content)

图像输入方式

URL 方式（推荐）

适用于公开可访问的网络图片：


{
  "type": "image_url",
  "image_url": {
    "url": "https://example.com/photo.jpg"
  }
}

要求：

图片必须可公开访问
支持 PNG、JPEG、WEBP 格式（不支持 GIF）
单张图片不超过 20MB

Base64 编码方式

适用于本地文件或私有图片：


{
  "type": "image_url",
  "image_url": {
    "url": "data:image/png;base64,iVBORw0KGgo..."
  }
}

Python 示例：


import base64
 
def encode_image(image_path):
    with open(image_path, "rb") as f:
        return base64.b64encode(f.read()).decode("utf-8")
 
base64_image = encode_image("local_photo.jpg")
 
response = client.chat.completions.create(
    model="gpt-4o",
    messages=[
        {
            "role": "user",
            "content": [
                {"type": "text", "text": "这张图中有什么？"},
                {
                    "type": "image_url",
                    "image_url": {
                        "url": f"data:image/jpeg;base64,{base64_image}"
                    }
                }
            ]
        }
    ]
)

多图输入

单次请求中可传入多张图片，模型会综合所有图片进行分析：


response = client.chat.completions.create(
    model="gpt-4o",
    messages=[
        {
            "role": "user",
            "content": [
                {"type": "text", "text": "请对比这两张图片，指出它们的异同"},
                {
                    "type": "image_url",
                    "image_url": {"url": "https://example.com/image1.jpg"}
                },
                {
                    "type": "image_url",
                    "image_url": {"url": "https://example.com/image2.jpg"}
                }
            ]
        }
    ]
)

`detail` 参数

通过 detail 参数可以控制图像分析的精度，直接影响 Token 消耗：

值	说明	Token 消耗
`low`	快速处理，适合概览场景	固定 85 tokens/张
`high`	高精度分析，提取丰富细节	根据图片尺寸动态计算
`auto`	系统自动选择（默认）	自动平衡性能与成本

使用方式：


{
  "type": "image_url",
  "image_url": {
    "url": "https://example.com/image.jpg",
    "detail": "high"
  }
}

Token 计费说明

low 模式： 每张图片固定消耗 85 tokens，速度快，成本低
high 模式： 根据图片分辨率和细节量动态计算，消耗更多 tokens
建议： 大多数场景使用默认 auto 即可，系统会自动在性能与成本之间取得平衡

cURL 示例


curl -X POST https://api.acceleai.cn/v1/chat/completions \
  -H "Authorization: Bearer <ACCELE_AI_API_KEY>" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "gpt-4o",
    "messages": [
      {
        "role": "user",
        "content": [
          {"type": "text", "text": "描述图中的场景"},
          {
            "type": "image_url",
            "image_url": {
              "url": "https://example.com/photo.jpg",
              "detail": "auto"
            }
          }
        ]
      }
    ],
    "max_tokens": 500
  }'

使用建议

搭配明确的文本指令能显著提升图像理解效果
对于关键输出，建议独立验证，不要将视觉分析作为唯一决策依据
如果只需要粗略理解图片，使用 detail: "low" 可以大幅降低成本