Skip to Content

图像理解

AcceleAI 支持通过多模态大模型同时处理图像和文本输入,实现图像内容理解、视觉问答、多图比较分析等能力。接口兼容 OpenAI Chat Completions 格式。

核心能力

  • 图像内容描述(物体、场景、行为识别)
  • 基于图像的问答交互
  • 多图对比与综合分析
  • 图文结合推理

快速开始

from openai import OpenAI client = OpenAI( api_key="<ACCELE_AI_API_KEY>", base_url="https://api.acceleai.cn/v1" ) response = client.chat.completions.create( model="gpt-4o", messages=[ { "role": "user", "content": [ {"type": "text", "text": "请描述这张图片的内容"}, { "type": "image_url", "image_url": {"url": "https://example.com/image.jpg"} } ] } ], max_tokens=500 ) print(response.choices[0].message.content)

图像输入方式

URL 方式(推荐)

适用于公开可访问的网络图片:

{ "type": "image_url", "image_url": { "url": "https://example.com/photo.jpg" } }

要求:

  • 图片必须可公开访问
  • 支持 PNG、JPEG、WEBP 格式(不支持 GIF)
  • 单张图片不超过 20MB

Base64 编码方式

适用于本地文件或私有图片:

{ "type": "image_url", "image_url": { "url": "data:image/png;base64,iVBORw0KGgo..." } }

Python 示例:

import base64 def encode_image(image_path): with open(image_path, "rb") as f: return base64.b64encode(f.read()).decode("utf-8") base64_image = encode_image("local_photo.jpg") response = client.chat.completions.create( model="gpt-4o", messages=[ { "role": "user", "content": [ {"type": "text", "text": "这张图中有什么?"}, { "type": "image_url", "image_url": { "url": f"data:image/jpeg;base64,{base64_image}" } } ] } ] )

多图输入

单次请求中可传入多张图片,模型会综合所有图片进行分析:

response = client.chat.completions.create( model="gpt-4o", messages=[ { "role": "user", "content": [ {"type": "text", "text": "请对比这两张图片,指出它们的异同"}, { "type": "image_url", "image_url": {"url": "https://example.com/image1.jpg"} }, { "type": "image_url", "image_url": {"url": "https://example.com/image2.jpg"} } ] } ] )

detail 参数

通过 detail 参数可以控制图像分析的精度,直接影响 Token 消耗:

说明Token 消耗
low快速处理,适合概览场景固定 85 tokens/张
high高精度分析,提取丰富细节根据图片尺寸动态计算
auto系统自动选择(默认)自动平衡性能与成本

使用方式:

{ "type": "image_url", "image_url": { "url": "https://example.com/image.jpg", "detail": "high" } }

Token 计费说明

  • low 模式: 每张图片固定消耗 85 tokens,速度快,成本低
  • high 模式: 根据图片分辨率和细节量动态计算,消耗更多 tokens
  • 建议: 大多数场景使用默认 auto 即可,系统会自动在性能与成本之间取得平衡

cURL 示例

curl -X POST https://api.acceleai.cn/v1/chat/completions \ -H "Authorization: Bearer <ACCELE_AI_API_KEY>" \ -H "Content-Type: application/json" \ -d '{ "model": "gpt-4o", "messages": [ { "role": "user", "content": [ {"type": "text", "text": "描述图中的场景"}, { "type": "image_url", "image_url": { "url": "https://example.com/photo.jpg", "detail": "auto" } } ] } ], "max_tokens": 500 }'

使用建议

  • 搭配明确的文本指令能显著提升图像理解效果
  • 对于关键输出,建议独立验证,不要将视觉分析作为唯一决策依据
  • 如果只需要粗略理解图片,使用 detail: "low" 可以大幅降低成本