Gemini 多模态生成

AcceleAI 支持 Google Gemini 系列的图像生成与视频生成能力，包括 Imagen 图像模型、Gemini 2.5 Flash 原生图像生成，以及 Veo 视频生成模型。

Imagen 图像生成

可用模型与定价

模型	单张价格	说明
`imagen-4.0-ultra-generate-001`	$0.06	最高画质，单次仅支持 1 张
`imagen-4.0-generate-001`	$0.04	官方正式版，综合推荐
`imagen-4.0-fast-generate-001`	$0.02	速度优先，适合批量场景
`imagen-4.0-fast-generate-preview-06-06`	$0.02	Fast 预览版
`imagen-3.0-generate-002`	$0.03	上代模型

参数说明

参数	类型	说明
`numberOfImages`	integer	生成数量，范围 1-4（Ultra 限制为 1）
`aspectRatio`	string	宽高比：`1:1`、`3:4`、`4:3`、`9:16`、`16:9`
`personGeneration`	string	人物生成策略：`DONT_ALLOW` 或 `ALLOW_ADULT`（默认）

调用示例

通过 Gemini 原生接口调用：


import requests
import base64
 
API_KEY = "<ACCELE_AI_API_KEY>"  # 从 https://api.acceleai.cn/keys 获取
BASE_URL = "https://api.acceleai.cn/gemini"
 
response = requests.post(
    f"{BASE_URL}/v1beta/models/imagen-4.0-generate-001:predict",
    headers={
        "Content-Type": "application/json",
        "x-goog-api-key": API_KEY
    },
    json={
        "instances": [
            {"prompt": "A serene mountain lake at sunrise, photorealistic"}
        ],
        "parameters": {
            "sampleCount": 2,
            "aspectRatio": "16:9",
            "personGeneration": "ALLOW_ADULT"
        }
    }
)
 
result = response.json()
# 返回 base64 编码的图像数据
for prediction in result.get("predictions", []):
    img_bytes = base64.b64decode(prediction["bytesBase64Encoded"])
    with open("output.png", "wb") as f:
        f.write(img_bytes)

Imagen 仅支持英文提示词，中文需先翻译再使用。大段文字渲染效果不稳定，建议保持提示词简洁。

Gemini 2.5 Flash 图像生成

Gemini 2.5 Flash 支持在对话中直接生成图像，具备上下文感知能力，适合多轮编辑和对话式创作场景。

模型	定价
`gemini-2.5-flash-image-preview`	输入 $0.3/百万 token，输出文本 $2.5/百万 token，输出图像 $30/百万 token

默认输出分辨率为 1024x1024px，图像以 base64 编码返回。

调用示例


import requests
import base64
 
API_KEY = "<ACCELE_AI_API_KEY>"
BASE_URL = "https://api.acceleai.cn/gemini"
 
response = requests.post(
    f"{BASE_URL}/v1beta/models/gemini-2.5-flash-image-preview:generateContent",
    headers={
        "Content-Type": "application/json",
        "x-goog-api-key": API_KEY
    },
    json={
        "contents": [
            {
                "parts": [
                    {"text": "生成一只穿着宇航服的柴犬，卡通风格"}
                ]
            }
        ],
        "generationConfig": {
            "responseModalities": ["TEXT", "IMAGE"]
        }
    }
)
 
data = response.json()
# 解析返回的 parts，其中包含文本描述和 base64 图像

模型选择指南

需求场景	推荐模型	理由
照片级写实、产品设计	Imagen 4.0	图像质量最高，细节精准
Logo / 艺术风格渲染	Imagen 4.0	风格控制能力强
快速批量出图	Imagen 4.0 Fast	成本低、速度快
上下文感知编辑、多轮对话	Gemini 2.5 Flash	支持对话式迭代修改
多模态混合工作流	Gemini 2.5 Flash	可同时处理文本和图像输入输出

简而言之：追求画质选 Imagen，追求灵活交互选 Gemini。

Veo 视频生成

可用模型与定价

模型	定价	说明
`veo-3.0-generate-preview`	$0.675/秒	最新版，固定 720p / 24fps / 8 秒 / 16:9
`veo-3`	$0.41/次	逆向接口版本
`veo-2.0-generate-001`	$0.35/秒	上代模型，参数可调

Veo 3.0

Veo 3.0 的参数为固定值：720p 分辨率、24fps 帧率、8 秒时长，仅支持 16:9 宽高比。单次生成通常需要 2-3 分钟处理时间。

Veo 2.0 参数

参数	可选值	说明
`numberOfVideos`	1, 2	生成数量
`aspectRatio`	`16:9`, `9:16`	宽高比
`durationSeconds`	5, 8	视频时长（秒）
`personGeneration`	`dont_allow`, `allow_adult`	人物生成策略

调用示例


import requests
 
API_KEY = "<ACCELE_AI_API_KEY>"
BASE_URL = "https://api.acceleai.cn/gemini"
 
response = requests.post(
    f"{BASE_URL}/v1beta/models/veo-2.0-generate-001:predict",
    headers={
        "Content-Type": "application/json",
        "x-goog-api-key": API_KEY
    },
    json={
        "instances": [
            {"prompt": "A drone flying over a vast wheat field at golden hour"}
        ],
        "parameters": {
            "aspectRatio": "16:9",
            "durationSeconds": 8
        }
    }
)
 
print(response.json())

视频生成耗时较长，建议设置充足的请求超时时间（至少 180 秒）。