Skip to Content

Gemini 多模态生成

AcceleAI 支持 Google Gemini 系列的图像生成与视频生成能力,包括 Imagen 图像模型、Gemini 2.5 Flash 原生图像生成,以及 Veo 视频生成模型。

Imagen 图像生成

可用模型与定价

模型单张价格说明
imagen-4.0-ultra-generate-001$0.06最高画质,单次仅支持 1 张
imagen-4.0-generate-001$0.04官方正式版,综合推荐
imagen-4.0-fast-generate-001$0.02速度优先,适合批量场景
imagen-4.0-fast-generate-preview-06-06$0.02Fast 预览版
imagen-3.0-generate-002$0.03上代模型

参数说明

参数类型说明
numberOfImagesinteger生成数量,范围 1-4(Ultra 限制为 1)
aspectRatiostring宽高比:1:13:44:39:1616:9
personGenerationstring人物生成策略:DONT_ALLOWALLOW_ADULT(默认)

调用示例

通过 Gemini 原生接口调用:

import requests import base64 API_KEY = "<ACCELE_AI_API_KEY>" # 从 https://api.acceleai.cn/keys 获取 BASE_URL = "https://api.acceleai.cn/gemini" response = requests.post( f"{BASE_URL}/v1beta/models/imagen-4.0-generate-001:predict", headers={ "Content-Type": "application/json", "x-goog-api-key": API_KEY }, json={ "instances": [ {"prompt": "A serene mountain lake at sunrise, photorealistic"} ], "parameters": { "sampleCount": 2, "aspectRatio": "16:9", "personGeneration": "ALLOW_ADULT" } } ) result = response.json() # 返回 base64 编码的图像数据 for prediction in result.get("predictions", []): img_bytes = base64.b64decode(prediction["bytesBase64Encoded"]) with open("output.png", "wb") as f: f.write(img_bytes)

Imagen 仅支持英文提示词,中文需先翻译再使用。大段文字渲染效果不稳定,建议保持提示词简洁。

Gemini 2.5 Flash 图像生成

Gemini 2.5 Flash 支持在对话中直接生成图像,具备上下文感知能力,适合多轮编辑和对话式创作场景。

模型定价
gemini-2.5-flash-image-preview输入 $0.3/百万 token,输出文本 $2.5/百万 token,输出图像 $30/百万 token

默认输出分辨率为 1024x1024px,图像以 base64 编码返回。

调用示例

import requests import base64 API_KEY = "<ACCELE_AI_API_KEY>" BASE_URL = "https://api.acceleai.cn/gemini" response = requests.post( f"{BASE_URL}/v1beta/models/gemini-2.5-flash-image-preview:generateContent", headers={ "Content-Type": "application/json", "x-goog-api-key": API_KEY }, json={ "contents": [ { "parts": [ {"text": "生成一只穿着宇航服的柴犬,卡通风格"} ] } ], "generationConfig": { "responseModalities": ["TEXT", "IMAGE"] } } ) data = response.json() # 解析返回的 parts,其中包含文本描述和 base64 图像

模型选择指南

需求场景推荐模型理由
照片级写实、产品设计Imagen 4.0图像质量最高,细节精准
Logo / 艺术风格渲染Imagen 4.0风格控制能力强
快速批量出图Imagen 4.0 Fast成本低、速度快
上下文感知编辑、多轮对话Gemini 2.5 Flash支持对话式迭代修改
多模态混合工作流Gemini 2.5 Flash可同时处理文本和图像输入输出

简而言之:追求画质选 Imagen,追求灵活交互选 Gemini

Veo 视频生成

可用模型与定价

模型定价说明
veo-3.0-generate-preview$0.675/秒最新版,固定 720p / 24fps / 8 秒 / 16:9
veo-3$0.41/次逆向接口版本
veo-2.0-generate-001$0.35/秒上代模型,参数可调

Veo 3.0

Veo 3.0 的参数为固定值:720p 分辨率、24fps 帧率、8 秒时长,仅支持 16:9 宽高比。单次生成通常需要 2-3 分钟处理时间。

Veo 2.0 参数

参数可选值说明
numberOfVideos1, 2生成数量
aspectRatio16:9, 9:16宽高比
durationSeconds5, 8视频时长(秒)
personGenerationdont_allow, allow_adult人物生成策略

调用示例

import requests API_KEY = "<ACCELE_AI_API_KEY>" BASE_URL = "https://api.acceleai.cn/gemini" response = requests.post( f"{BASE_URL}/v1beta/models/veo-2.0-generate-001:predict", headers={ "Content-Type": "application/json", "x-goog-api-key": API_KEY }, json={ "instances": [ {"prompt": "A drone flying over a vast wheat field at golden hour"} ], "parameters": { "aspectRatio": "16:9", "durationSeconds": 8 } } ) print(response.json())

视频生成耗时较长,建议设置充足的请求超时时间(至少 180 秒)。