发布于 2026-01-06 2 阅读
0

使用 Nano Banana Pro 构建,我们的 Gemini 3 Pro 图像模型

使用 Nano Banana Pro 构建,我们的 Gemini 3 Pro 图像模型

今天,我们发布了Nano Banana Pro(Gemini 3 Pro 图像),这是一款基于 Gemini 3 Pro 构建的高保真模型,旨在帮助开发者生成工作室级别的图像。就在几个月前,我们发布了Nano Banana (Gemini 2.5 Flash 图像)。自发布以来,我们很高兴看到社区充分利用其核心功能——从字符一致性到照片修复,甚至利用其功能在无限画布上进行局部编辑。

这款先进的图像生成和编辑模型现已开始以付费预览版的形式推出,旨在借助Google AI StudioVertex AI企业版中的Gemini API,构建新一代智能多模态应用。该模型能够生成高保真图像,并拥有更高的文本渲染精度和强大的世界知识,其强大的功能在于能够利用 Google 搜索,根据用户提示检索数据。

Gemini 3 Pro 图像文本转图像 AI 基准测试柱状图与其他领先竞争对手的比较

Gemini 3 Pro Image 在文本转图像 AI 基准测试中表现出色。

 

我们也在不断拓展 Gemini 3 Pro Image 在开发者生态系统中的应用范围。在我们的全新智能体开发平台Google Antigravity中,编码代理现在可以直接利用这些图像生成功能,生成详细的 UI 模型供用户审核,甚至在编写代码之前生成新的视觉素材。此外,包括 Adob​​e 和 Figma 在内的领先创意平台也正在集成该模型。

高保真度和控制

如果您正在构建需要精确性的高级工具,Gemini 3 Pro Image 可让您控制图像的物理特性(光照、相机、对焦、色彩分级)和构图,以确保专业品质的输出。

图中并排展示了两幅图像:一幅是带有散射阳光的男性轮廓输入图像,另一幅是使用人工智能技术处理后具有更强体积光照效果的相同图像的输出图像。

一个剪影消失在金色散景和晨雾之中。
提示:用散景代替体积光

 

支持 2K 和 4K 分辨率,确保输出符合专业制作所需的分辨率标准。轻松组合产品图片、徽标和参考资料等各种元素,打造浑然一体的广告。最多可实现五位人物形象的一致性,整合六张高保真照片,或将多达十四个标准输入素材融合到一条精美广告中。欢迎试用我们的演示应用程序,将徽标与产品配对,创建您自己的模型设计。

演示应用,通过参考图片生动展现产品设计。流程已缩短。

 

改进的文本渲染和本地化

Gemini 3 Pro Image 相较于 2.5 Flash Image 实现了显著的飞跃,将抽象的图像生成转化为功能性资产。它在逻辑和语言处理方面表现出色,并提供先进的文本渲染技术,能够生成清晰、准确的文本,并将其集成到图像中。

图片展示了用人工智能技术渲染的食物模型,其中包含了薄荷、汤、墨西哥卷饼、咖喱、寿司、意大利面、苹果和披萨等词语。

创意美食摄影,用与该食物相关的实际食材,以艺术的方式拼写出每个单词。
提示:设计 8 个精致简约的标志,每个标志都代表一个有趣的食物词汇,并用逼真的食物造型来构成字母,表达该词汇的含义。构图:所有标志渲染在同一张纯白色背景上。

 

它也是开发营销材料、教育内容和众多其他应用的理想解决方案。您可以在 Google AI Studio 的漫画生成器应用中体验该模型的强大功能,创作以您和朋友为主角的原创多页漫画,并享受高级文本渲染和风格化功能。

演示应用,可根据照片和所选类型,以您选择的语言生成漫画书。序列已缩短。

 

借助 Gemini 3 Pro Image,我们打破了图像生成和本地化逻辑之间的壁垒。这种先进的模型能够理解图像的语义上下文,从而轻松地对菜单、标牌或文档等元素进行语言更改,并利用图像到图像的生成技术,在保持原有艺术风格或布局的同时,实现图像到图像的无缝衔接。

输入图像为一组带有文字的罐头,输出图像为罐头上的文字经人工智能翻译成法语后的版本,两者并排显示。

一个饮料广告宣传概念,展示了如何准确地将英文文本翻译成法语。
提示:翻译成法语

 

获取世界知识

Gemini 3 Pro Image 连接庞大的知识库,能够生成比以往图像生成模型更具事实性的素材。此外,启用后,通过与 Google 搜索的集成,模型可以连接到实时网络内容,从而实现数据驱动的输出。这对于需要精确表示的应用尤为重要,例如生物图谱或历史地图。使用我们的演示应用程序亲自体验,您可以动态创建任何主题的信息图,并根据受众进行定制。

利用人工智能技术,根据简单的文字提示,生成了一张关于自行车保养和维护要点的信息图。

自行车保养和维护信息图,由一款可创建教育信息图的演示应用程序生成。

 

今天就开始疯狂建造吧!

此次新版本发布融合了您此前与我们分享的诸多反馈,但我们并未止步于此。为了确保人工智能生成的媒体内容来源清晰可辨,我们已将SynthID 数字水印直接集成到每张使用 Gemini 3 Pro Image 创建或编辑的图像中,以标明其人工智能生成或编辑的来源。

首先,您可以浏览我们精选的、使用 Gemini 3 Pro Image 的应用,激发您的灵感,探索各种可能性。获得启发后,您可以重新编辑这些演示应用,或者通过Google AI StudioVertex AI中的Gemini API将模型直接集成到您自己的项目中(企业级应用)。如需了解技术细节,请查阅文档快速指南使用手册,或访问开发者论坛获取帮助并分享反馈。

下表对比了 Gemini 2 Pro Image 和 Gemini 2.5 Flash Image 两款机型在速度、质量和成本方面的差异。

使用 Gemini 2.5 Flash Image 可以生成速度更快、成本更低的图像,而使用 3 Pro Image 可以生成更高质量的图像,但成本和延迟也会更高。
文章来源:https://dev.to/googleai/build-with-nano-banana-pro-our-gemini-3-pro-image-model-4gj7