在 Google Cloud 上实际操作 Gemma 3

生成式人工智能的格局正在发生变化。虽然专有API功能强大，但对开放模型（即架构和权重公开可用的模型）的需求日益增长。这种转变将控制权重新交还给开发者，从而提供透明度、数据隐私以及针对特定用例进行微调的能力。

为了帮助您了解这一领域，我们发布了两个新的实践实验室，其中重点介绍了Gemma 3，这是 Google 最新推出的轻量级、最先进的开放模型系列。

为什么是杰玛？

Gemma 模型基于与 Gemini 相同的研究和技术构建，旨在促进负责任的 AI 开发。Gemma 3 尤其令人振奋，因为它提供多模态功能（文本和图像），并且在占用更少硬件资源的同时，还能提供强大的性能。

但是，在笔记本电脑上运行模型与在生产环境中运行模型截然不同。你需要规模、可靠性和硬件加速（GPU）。问题是：你应该部署在哪里？

我们根据您的基础设施需求，为您准备了两条不同的路径：Cloud Run或Google Kubernetes Engine (GKE)。

最适合：希望 API 能够立即启动并运行，无需管理基础设施，并且在不使用时可以缩减到零的开发人员。

如果您优先考虑无状态工作负载的简易性和成本效益，Cloud Run 就是您的理想之选。它完全抽象化了服务器管理。随着 Cloud Run 最近新增了 GPU 支持，您现在无需配置集群即可运行现代 LLM。

实验室： 在 Cloud Run 上使用 vLLM 提供 Gemma 3 服务

目标：

最适合：构建复杂 AI 平台、需要高吞吐量、自定义编排或与更广泛的微服务生态系统集成的工程团队。

当您的应用从原型阶段过渡到高流量生产系统时，您需要对 Kubernetes 进行控制。GKE Autopilot 不仅能让您拥有这种控制力，还能处理繁重的节点管理工作。这条路径可实现从本地测试到云端生产的无缝过渡。

实验： 在 GKE 上部署开放模型

在本实验中，你将学习如何：

无论您是想要 Cloud Run 的无服务器简易性，还是 GKE 的强大编排功能，Google Cloud 都能提供将 Gemma 3 从概念变为已部署应用程序所需的工具。

立即进入实验室，开始构建：

使用话题标签#ProductionReadyAI分享你的学习进度，并与同行者交流。祝你学习愉快！

这些实验室是我们官方“Google Cloud 生产级 AI ”项目中“开放模型”模块的一部分。探索完整课程，获取更多内容，帮助您将前景广阔的原型转化为生产级 AI 应用。