发布于 2026-01-06 3 阅读
0

在 Google Cloud 上实际操作 Gemma 3

在 Google Cloud 上实际操作 Gemma 3

生成式人工智能的格局正在发生变化。虽然专有API功能强大,但对开放模型(即架构和权重公开可用的模型)的需求日益增长。这种转变将控制权重新交还给开发者,从而提供透明度、数据隐私以及针对特定用例进行微调的能力。

为了帮助您了解这一领域,我们发布了两个新的实践实验室,其中重点介绍了Gemma 3,这是 Google 最新推出的轻量级、最先进的开放模型系列。

为什么是杰玛?

Gemma 模型基于与 Gemini 相同的研究和技术构建,旨在促进负责任的 AI 开发。Gemma 3 尤其令人振奋,因为它提供多模态功能(文本和图像),并且在占用更少硬件资源的同时,还能提供强大的性能。

但是,在笔记本电脑上运行模型与在生产环境中运行模型截然不同。你需要规模、可靠性和硬件加速(GPU)。问题是:你应该部署在哪里?

我们根据您的基础设施需求,为您准备了两条不同的路径:Cloud RunGoogle Kubernetes Engine (GKE)

路径一:无服务器方案(云运行)

最适合:希望 API 能够立即启动并运行,无需管理基础设施,并且在不使用时可以缩减到零的开发人员。

如果您优先考虑无状态工作负载的简易性和成本效益,Cloud Run 就是您的理想之选。它完全抽象化了服务器管理。随着 Cloud Run 最近新增了 GPU 支持,您现在无需配置集群即可运行现代 LLM。

开始实验!

实验室: 在 Cloud Run 上使用 vLLM 提供 Gemma 3 服务

目标:

  • 将vLLM(高吞吐量服务引擎)容器化。
  • 将 Gemma 3 部署到Cloud Run
  • 利用GPU加速实现快速推理。
  • 公开一个与 OpenAI 兼容的 API 端点。

路径二:平台方法(GKE)

最适合:构建复杂 AI 平台、需要高吞吐量、自定义编排或与更广泛的微服务生态系统集成的工程团队。

当您的应用从原型阶段过渡到高流量生产系统时,您需要对 Kubernetes 进行控制。GKE Autopilot 不仅能让您拥有这种控制力,还能处理繁重的节点管理工作。这条路径可实现从本地测试到云端生产的无缝过渡。

开始实验!

实验: 在 GKE 上部署开放模型

在本实验中,你将学习如何:

  • 使用Ollama在本地进行原型设计。
  • 将您的设置容器化并过渡到GKE Autopilot
  • 使用标准 Kubernetes 清单部署可扩展的推理服务。
  • 有效管理生产工作负载的资源。

你会选择哪条路?

无论您是想要 Cloud Run 的无服务器简易性,还是 GKE 的强大编排功能,Google Cloud 都能提供将 Gemma 3 从概念变为已部署应用程序所需的工具。

立即进入实验室,开始构建:

使用话题标签#ProductionReadyAI分享你的学习进度,并与同行者交流。祝你学习愉快!

这些实验室是我们官方“Google Cloud 生产级 AI ”项目中“开放模型”模块的一部分。探索完整课程,获取更多内容,帮助您将前景广阔的原型转化为生产级 AI 应用。

文章来源:https://dev.to/googleai/hands-on-with-gemma-3-on-google-cloud-6e7