利用亚马逊基岩护栏实现大规模人工智能安全控制

本周我将继续为大家带来一期“跟我一起学习”的节目，主题是我一直非常关注的人工智能安全问题。

毫无疑问，自 AlexNet、ResNet 等开创性成果问世以来，人工智能领域发生了翻天覆地的变化。我记不清 2022 年 11 月我在做什么了，但我肯定记得当时新秀 ChatGPT 公开发布时引起的轰动。

随着基础模型的训练参数数量从数百万增加到数十亿，现在又增加到数万亿，问题依然存在——我们如何负责任地使用这些模型，并确保它们不会给公众带来更多下游错误信息？

当然，解决这个问题的方法有很多，但今天我想重点介绍开发者如何使用 Amazon Bedrock Guardrails 来缓解其中一些挑战。这是自 2023 年 Guardrails 预览版发布以来，我第一次真正上手使用它，让我们来看看它有哪些变化🤘🏼

是什么以及如何做

Amazon Bedrock Guardrails 正如其名，是 Bedrock 模型的护栏，可以帮助应对六项安全策略。

多模态内容过滤器
被拒绝的主题
敏感信息过滤器
文字过滤器
语境基础检查
自动推理（预览版）

我不会在这里详细介绍所有政策，但您可以在文档中阅读更多关于每个类别的信息。

这些防护措施可以进行定制，以帮助组织保持强大的安全控制，并促进人工智能的负责任使用。在信息误导和模型幻觉如果不加以控制，可能会导致严重的后续影响的当下，这项任务尤为重要。

在 Bedrock 上输入 DeepSeek

就在两周前，DeepSeek-R1 托管式无服务器版本在基岩版中正式发布，我想，何不趁着这个新模型刚发布不久，就测试一下它的防护措施呢？🗞️

在本文中，我假设您熟悉 DeepSeek 及其优点和用例，但如果不是，我建议您熟悉一下。

设置

这周我打算化繁为简，选择在 AWS 控制台上进行操作演示，但其实也有很多功能可以通过编程实现（也许以后会专门写一篇博文介绍 👀）。鉴于这是一次“跟我一起学”的体验，我想看看自己需要多长时间才能完成部署，并在过程中分享任何心得体会。

要开始设置护栏，我们首先需要创建一个护栏。请前往护栏控制台，跟随操作步骤进行操作。
点击“创建护栏”，然后输入名称、描述和消息，当护栏阻止提示或响应时，该消息将显示。
在下一个屏幕中，我们可以看到配置内容过滤器的选项，一个用于有害类别，另一个用于提示攻击。

这里值得一提的是，有害类别中新增了一个“图像”列，它支持某些模型的多模态功能，目前仍处于预览阶段。如果您想深入了解图像支持，可以参考这篇 2024 年 12 月发布的AWS 博客文章，它对此很有帮助。

“有害”类别似乎不言自明，但我个人对“提示攻击”了解不多。这里的描述字段告诉我们，启用此功能可以让防护机制检测并阻止试图覆盖系统指令的用户输入。这对我来说很有道理，我想我们现在可能都见过一些提示工程的例子，它们会利用“忽略之前的指令并……”这种漏洞，这种漏洞在基础模型早期非常普遍。

我通过切换按钮筛选器来启用这两个功能，并将在后续步骤中进行测试。
在下一个屏幕中，我们可以添加最多 30 个禁止讨论的主题，这些主题将阻止用户输入和模型响应围绕这些主题展开的内容。在本节中，我将测试将医疗保健作为模型要避免讨论的主题。我定义了预期的行为，您还可以添加示例短语，帮助模型学习要查找的代表性短语。
我们还可以选择尝试词语过滤器，包括默认的脏话过滤选项，我已启用该选项。为了好玩，我在这里向自定义部分添加了一些随机词语，看看模型在测试期间的表现。此外，还可以启用个人身份信息 (PII) 过滤器，并设置默认值（姓名、电子邮件等），或者添加自定义值。我在这里选择了电子邮件，并可以选择对其进行屏蔽，以便也能运行该项测试。
我检查配置并点击“创建护栏”完成设置。

测试

现在防护措施已经建立，我正在使用 AWS 控制台来验证我启用的所有过滤器的功能。

从您创建的防护栏中选择“测试” 。在这里，我们可以选择 DeepSeek-R1 进行推理。
首先，我想确认一下有害内容分类功能是否正常。

a. 我尝试了一个提示，发现护栏介入了，可以点击“查看跟踪”来了解哪个护栏被激活以及护栏置信度的详细信息。
接下来，我想尝试引导模型打破其预设规则。我们看到，在这种情况下，触发了两条防护规则，一条是针对不当行为的，另一条是针对快速攻击的。
我添加了一个关于医疗保健的禁用主题，所以让我们看看能否通过询问医疗建议的提示来激活这个防护机制。虽然我在设置过程中为防护机制提供了一些短语，但我特意避免在提示中使用这些短语，以检验模型是否能够超越显而易见的提示进行推理。
我的防护措施的最后一项测试是关键词过滤和个人身份信息 (PII)。在这里，我将其设置为阻止关键词dog、关键词和个人身份信息canine，pets并要求对电子邮件地址进行掩码处理。

a. 在第一个示例中，我可以看到，虽然用户提示已发送到模型，但模型响应中包含该词dog，因此被防护措施阻止，查询未得到回答。

b. 在第二个示例中，我可以看到原始模型响应中包含明文电子邮件地址，但一旦 PII 防护措施被激活，用户看到的响应中该电子邮件地址就被屏蔽了。