[ForgeCode x OpenAI 的开源模型]：我们对 OpenAI 的 GPT-OSS 模型的第一印象

自从我们将OpenAI 的 GPT-OSS-20B 和 GPT-OSS-120B集成到 Forgecode 以来，我们就一直兴奋不已——为什么不呢！这是 OpenAI 自 GPT-2 以来首次发布开源权重模型。它们具有颠覆性意义：您可以在本地硬件上运行它们，与云端模型进行直接对比测试，并完全保护代码隐私。光是这一点就足以激起任何人的好奇心。

OpenAI 终于名副其实地诠释了“开放”二字！！！

想看看 GPT-OSS-20B 和 120B 的真正实力吗？使用ForgeCode
直接在终端中启动它们。

👉 ForgeCode — 速度快、本地化、功能强大。

无需云端，无需等待，纯粹的AI强大性能尽在掌握。

1. 不言自明的基准

以下是 GPT-OSS 模型与 OpenAI 的 o3 和 o4-mini 在关键推理和竞赛数学测试中的对比情况：

任务	GPT-OSS-120B	GPT-OSS-20B	OpenAI o3	OpenAI o4-mini
MMLU	90.0	85.3	93.4	93.0
GPQA钻石级	80.1	71.5	83.3	81.4
人类的最后考试	19.0	17.3	24.9	17.7
AIME 2024	96.6	96.0	95.2	98.7
AIME 2025	97.9	98.7	98.4	99.5

GPT-OSS-120B 的表现着实令人印象深刻，它与 OpenAI 的专有模型相比毫不逊色；在包括 o3 和 o4-mini 在内的几个关键推理基准测试中，它几乎与 OpenAI 的专有模型持平，甚至更胜一筹。即使是体积更小的 GPT-OSS-20B，考虑到其紧凑的尺寸，也展现出了令人惊讶的强大性能。

在 MMLU 测试中，GPT-OSS-120B 得分为 90.0，而 o3 得分为 93.4；GPT-OSS-20B 紧随其后，得分为 85.3。
GPQA Diamond 中 GPT‑OSS‑120B 的得分高达 80.1，而 o3 的得分也达到了 83.3。
即使在以难度著称的“人类最后的考试”中，GPT-OSS-120B 也获得了 19.0 的稳定分数，而 o3 的基准分数为 24.9。
对于 AIME 等竞赛数学，GPT-OSS 的两种模型都达到了接近顶尖的准确率，在 2024 和 2025 道题上超越或达到了 o3 的结果。

这些基准测试进一步证实，即使在本地以开源的 Apache 2.0 许可证运行，新的 OpenAI GPT-OSS 模型也能在推理任务中提供真正的竞争能力。

2. 即使是复杂的架构，也能实现亚秒级响应

即使是处理多文件或多阶段的请求，我们也能达到亚秒级的响应速度。无论是跨目录更新配置还是运行模式迁移，基于 GPT-OSS 的 Forgecode 在实时终端会话中都表现得极其迅捷。

2. 使用 CLI 命令和工具实现惊人的精确度

我们注意到，在执行 CLI 指令或工具任务时，该模型具有很高的准确率。从生成git commit消息到搭建 TypeScript 接口，即使在更复杂的工具流程中，该模型也能始终如一地准确执行。

想看看 GPT-OSS-20B 和 120B 的真正实力吗？使用ForgeCode
直接在终端中启动它们。

👉 ForgeCode — 速度快、本地化、功能强大。

无需云端，无需等待，纯粹的AI强大性能尽在掌握。

3. 一些合作方面的问题：但我们正在调整

一个奇怪的问题是：有时交互会在输出过程中突然停止。例如，我们发现它会在“这是第一阶段……”这句话处停止，而没有完成回复。我一直在改进提示语，以提升其多步骤后续操作的流畅性，目前效果正在迅速提升。

4. 开放权重透明度的力量

与封闭模型不同，GPT-OSS，尤其是 GPT-OSS-20B 和 120B，以完全透明的方式运行。我们可以直接对其进行基准测试，优化提示，并公开分享结果。这种透明度促进了生态系统的发展，推动其他提供商发布强大的开源替代方案，从而使所有人受益。

5. 为每项任务选择合适的模型

Forgecode 为我提供了模型灵活性。对于轻量级编辑，我选择 GPT-OSS-20B。对于大规模代码库的推理，我使用 120B。在命令行界面中切换模型非常便捷；只需/model选择并继续即可。

🧠 为什么这很重要

隐私与控制：无需将代码发送到云端。
性能与速度：为开发人员提供实时 CLI 协助。
透明度：公开权重可以全面反映行为。
创新火花：鼓励更广泛的开源模型开发。

准备好尝试了吗？

您现在就可以在终端中试用这两种模型。只需访问Forgecode 网站，安装 Forgecode，即可在本地环境中使用GPT-OSS-20B或GPT-OSS-120B。我们非常希望听到您的反馈，您的意见将有助于我们改进提示、协作流程和未来的功能。

✅ 结论

我们已与 OpenAI 的开放权重 GPT-OSS-20B 和 120B 模型集成。
您将体验到超快、准确的 CLI 代码辅助功能。
我们正在优化多步骤工作流程，并倡导详细的透明度。
这是朝着安全、强大且社区驱动的人工智能工程迈出的重要一步。

想自己试试吗？

想看看 GPT-OSS-20B 和 120B 的真正实力吗？使用ForgeCode
直接在终端中启动它们。

👉 ForgeCode — 速度快、本地化、功能强大。

无需云端，无需等待，纯粹的AI强大性能尽在掌握。

亲自体验一下您自己所在的终端。您的反馈至关重要——请告诉我们它的性能如何！

文章来源：https://dev.to/forgecode/forgecode-x-openais-open-model-our-first-impression-with-openais-gpt-oss-models-48d2

菜单

分享

[ForgeCode x OpenAI 的开源模型]：我们对 OpenAI 的 GPT-OSS 模型的第一印象

[ForgeCode x OpenAI 的开源模型]：我们对 OpenAI 的 GPT-OSS 模型的第一印象

1. 不言自明的基准

2. 即使是复杂的架构，也能实现亚秒级响应

2. 使用 CLI 命令和工具实现惊人的精确度

3. 一些合作方面的问题：但我们正在调整

4. 开放权重透明度的力量

5. 为每项任务选择合适的模型

🧠 为什么这很重要

准备好尝试了吗？

✅ 结论

系统设计面试中的 19 种微服务模式

使用 React 和 AWS Amplify 实现无服务器架构第三部分：跟踪应用使用情况

模型-视图-控制器（MVC）模式到底是什么？DEV 全球项目展示挑战赛，由 Mux 主办：快来展示你的项目吧！

我在两年内从 PHP 开发人员晋升为高级 C#/.NET 开发人员。

了解 Docker：第 12 部分 – 传递构建参数

Yarn 和第三方 NPM 客户端的黑暗未来 DEV 的全球展示与讲述挑战赛，由 Mux 呈现：展示你的项目！

CSS DEV 的全球展示挑战赛“响应式字体”由 Mux 呈现：展示你的项目！

我是如何以学生开发者的身份免费获得 Tabnine Pro 的，你也可以！

五大顶级JS框架

从 Rector PHP 开始：利用自动化改进您的 PHP 代码