发布于 2026-01-06 4 阅读
0

[ForgeCode x OpenAI 的开源模型]:我们对 OpenAI 的 GPT-OSS 模型的第一印象

[ForgeCode x OpenAI 的开源模型]:我们对 OpenAI 的 GPT-OSS 模型的第一印象

自从我们将OpenAI 的 GPT-OSS-20B 和 GPT-OSS-120B集成到 Forgecode 以来,我们就一直兴奋不已——为什么不呢!这是 OpenAI 自 GPT-2 以来首次发布开源权重模型。它们具有颠覆性意义:您可以在本地硬件上运行它们,与云端模型进行直接对比测试,并完全保护代码隐私。光是这一点就足以激起任何人的好奇心。

OpenAI 终于名副其实地诠释了“开放”二字!!!

ForgeCode

想看看 GPT-OSS-20B 和 120B 的真正实力吗?使用ForgeCode
直接在终端中启动它们

👉 ForgeCode — 速度快、本地化、功能强大。

无需云端,无需等待,纯粹的AI强大性能尽在掌握。

1. 不言自明的基准

以下是 GPT-OSS 模型与 OpenAI 的 o3 和 o4-mini 在关键推理和竞赛数学测试中的对比情况:

任务 GPT-OSS-120B GPT-OSS-20B OpenAI o3 OpenAI o4-mini
MMLU 90.0 85.3 93.4 93.0
GPQA钻石级 80.1 71.5 83.3 81.4
人类的最后考试 19.0 17.3 24.9 17.7
AIME 2024 96.6 96.0 95.2 98.7
AIME 2025 97.9 98.7 98.4 99.5

GPT-OSS-120B 的表现着实令人印象深刻,它与 OpenAI 的专有模型相比毫不逊色;在包括 o3 和 o4-mini 在内的几个关键推理基准测试中,它几乎与 OpenAI 的专有模型持平,甚至更胜一筹。即使是体积更小的 GPT-OSS-20B,考虑到其紧凑的尺寸,也展现出了令人惊讶的强大性能。

  • 在 MMLU 测试中,GPT-OSS-120B 得分为 90.0,而 o3 得分为 93.4;GPT-OSS-20B 紧随其后,得分为 85.3。
  • GPQA Diamond 中 GPT‑OSS‑120B 的得分高达 80.1,而 o3 的得分也达到了 83.3。
  • 即使在以难度著称的“人类最后的考试”中,GPT-OSS-120B 也获得了 19.0 的稳定分数,而 o3 的基准分数为 24.9。
  • 对于 AIME 等竞赛数学,GPT-OSS 的两种模型都达到了接近顶尖的准确率,在 2024 和 2025 道题上超越或达到了 o3 的结果。

这些基准测试进一步证实,即使在本地以开源的 Apache 2.0 许可证运行,新的 OpenAI GPT-OSS 模型也能在推理任务中提供真正的竞争能力。

惊人的

2. 即使是复杂的架构,也能实现亚秒级响应

即使是处理多文件或多阶段的请求,我们也能达到亚秒级的响应速度。无论是跨目录更新配置还是运行模式迁移,基于 GPT-OSS 的 Forgecode 在实时终端会话中都表现得极其迅捷。

2. 使用 CLI 命令和工具实现惊人的精确度

我们注意到,在执行 CLI 指令或工具任务时,该模型具有很高的准确率。从生成git commit消息到搭建 TypeScript 接口,即使在更复杂的工具流程中,该模型也能始终如一地准确执行。

想看看 GPT-OSS-20B 和 120B 的真正实力吗?使用ForgeCode
直接在终端中启动它们

👉 ForgeCode — 速度快、本地化、功能强大。

无需云端,无需等待,纯粹的AI强大性能尽在掌握。

3. 一些合作方面的问题:但我们正在调整

一个奇怪的问题是:有时交互会在输出过程中突然停止。例如,我们发现它会在“这是第一阶段……”这句话处停止,而没有完成回复。我一直在改进提示语,以提升其多步骤后续操作的流畅性,目前效果正在迅速提升。

急性胃肠病

4. 开放权重透明度的力量

与封闭模型不同,GPT-OSS,尤其是 GPT-OSS-20B 和 120B,以完全透明的方式运行。我们可以直接对其进行基准测试,优化提示,并公开分享结果。这种透明度促进了生态系统的发展,推动其他提供商发布强大的开源替代方案,从而使所有人受益。

5. 为每项任务选择合适的模型

Forgecode 为我提供了模型灵活性。对于轻量级编辑,我选择 GPT-OSS-20B。对于大规模代码库的推理,我使用 120B。在命令行界面中切换模型非常便捷;只需/model选择并继续即可。

太酷了

🧠 为什么这很重要

  • 隐私与控制:无需将代码发送到云端。
  • 性能与速度:为开发人员提供实时 CLI 协助。
  • 透明度:公开权重可以全面反映行为。
  • 创新火花:鼓励更广泛的开源模型开发。

准备好尝试了吗?

您现在就可以在终端中试用这两种模型。只需访问Forgecode 网站,安装 Forgecode,即可在本地环境中使用GPT-OSS-20BGPT-OSS-120B。我们非常希望听到您的反馈,您的意见将有助于我们改进提示、协作流程和未来的功能。

请告诉我

✅ 结论

  • 我们已与 OpenAI 的开放权重 GPT-OSS-20B 和 120B 模型集成。
  • 您将体验到超快、准确的 CLI 代码辅助功能。
  • 我们正在优化多步骤工作流程,并倡导详细的透明度。
  • 这是朝着安全、强大且社区驱动的人工智能工程迈出的重要一步。

想自己试试吗?

想看看 GPT-OSS-20B 和 120B 的真正实力吗?使用ForgeCode
直接在终端中启动它们

👉 ForgeCode — 速度快、本地化、功能强大。

无需云端,无需等待,纯粹的AI强大性能尽在掌握。

亲自体验一下您自己所在的终端。您的反馈至关重要——请告诉我们它的性能如何!

文章来源:https://dev.to/forgecode/forgecode-x-openais-open-model-our-first-impression-with-openais-gpt-oss-models-48d2