[ForgeCode x OpenAI 的开源模型]:我们对 OpenAI 的 GPT-OSS 模型的第一印象
自从我们将OpenAI 的 GPT-OSS-20B 和 GPT-OSS-120B集成到 Forgecode 以来,我们就一直兴奋不已——为什么不呢!这是 OpenAI 自 GPT-2 以来首次发布开源权重模型。它们具有颠覆性意义:您可以在本地硬件上运行它们,与云端模型进行直接对比测试,并完全保护代码隐私。光是这一点就足以激起任何人的好奇心。
OpenAI 终于名副其实地诠释了“开放”二字!!!
想看看 GPT-OSS-20B 和 120B 的真正实力吗?使用ForgeCode
直接在终端中启动它们。👉 ForgeCode — 速度快、本地化、功能强大。
无需云端,无需等待,纯粹的AI强大性能尽在掌握。
1. 不言自明的基准
以下是 GPT-OSS 模型与 OpenAI 的 o3 和 o4-mini 在关键推理和竞赛数学测试中的对比情况:
| 任务 | GPT-OSS-120B | GPT-OSS-20B | OpenAI o3 | OpenAI o4-mini |
|---|---|---|---|---|
| MMLU | 90.0 | 85.3 | 93.4 | 93.0 |
| GPQA钻石级 | 80.1 | 71.5 | 83.3 | 81.4 |
| 人类的最后考试 | 19.0 | 17.3 | 24.9 | 17.7 |
| AIME 2024 | 96.6 | 96.0 | 95.2 | 98.7 |
| AIME 2025 | 97.9 | 98.7 | 98.4 | 99.5 |
GPT-OSS-120B 的表现着实令人印象深刻,它与 OpenAI 的专有模型相比毫不逊色;在包括 o3 和 o4-mini 在内的几个关键推理基准测试中,它几乎与 OpenAI 的专有模型持平,甚至更胜一筹。即使是体积更小的 GPT-OSS-20B,考虑到其紧凑的尺寸,也展现出了令人惊讶的强大性能。
- 在 MMLU 测试中,GPT-OSS-120B 得分为 90.0,而 o3 得分为 93.4;GPT-OSS-20B 紧随其后,得分为 85.3。
- GPQA Diamond 中 GPT‑OSS‑120B 的得分高达 80.1,而 o3 的得分也达到了 83.3。
- 即使在以难度著称的“人类最后的考试”中,GPT-OSS-120B 也获得了 19.0 的稳定分数,而 o3 的基准分数为 24.9。
- 对于 AIME 等竞赛数学,GPT-OSS 的两种模型都达到了接近顶尖的准确率,在 2024 和 2025 道题上超越或达到了 o3 的结果。
这些基准测试进一步证实,即使在本地以开源的 Apache 2.0 许可证运行,新的 OpenAI GPT-OSS 模型也能在推理任务中提供真正的竞争能力。
2. 即使是复杂的架构,也能实现亚秒级响应
即使是处理多文件或多阶段的请求,我们也能达到亚秒级的响应速度。无论是跨目录更新配置还是运行模式迁移,基于 GPT-OSS 的 Forgecode 在实时终端会话中都表现得极其迅捷。
2. 使用 CLI 命令和工具实现惊人的精确度
我们注意到,在执行 CLI 指令或工具任务时,该模型具有很高的准确率。从生成git commit消息到搭建 TypeScript 接口,即使在更复杂的工具流程中,该模型也能始终如一地准确执行。
想看看 GPT-OSS-20B 和 120B 的真正实力吗?使用ForgeCode
直接在终端中启动它们。👉 ForgeCode — 速度快、本地化、功能强大。
无需云端,无需等待,纯粹的AI强大性能尽在掌握。
3. 一些合作方面的问题:但我们正在调整
一个奇怪的问题是:有时交互会在输出过程中突然停止。例如,我们发现它会在“这是第一阶段……”这句话处停止,而没有完成回复。我一直在改进提示语,以提升其多步骤后续操作的流畅性,目前效果正在迅速提升。
4. 开放权重透明度的力量
与封闭模型不同,GPT-OSS,尤其是 GPT-OSS-20B 和 120B,以完全透明的方式运行。我们可以直接对其进行基准测试,优化提示,并公开分享结果。这种透明度促进了生态系统的发展,推动其他提供商发布强大的开源替代方案,从而使所有人受益。
5. 为每项任务选择合适的模型
Forgecode 为我提供了模型灵活性。对于轻量级编辑,我选择 GPT-OSS-20B。对于大规模代码库的推理,我使用 120B。在命令行界面中切换模型非常便捷;只需/model选择并继续即可。
🧠 为什么这很重要
- 隐私与控制:无需将代码发送到云端。
- 性能与速度:为开发人员提供实时 CLI 协助。
- 透明度:公开权重可以全面反映行为。
- 创新火花:鼓励更广泛的开源模型开发。
准备好尝试了吗?
您现在就可以在终端中试用这两种模型。只需访问Forgecode 网站,安装 Forgecode,即可在本地环境中使用GPT-OSS-20B或GPT-OSS-120B。我们非常希望听到您的反馈,您的意见将有助于我们改进提示、协作流程和未来的功能。
✅ 结论
- 我们已与 OpenAI 的开放权重 GPT-OSS-20B 和 120B 模型集成。
- 您将体验到超快、准确的 CLI 代码辅助功能。
- 我们正在优化多步骤工作流程,并倡导详细的透明度。
- 这是朝着安全、强大且社区驱动的人工智能工程迈出的重要一步。
想自己试试吗?
想看看 GPT-OSS-20B 和 120B 的真正实力吗?使用ForgeCode
直接在终端中启动它们。👉 ForgeCode — 速度快、本地化、功能强大。
无需云端,无需等待,纯粹的AI强大性能尽在掌握。
亲自体验一下您自己所在的终端。您的反馈至关重要——请告诉我们它的性能如何!
文章来源:https://dev.to/forgecode/forgecode-x-openais-open-model-our-first-impression-with-openais-gpt-oss-models-48d2



