发布于 2026-01-06 5 阅读
0

Grok 4 vs. Claude Opus 4 vs. Gemini 2.5 Pro 编码对比 🚀 由 Mux 主办的 DEV 全球展示挑战赛:展示你的项目!

Grok 4、Claude Opus 4 和 Gemini 2.5 Pro 编码对比🚀

由 Mux 主办的 DEV 全球展示挑战赛:展示你的项目!

随着号称最智能的AI模型Grok 4的发布,一个重要的问题摆在了人们面前:这个模型在编码方面的表现究竟如何?它是否超越了我们目前最好的模型——Anthropic公司的Claude Opus 4和谷歌的另一款实力强劲的模型Gemini 2.5 Pro?🔥

在这篇文章中,我们将阐明一些问题,并确定哪种模型在编码方面表现更佳。我们将首先在实际场景中进行测试,然后完成一个简单的动画测试。

那么,事不宜迟,让我们直接进入正题吧!

让我们开始吧 GIF


太长不看

如果您想直接了解结论,以下是我们在博客中涵盖的所有内容的总结:

  • 出乎意料的是,Grok 4 在编码任务方面并没有比 Claude Opus 4 好多少。
  • 它肯定比 Gemini 2.5 Pro 好,这一点毋庸置疑。
  • 有时,Claude Opus 4 的表现甚至超过了 Grok 4(您将在下面的比较中看到)。
  • 话虽如此,Grok 4 也相当不错;它总体来说是一个优秀的模型,只是在编程方面并非最佳选择。但在推理任务方面呢?Grok 4 或许是目前最好的模型。
  • 如果你考虑的是价格,那么Gemini仍然是赢家,当然,这里说的不是代码价格,而是和Claude Opus 4以及Grok 4相比的价格。🤷‍♂️

关于 Grok 4 AI 模型的推文


Grok 4 简介

Grok 4 是 xAI 最新推出的推理模型,也是迄今为止最智能的AI 模型。Grok 4 不仅能与其他 AI 模型竞争,还能与人类匹敌——没错,你没听错。

它是第一个在 ARC-AGI 基准测试中得分超过 15% 的模型,该基准测试旨在衡量人工智能通用性 (AGI) 的发展进展,人工智能通用性是一种旨在使其一般推理能力与人脑相匹配的人工智能形式。

Grok 4 ARC-AGI 基准测试

🗣️ “就学术问题而言,Grok 4 在所有学科领域都优于博士水平。没有例外。”——埃隆·马斯克

它的代币上下文窗口容量为 25.6 万,相比之下,最近发布的 Gemini 2.5 Pro 的代币上下文窗口容量为 100 万,这个容量非常低。它比 Claude 4 系列略好一些,后者拥有大约 20 万个代币。

如果从代码编写方面来看,马斯克本人声称,你可以将整个源代码复制粘贴到查询语句中,它就能自动修复漏洞或添加新功能,就这么简单。他还声称它的效果“比 Cursor 更好”。

埃隆必须声称 Grok 4 比 Cursor 更好。

该模型的定价与 Grok 3 相同,但略有不同:每百万个输入代币的成本约为 3 美元(超过 12.8 万个后翻倍),每百万个输出代币的成本约为 15 美元(超过 12.8 万个后翻倍)。

Grok 4 的关键基准测试结果

  1. 该型号在 GPQA 钻石级测试中取得了 88% 的创纪录高分,超过了 Gemini 2.5 Pro 的 84%。
  2. 在“人类最终考试”中,它取得了 24% 的新高分,超过了 Gemini 2.5 Pro 之前的 21% 的分数。
  3. 它在 MMLU-Pro 和 AIME 2024 中分别获得了 87% 和 94% 的并列最高分。
  4. 不仅如此,它在编码基准测试中也优于所有模型,在 LiveCodeBench 中以 79.4% 的成绩排名第一,而第二名的成绩为 75.8%。

此外,在其他一些基准测试中,它也领先于所有其他模型。

Grok 4 模型基准测试

总而言之,目前,如果你进行任何基准测试,Grok 4 很可能领先于所有其他测试结果。

它可以通过 API 和付费订阅两种方式使用。您可以每月支付 30 美元或每年支付 300 美元在 SuperGrok 上访问标准版 Grok 4。但是,要访问Grok 4 Heavy,您需要订阅 SuperGrok Heavy 套餐,该套餐每月收费 300 美元或每年收费 3000 美元。

SuperGrok 定价

我们距离实现通用人工智能(AGI)还有一段距离,但这在迈向通用人工智能的竞赛中是一个重大突破,埃隆·马斯克已经暗示了这一点。

埃隆肯定是在用 Grok 4 暗示通用人工智能(AGI)。


编码比较

1. Figma 设计克隆版(带 MCP)

在开始之前,这里是 Figma 设计图,我们将要求这三个模型在我们的 Next.js 应用程序中复现该设计图:

Figma布局

💁提示:使用给定的 Figma 设计作为参考,创建一个 Figma 设计克隆:<URL>。尽量使其与原设计尽可能接近。

Grok 4 的回复

以下是它生成的响应:

Figma 设计实现由 Grok 4 完成

这看起来棒极了。我很喜欢这个设计;除了几个小细节之外,一切都很完美,正如你所看到的。有些图标的位置不太合适。文字和其他所有内容都恰到好处。

有一点需要注意的是,实现这个设计花了相当长的时间,大约4分钟。虽然不算很长,但与其他两个模型相比,它的实现时间确实最长。

此外,该模型在刀具调用方面也表现得非常出色。它几乎每次都能以99%的准确率选择正确的刀具并使用正确的参数进行刀具调用,因此没有理由怀疑其有效性。

您可以在这里找到它生成的代码:链接

如果你仔细查看代码,就会发现它并不完美。它本可以拆分成多个小组件,因为我没有将所有代码更改都放在一个文件中,那样的话代码组织会更好。尽管如此,它仍然切合实际。

克劳德·奥普斯 4 的回应

以下是它生成的响应:

Claude Opus 4 的 Figma 设计实现

我觉得这个版本比 Grok 4 的实现方式略好一些。所有图标的位置看起来都很合适。仔细观察的话,确实存在一些不一致的地方,但总体而言,这个版本最接近我们的 Figma 设计。

您可以在这里找到它生成的代码:链接

Opus 4 的开发时间与 Grok 4 大致相同,生成的代码也与 Grok 4 非常相似。它并没有真正分解成各个组件,而是把所有东西都打包在一个文件中。我对它并不十分满意,但至少它最接近设计稿。

Gemini 2.5 Pro 的回复

这才是最令人意外的。这款 Gemini 2.5 Pro 型号的显示器,即使反复研究其设计,也完全无法识别任何功能。

使用 Gemini 2.5 Pro 实现 Figma 设计

如你所见,除了几个图标和文字,其他什么都显示不出来。来回折腾了好几次,还是不行。响应如此糟糕,我甚至以为是我的操作出了问题。我又试了一次,结果还是一样。真是太离谱了。🤦‍♂️

我一直以来都使用这个模型作为我的首选模型,但不知何故,它似​​乎对智能体工作流程不太有效。

您可以在这里找到它生成的代码:链接

然而,仔细查看代码后发现,它的组件组织得非常好,代码编写方式也优于 Grok 4 甚至 Claude Opus 4。但是,最终产品才是最重要的,所以我对这个反馈并不满意。😔

概括

Grok 4 和 Claude Opus 4 在复制设计方面都做得很好,但他们的代码写得不好。

我还注意到一点,不知为何,这三个模型都以为它们只需要处理用户界面。我的意思是,它们完全没有添加任何逻辑,这有点令人惊讶。它们至少可以为侧边栏项目和按钮添加一些处理函数,但现在什么都没有。只有纯 JSX 和 Tailwind 框架。😑

2. 黑洞动画

💁提示:使用 Three.js 和着色器,在单个 HTML 文件中构建一个 3D 黑洞可视化模型。尽量使其美观且准确。

Grok 4 的回复

您可以在这里找到它生成的代码:链接

以下是程序的输出结果:

太棒了!动画流畅,感觉非常逼真。代码组织良好,易于理解。效果很棒,我很满意。

最初,我遇到了 Three.js 的一些 CORS 问题,然后我提出了一个提示。

Three.js 出现 CORS 控制台错误

但问题解决后,结果就是:一个非常漂亮的黑洞动画。

克劳德·奥普斯 4 的回应

您可以在这里找到它生成的代码:链接

以下是程序的输出结果:

挺意外的,这个模型也得到了类似的反馈。我注意到的唯一区别是它增加了一些修改动画的选项。

虽然没人问过,但这些新增的控制功能确实不错。不过,仅凭这些新增控制功能,我认为我们无法在此进行比较。Grok 4 和这款模型在实现方面都做得非常出色。

Gemini 2.5 Pro 的回复

您可以在这里找到它生成的代码:链接

以下是程序的输出结果:

说实话,我对动画的评价可能有点主观。跟前两部比起来,这部感觉没那么好。🙃

不过,它也不算差。所有功能都运行良好,包括轨道控制,只是动画不够流畅,跟另外两款游戏相比略逊一筹。


包起来!

在这项测试中,我发现 Grok 4 和 Claude Opus 4 之间的响应并没有太大区别,但有时感觉 Claude Opus 的表现略胜于其他两款。

不过,选择 Grok 4 进行编码也绝对不会错。它功能全面,是目前最智能的 AI 模型之一。而且,如果它在编码方面也能达到如此高的性能,我们还能要求什么呢?考虑到它与 Claude Opus 4 的价格差异,选择 Grok 4 就对了。

这是一个相对较短的编程测试,但其目的是为了让大家了解 Grok 4 及其在编程方面的强大功能。

我们已经做过一项测试,对比了 Claude Opus 4 和 Gemini 2.5 Pro 的编码性能。如果您想查看,请点击这里:

请告诉我你使用 Grok 4 的体验如何。你准备好切换到你目前的编码模型了吗?👀

文章来源:https://dev.to/composiodev/grok-4-vs-claude-opus-4-vs-gemini-25-pro-coding-comparison-35ed