我测试了顶级人工智能模型来构建同一个应用程序——以下是令人震惊的结果！

科技发展日新月异，我们似乎总能不断迎来新的更新和改进的大型语言模型（LLM）。Claude 3.5 Sonnet 在编程相关领域长期以来一直处于领先地位。但它是否仍然是该领域的首选，还是已经被如今众多新型 LLM 模型中的某一个超越了呢？

我想看看这些LLM模型取得了多大的进步，所以我设计了一个测试，看看哪个模型能脱颖而出。这篇文章是我之前在社交媒体上发布的一篇文章的后续。我让各种AI模型构建一个简单的宝可梦游戏，结果出乎意料。

我使用的提示是这样的：

使用 JavaScript 创建一个简单的 1 对 1 宝可梦对战游戏，并使用来自此网站的宝可梦精灵图：https://pokemondb.net/sprites

以下是我在社交媒体上创建的帖子：

推
 特/X 线程

在第一阶段测试中，我使用了 Claude 3.5 Sonnet、DeepSeek R1 和 ChatGPT-4o。在第二阶段测试中，我使用了更多层级模型（LLM），以便更全面地了解我们当前可用的功能。测试的层级模型包括：

DeepSeek R1
双子座 2.0 闪电思维实验
Grok 2
米斯特拉尔
o3-mini（中等推理 - 风帆冲浪）
Qwen2.5-Max
克劳德 3.5 十四行诗

开发一款宝可梦游戏

在第二阶段测试中，我创建了一个更高级的提示，以了解这些 LLM 模型在构建需要更高逻辑和思维能力的更复杂应用程序时有多智能，我相信游戏始终是测试此类用例的好方法。

这些测试的目的是为了观察人工智能在收到一次提示后能够完成什么任务。当然，我预期在用户多次发出提示后，它们都能完成更多任务。

这是我使用的提示：

使用 JavaScript 创建一个 1 对 1 的宝可梦对战游戏，并使用来自https://pokemondb.net/sprites 的宝可梦精灵图。确保玩家可以在战斗中切换两只不同的宝可梦，并且根据所使用的宝可梦，造成属性和元素伤害。每只宝可梦至少应该有四种可用的招式。玩家的宝可梦等级为 5 级，敌方宝可梦等级为 7 级。考虑等级差异如何影响战斗，包括生命值差异等等。

你可以在我的 GitHub 上找到所有宝可梦游戏：https://github.com/andrewbaisden/pokemon-battle-game。

这些_battle.js文件是LLM生成的原始文件，但已损坏。克劳德修复了battle.js该文件夹中的文件。

这是我的测试结果。我会给它们都打分，满分5星，这样你就能看出哪些表现出色，哪些还有提升空间。

DeepSeek R1

LLM 性能测试：
DeepSeek R1 花了些时间才构建出系统并开始编写代码。响应速度较慢，因为这项任务需要大量的思考。DeepSeek R1 思考了 300 秒，大约 5 分钟，这是我使用 DeepSeek R1 完成任务以来见过的最长时间。不过，观察它的思考过程很有意思，而且我没有为这项任务设置时间限制，所以只要它能完成提示，我并不介意它花费的时间更长。

游戏用户体验与逻辑：
遗憾的是，游戏功能基本完整，但尚未完全运行。玩家可以切换宝可梦，宝可梦也有生命值显示，并且有四个可用招式，但这些招式名称都很普通，不像游戏中那样有“十万伏特”、“火花”等特色名称。此外，玩家只能使用一个招式，之后所有按钮都会变灰，无法继续游戏。另外，敌方宝可梦没有图片或GIF动画，只有一个空白方框。游戏设计简洁，但需要更多提示才能使其正常运行。

双子座 2.0 闪电思维实验

LLM Performance
So Gemini 2.0 Flash 对提示的响应时间约为 15 秒，速度相当快。

游戏用户体验与逻辑：
Geminis 对我的反馈反应迅速，但并未因此降低工作效率，反而打造出了一款功能齐全、设计相当不错的游戏。游戏包含动画宝可梦、生命值条、4 种招式、宝可梦切换功能，以及一个显示战斗中所有招式的输出框。这绝对是本次测试中最优秀的游戏之一。

Grok 2

LLM Performance
Grok 2 没有推理或思路。完成提示请求大约耗时 1 分钟。

游戏用户体验与逻辑：
很遗憾，它提供的代码库存在问题，无法正常运行。我决定使用 Windsurf IDE 中的 Claude 3.5 Sonnet 进行调试，并在一次提示后成功使其运行。我没有对 DeepSeek R1 进行同样的调试，是因为该游戏当时已经可以勉强运行，而 Grok 2 创建的版本存在大量 bug，根本无法游玩。

修复代码库之后，我发现 Grok 2 实际上设计并制作了一款非常精美的游戏。游戏基本实现了我最初提出的要求，这很好。然而，由于代码库存在问题，需要 Claude 进行修复，因此游戏被扣分。

米斯特拉尔

LLM 性能：
生成代码库仅用了大约 2 秒，这比我测试过的所有 LLM 都要快得多。

游戏用户体验与逻辑方面，
Mistral 仅用了 2 秒钟就创建了一个功能齐全的游戏！设计虽然很简单，但基本逻辑运行正常。

o3-mini（中等推理 - 风帆冲浪）

LLM 性能：
创建应用程序构建行动计划大约花了 5 秒钟。然后，在我创建了空文件以便它可以向其中添加代码之后index.html styles.css，又花了大约 10 秒钟创建了代码库。battle.js

游戏用户体验与逻辑：
设置完成后，第一次尝试就成功创建了一个可运行的应用程序！游戏运行正常，满足了我提示中设定的所有要求。如果非要挑个毛病，那就是所有移动按钮的名称都过于通用，例如“攻击1”、“攻击2”等等，尽管在输出界面中会显示当前使用的招式。如果按钮名称与输出界面中显示的攻击名称一致，那就更好了。

Qwen2.5-Max

LLM性能：
生成代码库大约需要1分钟，这还不错。

游戏用户体验与逻辑：
JavaScript 文件存在错误，尽管 HTML 代码在浏览器中可以正常运行。但功能却无法正常工作，所以我使用 Windsurf IDE 中的 Claude 3.5 Sonnet 进行代码调试，并在一次提示后成功解决了问题。

游戏运行正常，也实现了我最初描述的功能。但是，游戏逻辑需要大幅改进。首先，切换宝可梦时，攻击招式保持不变，因此对新宝可梦来说毫无意义。其次，伤害值似乎固定为1，当宝可梦的生命值达到100时，战斗时间会变得非常长……

克劳德 3.5 十四行诗

LLM性能：
生成代码库大约需要1分钟，这完全可以接受。

游戏用户体验与逻辑：
游戏功能正常。然而，它为宝可梦创建了占位符图像，需要用户手动下载精灵图来替换这些占位符。不过，至少它提供了操作说明。这可能是因为 Claude 无法像其他 LLM 那样搜索网络，所以无法读取文档。值得注意的是，我这次测试使用的是 Claude 官网。如果我使用像 Windsurf 这样可以搜索网络的 IDE，或许就能成功了。

这是唯一一款有动态血条的游戏，这点很酷。不过，我对它的游戏逻辑不太确定。要么是敌方宝可梦真的太强了，要么是玩家的宝可梦每次攻击都会对自己造成伤害，因为它们的血条下降得太快了。😂 还有，这游戏里没有电属性宝可梦，却有电属性攻击，这完全说不通。😂

结论

人工智能的发展速度和发展方向令人惊叹。今天，我们了解了一些目前领先的语言学习模型的功能。能够根据一个简单的提示就生成相当复杂的代码库，这真是令人叹为观止。此外，尽管我提供的提示信息虽然详细，但遗漏了一些内容，人工智能模型仍然能够理解我所指的大部分内容，这充分说明了它们在这类工作中的重要性。

这项测试虽然算不上非常科学严谨，但却是一项快速有趣的测试，旨在了解这些模型在几乎无需人工干预的情况下，从零开始构建事物的能力。基于这项简短的研究，我会对每个LLM模型在此次测试中的表现进行如下评分和排名。

人工智能法学硕士	等级
DeepSeek R1	⭐️️
双子座 2.0 闪电思维实验	⭐️⭐️⭐️⭐️⭐️
Grok 2	⭐️⭐️⭐️
米斯特拉尔	⭐️⭐️⭐️⭐️
o3-mini（中等推理 - 风帆冲浪）	⭐️⭐️⭐️⭐️
Qwen2.5-Max	⭐️⭐️
克劳德 3.5 十四行诗	⭐️⭐⭐

很遗憾，DeepSeek R1 在这次测试中只得了 1 星，因为游戏功能不完善。出乎意料的是，Gemini 2.0 Flash 获得了 5 星的最高分。Grok 2 只得了 3 星，因为 Claude 需要修复代码才能运行。

Mistral 和 o3-mini（中等推理能力）制作的游戏整体来说都相当不错。Qwen2.5-Max 制作的游戏只有在 Claude 调试代码后才能运行。它的逻辑需要改进，因为攻击造成的伤害只有 1，所以赢得游戏会很累很无聊……😂

最后，Claude 只得了三星，因为它的游戏逻辑有点奇怪，而且由于无法搜索网络，它不像其他游戏那样显示宝可梦的图片。不过，它值得一提，因为它修复了两个有问题的代码库，并在一次提示后就让这些游戏运行起来了！如果我在像 Windsurf 或 Cursor 这样可以访问网络的 IDE 中使用 Claude 3.5 Sonnet，那么在构建这款游戏时，它可能会取得更好的效果。

随时了解科技、编程、效率提升和人工智能领域的最新动态

如果你喜欢这些文章，欢迎在社交媒体上关注我，我会分享与这些主题相关的内容🔥

文章来源：https://dev.to/andrewbaisden/i-tested-the-top-ai-models-to-build-the-same-app-here-are-the-shocking-results-39l9

菜单

分享

我测试了顶级人工智能模型来构建同一个应用程序——以下是令人震惊的结果！

我测试了顶级人工智能模型来构建同一个应用程序——以下是令人震惊的结果！

开发一款宝可梦游戏

DeepSeek R1

双子座 2.0 闪电思维实验

Grok 2

米斯特拉尔

o3-mini（中等推理 - 风帆冲浪）

Qwen2.5-Max

克劳德 3.5 十四行诗

结论

随时了解科技、编程、效率提升和人工智能领域的最新动态

系统设计面试中的 19 种微服务模式

使用 React 和 AWS Amplify 实现无服务器架构第三部分：跟踪应用使用情况

模型-视图-控制器（MVC）模式到底是什么？DEV 全球项目展示挑战赛，由 Mux 主办：快来展示你的项目吧！

我在两年内从 PHP 开发人员晋升为高级 C#/.NET 开发人员。

了解 Docker：第 12 部分 – 传递构建参数

Yarn 和第三方 NPM 客户端的黑暗未来 DEV 的全球展示与讲述挑战赛，由 Mux 呈现：展示你的项目！

CSS DEV 的全球展示挑战赛“响应式字体”由 Mux 呈现：展示你的项目！

我是如何以学生开发者的身份免费获得 Tabnine Pro 的，你也可以！

五大顶级JS框架

从 Rector PHP 开始：利用自动化改进您的 PHP 代码