Qwen 3 基准测试、对比、型号规格及更多信息

Qwen3：阿里巴巴最新的开源人工智能模型

Qwen3是阿里云最新一代大型语言模型 (LLM)。它由通义千问系列背后的团队打造，功能强大且灵活，并以 Apache 2.0 许可的开源软件包形式提供。

Qwen3 于2025 年 4 月 29 日发布，共有八种规格，包括密集模型（参数数量从 6 亿到 320 亿不等）和混合专家 (MoE)模型，例如旗舰级的Qwen3-235B。这些 MoE 模型每次只激活其总参数的一小部分（例如 2350 亿中的 220 亿），因此无需极高的计算资源即可获得高性能。

让我们深入了解一下它的一些关键特性。

型号尺寸和选项

以下是您可以选择的选项概览：

模型	类型	参数（总数/活动）	最大上下文
Qwen3-235B-A22B	教育部	235B / 22B	128K
Qwen3-30B-A3B	教育部	30B / 3B	128K
Qwen3-32B	稠密	32B	128K
Qwen3-14B	稠密	14B	128K
Qwen3-8B	稠密	8B	128K
Qwen3-4B	稠密	4B	32K
Qwen3-1.7B	稠密	17亿	32K
Qwen3-0.6B	稠密	0.6B	32K

所有模型均采用Apache 2.0许可，因此您可以在商业应用程序中使用它们，而无需担心法律问题。

基准测试与比较

以下基准测试评估了启用推理功能的 Qwen3。

Qwen3-235B（旗舰型号）在 CodeForces ELO Rating、BFCL 和 LiveCodeBench v5 基准测试中领先，但在 ArenaHard、AIME、MultilF 和 Aider Pass@2 测试中落后于 Gemini 2.5 Pro：

与开源和非前沿模型相比，Qwen3-30B（一款较小的模型）在速度和准确率方面都表现出色。在 LiveCodeBench 和 CodeForces 基准测试中，它仅次于阿里巴巴的另一款模型 QwQ-32B；在 BFCL 基准测试中，它则逊于 GPT-4o。

下面，尽管 Qwen3-235B 是第二小的模型，但在所有基准测试中，它都优于所有其他模型，除了在多语言任务基准测试中 DeepSeek v3 之外。INCLUDE

Qwen3 有哪些新特性？

双重“思考”模式

这是Qwen3最酷的功能之一：它可以在“思考模式”和“非思考模式”之间切换。“思考模式”用于深度推理，例如针对复杂任务进行层层深入的思考。“非思考模式”则省略繁琐的步骤，提供快速简洁的答案。

因此，根据提示或任务的不同，Qwen3 可以选择深入思考或直奔主题。这意味着在需要时提供更快的速度，在需要时提供更深入的思考。

更智能规模化的教育部

Qwen3之所以能够处理如此庞大的参数数量，正是得益于其混合专家（MoE）架构。它并非每次都使用所有参数，而是每个令牌仅激活少数几个“专家”。例如，Qwen3-235B一次只使用220亿个激活参数，因此其运行成本远低于预期。

这是在不花费大量预算购买 GPU 的情况下扩展规模的明智方法。

使用涵盖 119 种语言的 36 万亿个词元进行训练

Qwen3 使用包含约 36 万亿个词元的大型数据集进行训练，其中包括网页数据、书籍、PDF 以及早期 Qwen 模型生成的合成代码/数学公式。它现在能够理解119 种语言和方言，使其成为目前最强大的多语言模型之一。

无论你使用英语、中文还是其他资源匮乏的语言，Qwen3 都可能随时准备为你提供帮助。

更智能的代理和更优秀的程序员

Qwen3 不仅仅接受过口语训练。阿里巴巴还注重工具使用、规划和编程，这使得这一代人在以下方面表现得更加出色：

编写和调试代码
逐步解决数学和逻辑问题
扮演一个能够使用工具或浏览网页的人工智能代理

事实上，据报道， Qwen3-4B在编程等任务上甚至比一些早期的 72B 型号表现更好。

入门

您可以从以下位置获取模型：

您还可以在他们的GitHub 页面上找到详细的指南、分词器信息和微调说明。

最后想说的话

Qwen3是目前最好的开源LLM之一。当然，鉴于新模型发布的速度，这种情况可能很快就会改变。

感谢阅读！
BestCodes

本文部分内容由人工智能生成。

文章来源：https://dev.to/best_codes/qwen-3-benchmarks-comparisons-model-specifications-and-more-4hoa

菜单

分享

Qwen 3 基准测试、对比、型号规格及更多信息

Qwen 3 基准测试、对比、型号规格及更多信息

Qwen3：阿里巴巴最新的开源人工智能模型

型号尺寸和选项

基准测试与比较

Qwen3 有哪些新特性？

双重“思考”模式

更智能规模化的教育部

使用涵盖 119 种语言的 36 万亿个词元进行训练

更智能的代理和更优秀的程序员

入门

最后想说的话

系统设计面试中的 19 种微服务模式

使用 React 和 AWS Amplify 实现无服务器架构第三部分：跟踪应用使用情况

模型-视图-控制器（MVC）模式到底是什么？DEV 全球项目展示挑战赛，由 Mux 主办：快来展示你的项目吧！

我在两年内从 PHP 开发人员晋升为高级 C#/.NET 开发人员。

了解 Docker：第 12 部分 – 传递构建参数

Yarn 和第三方 NPM 客户端的黑暗未来 DEV 的全球展示与讲述挑战赛，由 Mux 呈现：展示你的项目！

CSS DEV 的全球展示挑战赛“响应式字体”由 Mux 呈现：展示你的项目！

我是如何以学生开发者的身份免费获得 Tabnine Pro 的，你也可以！

五大顶级JS框架

从 Rector PHP 开始：利用自动化改进您的 PHP 代码