Qwen2.5-Max：阿里巴巴的新AI模型超越DeepSeek、GPT-4o和Claude Sonnet

在Arena-Hard、LiveBench、LiveCodeBench和GPQA-Diamond等基准测试中显著超越DeepSeek V3，同时在MMLU-Pro等其他评估中也表现出竞争力。在预训练之后，该模型通过监督微调（SFT）和人类反馈的强化学习（RLHF）进行了微调，进一步增强了其能力。其在多个基准测试中的卓越表现及其多样化的能力使其成为各种应用的重要工具。在快速发展的人工智能领域，一位新

人世不易

1268人浏览 · 2025-02-18 20:20:13

人世不易 · 2025-02-18 20:20:13 发布

是什么让Qwen2.5-Max成为游戏规则的改变者？

在快速发展的人工智能领域，一位新的竞争者出现了，打破了竞争格局。阿里巴巴刚刚推出了Qwen2.5-Max，这一尖端AI模型正在为性能和能力设定新的基准。该模型不仅与DeepSeek V3、GPT-4o和Claude Sonnet等领先模型相抗衡，还在一系列关键评估中超越了它们。Qwen2.5-Max不仅仅是另一个AI模型；它是AI技术的一次飞跃。

是什么让Qwen2.5-Max成为游戏规则的改变者？

Qwen2.5-Max拥有众多特性，使其成为AI领域真正的游戏规则改变者：

代码执行与调试：它不仅生成代码；还实时运行和调试代码。这一能力对需要快速测试和完善代码的开发者至关重要。
超精确图像生成：忘掉普通的AI艺术；Qwen2.5-Max生成高度详细、遵循指令的图像，开启了创意领域的新可能性。
更快的AI视频生成：该模型生成视频的速度远快于90%的现有AI工具。
网页搜索与知识综合：该模型可以进行实时搜索，收集数据并总结发现，使其成为研究和分析的强大工具。
视觉能力：上传PDF、图像和文档，Qwen2.5-Max将即时读取、分析并提取有价值的见解，增强其在文档密集型任务中的适用性。

技术细节

Qwen2.5-Max是一个大规模的专家混合模型（MoE），已在超过20万亿个标记上进行了预训练。在预训练之后，该模型通过监督微调（SFT）和人类反馈的强化学习（RLHF）进行了微调，进一步增强了其能力。

性能基准

Qwen2.5-Max的性能令人印象深刻。它在多个基准测试中进行了评估，包括：

MMLU-Pro：通过大学水平的问题测试其知识。
LiveCodeBench：评估其编码能力。
LiveBench：测量其一般能力。
Arena-Hard：评估其与人类偏好的对齐程度。

Qwen2.5-Max在Arena-Hard、LiveBench、LiveCodeBench和GPQA-Diamond等基准测试中显著超越DeepSeek V3，同时在MMLU-Pro等其他评估中也表现出竞争力。与DeepSeek V3、Llama-3.1-405B和Qwen2.5-72B相比，基础模型在大多数基准测试中也显示出显著优势。

如何使用Qwen2.5-Max

Qwen2.5-Max现在可以在Qwen Chat上使用，您可以直接与模型互动。它也可以通过阿里巴巴云的API访问。以下是使用API的步骤：

注册一个阿里巴巴云账户并激活阿里巴巴云模型工作室服务。
导航到控制台并创建API密钥。
由于这些API与OpenAI-API兼容，您可以像使用OpenAI API一样使用它们。

以下是使用Qwen2.5-Max的Python示例：

from openai import OpenAI
import os

client = OpenAI(
    api_key=os.getenv("API_KEY"),
    base_url="https://dashscope-intl.aliyuncs.com/compatible-mode/v1",
)

completion = client.chat.completions.create(
    model="qwen-max-2025-01-25",
    messages=[
      {'role': 'system', 'content': 'You are a helpful assistant.'},
      {'role': 'user', 'content': 'Which number is larger, 9.11 or 9.8?'}
    ]
)

print(completion.choices[0].message)

未来的影响

阿里巴巴对持续研究和开发的承诺在Qwen2.5-Max中得到了体现。该公司致力于通过创新的规模化强化学习增强大型语言模型（LLMs）的思维和推理能力。这种方法旨在通过潜在地使AI模型超越人类智能来开辟AI的新领域。

引用

如果您发现Qwen2.5-Max有帮助，请引用以下论文：

@article{qwen25,
  title={Qwen2.5 technical report},
  author={Qwen Team},
  journal={arXiv preprint arXiv:2412.15115},
  year={2024}
}

Qwen2.5-Max代表了AI技术的重大进步。其在多个基准测试中的卓越表现及其多样化的能力使其成为各种应用的重要工具。随着阿里巴巴继续开发和完善该模型，我们可以期待未来更多突破性的创新。

更多内容，请点击文章顶部资源下载

脑启社区

脑启社区是一个专注类脑智能领域的开发者社区。欢迎加入社区，共建类脑智能生态。社区为开发者提供了丰富的开源类脑工具软件、类脑算法模型及数据集、类脑知识库、类脑技术培训课程以及类脑应用案例等资源。

更多推荐

EM-Core 创造者叙事：从牛角尖，到通用智能架构

脑启社区

天赐范式第44天：算子大全与API白皮书Tianci Paradigm Day 44: Complete Operator Compendium and Unified API White Paper

脑启社区

突破 Transformer 极限：一文看懂类脑架构 MT-LNN 最新的“超神”评测结果！

脑启社区

所有评论(0)

查看更多评论

人世不易

@calvin189s

已为社区贡献3条内容

Qwen2.5-Max：阿里巴巴的新AI模型超越DeepSeek、GPT-4o和Claude Sonnet

人世不易

是什么让Qwen2.5-Max成为游戏规则的改变者？

技术细节

性能基准

如何使用Qwen2.5-Max

未来的影响

引用

所有评论(0)

温馨提示：您尚未绑定手机号

人世不易