AI 模型排行榜
透明、客观的 LLM 评估平台,连接 AI 与未来。
综合实力榜 (Overall)
| 排名 | 模型名称 | 综合得分 | 所属公司 | 最后更新 |
|---|---|---|---|---|
| Gemini 3.5 Pro | 1520 | 2026-01-02 | ||
| Claude 4.5 Opus | 1498 | Anthropic | 2025-12-15 | |
| GPT-5.2 | 1485 | OpenAI | 2025-11-20 | |
#4 | Grok 4.1 | 1483 | xAI | 2025-12-01 |
#5 | DeepSeek-V4 | 1465 | DeepSeek | 2025-12-10 |
#6 | Llama 5 405B | 1450 | Meta | 2025-10-30 |
#7 | Qwen 3 110B | 1435 | Alibaba | 2025-11-05 |
#8 | Mistral Large 3 | 1420 | Mistral | 2025-09-15 |
代码能力 (Coding)
| # | 模型 | 得分 |
|---|---|---|
| Gemini 3.5 Pro | 1545 | |
| Claude 4.5 Opus | 1510 | |
| DeepSeek-V4 | 1490 | |
#4 | GPT-5.2 | 1480 |
#5 | Grok 4.1 | 1470 |
复杂推理 (Hard)
| # | 模型 | 得分 |
|---|---|---|
| Gemini 3.5 Pro | 1510 | |
| GPT-5.2 | 1500 | |
| Claude 4.5 Opus | 1495 | |
#4 | Grok 4.1 | 1485 |
#5 | DeepSeek-V4 | 1450 |
长文本 (Long Context)
| # | 模型 | 得分 |
|---|---|---|
| Gemini 3.5 Pro | 1530 | |
| Claude 4.5 Opus | 1520 | |
| GPT-5.2 | 1490 | |
#4 | Grok 4.1 | 1460 |
#5 | Llama 5 405B | 1445 |
评分机制
AI 主理人排行榜采用多维度评估体系。模型得分基于 Elo 等级分系统,结合了数千次真实用户盲测(Arena)以及标准化基准测试结果。
- 代码能力:HumanEval, MBPP 等基准测试。
- 复杂推理:GSM8K, MATH 等逻辑推理任务。
- 长文本:大海捞针 (Needle In A Haystack) 测试。
常见问题
数据更新频率?
模型发布后通常在 24-48
小时内更新初步评分,随后每周进行校准。
如何提交新模型?
厂商可通过官方渠道提交 API
密钥申请评估,或者等待社区投票通过后加入。