AI 模型排行榜

透明、客观的 LLM 评估平台,连接 AI 与未来。

综合实力榜 (Overall)

排名模型名称综合得分所属公司最后更新
Gemini 3.5 Pro1520Google2026-01-02
Claude 4.5 Opus1498Anthropic2025-12-15
GPT-5.21485OpenAI2025-11-20
#4
Grok 4.11483xAI2025-12-01
#5
DeepSeek-V41465DeepSeek2025-12-10
#6
Llama 5 405B1450Meta2025-10-30
#7
Qwen 3 110B1435Alibaba2025-11-05
#8
Mistral Large 31420Mistral2025-09-15

代码能力 (Coding)

#模型得分
Gemini 3.5 Pro1545
Claude 4.5 Opus1510
DeepSeek-V41490
#4
GPT-5.21480
#5
Grok 4.11470

复杂推理 (Hard)

#模型得分
Gemini 3.5 Pro1510
GPT-5.21500
Claude 4.5 Opus1495
#4
Grok 4.11485
#5
DeepSeek-V41450

长文本 (Long Context)

评分机制

AI 主理人排行榜采用多维度评估体系。模型得分基于 Elo 等级分系统,结合了数千次真实用户盲测(Arena)以及标准化基准测试结果。

  • 代码能力:HumanEval, MBPP 等基准测试。
  • 复杂推理:GSM8K, MATH 等逻辑推理任务。
  • 长文本:大海捞针 (Needle In A Haystack) 测试。

常见问题

数据更新频率?
模型发布后通常在 24-48 小时内更新初步评分,随后每周进行校准。
如何提交新模型?
厂商可通过官方渠道提交 API 密钥申请评估,或者等待社区投票通过后加入。