AI 模型排行榜

透明、客观的 LLM 评估平台，连接 AI 与未来。

综合实力榜 (Overall)

排名	模型名称	综合得分	所属公司	最后更新
	Gemini 3.5 Pro	1520	Google	2026-01-02
	Claude 4.5 Opus	1498	Anthropic	2025-12-15
	GPT-5.2	1485	OpenAI	2025-11-20
#4	Grok 4.1	1483	xAI	2025-12-01
#5	DeepSeek-V4	1465	DeepSeek	2025-12-10
#6	Llama 5 405B	1450	Meta	2025-10-30
#7	Qwen 3 110B	1435	Alibaba	2025-11-05
#8	Mistral Large 3	1420	Mistral	2025-09-15

代码能力 (Coding)

#	模型	得分
	Gemini 3.5 Pro	1545
	Claude 4.5 Opus	1510
	DeepSeek-V4	1490
#4	GPT-5.2	1480
#5	Grok 4.1	1470

复杂推理 (Hard)

#	模型	得分
	Gemini 3.5 Pro	1510
	GPT-5.2	1500
	Claude 4.5 Opus	1495
#4	Grok 4.1	1485
#5	DeepSeek-V4	1450

长文本 (Long Context)

#	模型	得分
	Gemini 3.5 Pro	1530
	Claude 4.5 Opus	1520
	GPT-5.2	1490
#4	Grok 4.1	1460
#5	Llama 5 405B	1445

评分机制

AI 主理人排行榜采用多维度评估体系。模型得分基于 Elo 等级分系统，结合了数千次真实用户盲测（Arena）以及标准化基准测试结果。

代码能力：HumanEval, MBPP 等基准测试。
复杂推理：GSM8K, MATH 等逻辑推理任务。
长文本：大海捞针 (Needle In A Haystack) 测试。

常见问题

数据更新频率？

模型发布后通常在 24-48 小时内更新初步评分，随后每周进行校准。

如何提交新模型？

厂商可通过官方渠道提交 API 密钥申请评估，或者等待社区投票通过后加入。