模型深度测评
基于真实数据与严谨方法的深度分析报告
MMLU
92.5
Gemini 3.5
大规模多任务语言理解
HumanEval
96.0
Claude 4.5
Python 编程能力测试
MATH
88.2
GPT-5.2
数学竞赛级问题求解
GPQA
78.5
Gemini 3.5
研究生级别科学问答
最新评测
Coding 2024-12-28 by AI 主理人团队
Claude 3.5 Sonnet vs. GPT-4o: 深度代码能力评测
我们使用 HumanEval 和 internal-bench 对两款顶尖模型进行了 500+ 道编程题目的盲测。
Long Context 2026-01-05 by AI Labs
Gemini 3.5 Pro 长文本大海捞针测试报告
在 2M context window 下,Gemini 3.5 Pro 展现了惊人的 100% 召回率。
Open Source 2025-12-10 by Community
2025 年度开源模型推理能力白皮书
Llama 5, DeepSeek-V4, Qwen 3 的综合推理能力横向对比。