模型深度测评

基于真实数据与严谨方法的深度分析报告

MMLU

92.5

Gemini 3.5

大规模多任务语言理解

HumanEval

96.0

Claude 4.5

Python 编程能力测试

MATH

88.2

GPT-5.2

数学竞赛级问题求解

GPQA

78.5

Gemini 3.5

研究生级别科学问答

最新评测

Coding 2024-12-28 by AI 主理人团队

我们使用 HumanEval 和 internal-bench 对两款顶尖模型进行了 500+ 道编程题目的盲测。

Long Context 2026-01-05 by AI Labs

在 2M context window 下，Gemini 3.5 Pro 展现了惊人的 100% 召回率。

Open Source 2025-12-10 by Community

Llama 5, DeepSeek-V4, Qwen 3 的综合推理能力横向对比。