官方数据 · 模型对比 · 2026年6月
汇总 Artificial Analysis、Scale SEAL 与各厂商模型卡披露的公开指标,覆盖编程、智能体、综合智能与价格等维度。
| 领域 / 基准 | 美国前沿 | 国产主力 | ||||
|---|---|---|---|---|---|---|
| Claude Opus 4.8 | GPT-5.5 | Gemini 3.1 Pro | Qwen 3.7 Max | DeepSeek V4-Pro | 豆包 Seed 2.0 Pro | |
| 综合智能Artificial Analysis 智能指数 | 61.4AA · #1 | 60.2AA · #2 | 57AA | 57AA · 国产最高 | 第二档 | 第二档 |
| 编程SWE-bench Verified · 真实代码修复 % | 88.6Scale/官方 | 88.7Scale/官方 | 80.6官方 | 80.4官方 | 80.6官方 | 76.5官方 |
| 智能体 / 终端Terminal-Bench 2.0 · 自主操作 % | — | 82.7Scale | — | 69.7Scale | 67.9官方 | 55.8官方 |
| 科学 · 生物GPQA Diamond · 研究生级生化物 % | ≈94AA | — | 94.3AA | 92.4AA | — | 88.9官方 |
| 价格输出 · 美元 / 百万 token · 越低越省 | $25官方 | $30官方 | $12官方 | $7.5官方 | $0.87官方 | $2.37官方 |
切换领域查看各基准得分与输出价格的对应关系,仅展示有公开数据的模型。