官方数据 · 模型对比 · 2026年6月

主流大模型官方数据对比

汇总 Artificial Analysis、Scale SEAL 与各厂商模型卡披露的公开指标,覆盖编程、智能体、综合智能与价格等维度。

硬指标对照

领域 / 基准 美国前沿 国产主力
Claude Opus 4.8 GPT-5.5 Gemini 3.1 Pro Qwen 3.7 Max DeepSeek V4-Pro 豆包 Seed 2.0 Pro
综合智能Artificial Analysis 智能指数 61.4AA · #1 60.2AA · #2 57AA 57AA · 国产最高 第二档 第二档
编程SWE-bench Verified · 真实代码修复 % 88.6Scale/官方 88.7Scale/官方 80.6官方 80.4官方 80.6官方 76.5官方
智能体 / 终端Terminal-Bench 2.0 · 自主操作 % 82.7Scale 69.7Scale 67.9官方 55.8官方
科学 · 生物GPQA Diamond · 研究生级生化物 % ≈94AA 94.3AA 92.4AA 88.9官方
价格输出 · 美元 / 百万 token · 越低越省 $25官方 $30官方 $12官方 $7.5官方 $0.87官方 $2.37官方
评测机构缩写:AA = Artificial Analysis;Scale = Scale SEAL / Terminal-Bench;官方 = 各厂商模型卡。采集于 2026 年 6 月。GPQA「科学·生物」为研究生级生化物综合题,非纯基因功能测试;SWE-bench / Terminal-Bench 对测试脚手架敏感,跨厂商比较作量级参考。标 ≈ 为推算,「—」为官方未单独披露。榜单每周变动,演示前请二次核对。

基准得分与价格

切换领域查看各基准得分与输出价格的对应关系,仅展示有公开数据的模型。