主流模型官方数据对比

硬指标对照

评测机构缩写:AA = Artificial Analysis;Scale = Scale SEAL / Terminal-Bench;官方 = 各厂商模型卡。采集于 2026 年 6 月。GPQA「科学·生物」为研究生级生化物综合题,非纯基因功能测试;SWE-bench / Terminal-Bench 对测试脚手架敏感,跨厂商比较作量级参考。标 ≈ 为推算,「—」为官方未单独披露。榜单每周变动,演示前请二次核对。
领域 / 基准	美国前沿			国产主力
领域 / 基准	Claude Opus 4.8	GPT-5.5	Gemini 3.1 Pro	Qwen 3.7 Max	DeepSeek V4-Pro	豆包 Seed 2.0 Pro
综合智能Artificial Analysis 智能指数	61.4AA · #1	60.2AA · #2	57AA	57AA · 国产最高	第二档	第二档
编程SWE-bench Verified · 真实代码修复 %	88.6Scale/官方	88.7Scale/官方	80.6官方	80.4官方	80.6官方	76.5官方
智能体 / 终端Terminal-Bench 2.0 · 自主操作 %	—	82.7Scale	—	69.7Scale	67.9官方	55.8官方
科学 · 生物GPQA Diamond · 研究生级生化物 %	≈94AA	—	94.3AA	92.4AA	—	88.9官方
价格输出 · 美元 / 百万 token · 越低越省	$25官方	$30官方	$12官方	$7.5官方	$0.87官方	$2.37官方