让评测可复现、可对比、可信任。
Nexus 中台坚持独立第三方评测原则:所有评测在统一硬件、统一温度、统一 system prompt 下运行,不接受任何厂商赞助修改测试集,所有结果对外开放。
评测方法论
统一运行环境
所有评测在统一 GPU 集群(H100 / H200)或厂商首方 API 上运行;闭源模型使用官方 SDK 接入,开源模型使用 vLLM / SGLang 部署。温度 0.2、Top-P 0.95、最大 16K 输出。
10 项核心评测
覆盖推理(GPQA Diamond、HLE、CritPt)、编程(SWE-Bench、Terminal-Bench Hard)、智能体(𝜏²-Bench、GDPval-AA)、知识(AA-Omniscience)、长上下文(AA-LCR)与指令遵循(IFBench)。
加权得到智能指数
每项评测在分类内 z-score 归一化,再按权重(推理 20%、编程 18%、智能体 18%、数学 10%、知识 12%、多模态 8%、长上下文 8%、指令 6%)加权得到 0-100 智能指数。
性能与成本
独立测试集发送 100 条 prompt,记录 P50 首字延迟与稳定输出速度。价格直接采用厂商公示价,3:1 输入输出混合得到 blended 价格便于横向比较。
每周回归测试
所有模型每周日凌晨重跑一次(开源模型按 release 触发),结果回填到历史曲线。监测到回归 ±2 分以上将在资讯页发布异动提醒。
开放数据
所有评测原始日志、Prompt、得分明细以 CC-BY 协议开放下载,欢迎研究机构与开发者参与复现。提交 Issue 可申请新增模型或基准。
基准集介绍
常见问题
评测频率是怎样的?
所有已收录模型每周回归一次,新发布模型 72 小时内首次评测。
智能指数为什么不直接用某一项评测?
单一基准容易被「过拟合」,加权多项可以避免厂商针对榜单专门优化。
价格数据如何采集?
采用各厂商官网/Dashboard 公示价,每日同步一次;自托管模型按云端推理参考价。
如何提交新模型?
在 GitHub Issue 中提交模型 ID、API 端点或 HuggingFace 链接,72 小时内完成首次评测。