Nexus 智能指数 v4

评测可复现、可对比、可信任。

Nexus 中台坚持独立第三方评测原则:所有评测在统一硬件、统一温度、统一 system prompt 下运行,不接受任何厂商赞助修改测试集,所有结果对外开放。

评测方法论

从数据采集到加权计算,整个流程公开透明。
01

统一运行环境

所有评测在统一 GPU 集群(H100 / H200)或厂商首方 API 上运行;闭源模型使用官方 SDK 接入,开源模型使用 vLLM / SGLang 部署。温度 0.2、Top-P 0.95、最大 16K 输出。

02

10 项核心评测

覆盖推理(GPQA Diamond、HLE、CritPt)、编程(SWE-Bench、Terminal-Bench Hard)、智能体(𝜏²-Bench、GDPval-AA)、知识(AA-Omniscience)、长上下文(AA-LCR)与指令遵循(IFBench)。

03

加权得到智能指数

每项评测在分类内 z-score 归一化,再按权重(推理 20%、编程 18%、智能体 18%、数学 10%、知识 12%、多模态 8%、长上下文 8%、指令 6%)加权得到 0-100 智能指数。

04

性能与成本

独立测试集发送 100 条 prompt,记录 P50 首字延迟与稳定输出速度。价格直接采用厂商公示价,3:1 输入输出混合得到 blended 价格便于横向比较。

05

每周回归测试

所有模型每周日凌晨重跑一次(开源模型按 release 触发),结果回填到历史曲线。监测到回归 ±2 分以上将在资讯页发布异动提醒。

06

开放数据

所有评测原始日志、Prompt、得分明细以 CC-BY 协议开放下载,欢迎研究机构与开发者参与复现。提交 Issue 可申请新增模型或基准。

基准集介绍

智能指数所采用的 10 项核心基准。
智能体
GDPval-AA
真实经济价值任务,覆盖法律、工程、设计等职业,ELO 衡量端到端完成能力。
智能体
𝜏²-Bench Telecom
长任务工具调用基准,模拟真实运营商客服场景,包含多步规划与失败恢复。
编程
Terminal-Bench Hard
面向终端的 SWE 任务集合,要求 Agent 自主使用 Shell、Python、Git 完成。
编程
SciCode
科学计算编程基准,覆盖物理、生物、统计领域的 100 道高难度题目。
长上下文
AA-LCR
128K-2M 上下文的多文档检索与推理评测,模拟法律、研究真实长文档场景。
知识
AA-Omniscience
奖励正确、惩罚幻觉、允许「不知道」,更真实反映模型可信度。
指令遵循
IFBench
复杂多重指令遵循基准,含格式、长度、多语种、JSON 结构等约束。
推理
Humanity's Last Exam
由全球 1,000+ 学者编写的高难度跨学科题目,少有可能被训练泄漏。
推理
GPQA Diamond
研究生级物理/化学/生物推理题目的 Diamond 子集,是经典的「智商上限」基准。
推理
CritPt
物理与工程推理基准,针对中长链条的临界点推断与因果分析。

常见问题

评测频率是怎样的?

所有已收录模型每周回归一次,新发布模型 72 小时内首次评测。

智能指数为什么不直接用某一项评测?

单一基准容易被「过拟合」,加权多项可以避免厂商针对榜单专门优化。

价格数据如何采集?

采用各厂商官网/Dashboard 公示价,每日同步一次;自托管模型按云端推理参考价。

如何提交新模型?

在 GitHub Issue 中提交模型 ID、API 端点或 HuggingFace 链接,72 小时内完成首次评测。

为团队定制评测

基于你的真实业务 prompt,Nexus 可输出私有评测报告与模型选型建议。
联系合作 查看公开榜单