Nexus 智能指数 v4

让评测可复现、可对比、可信任。

Nexus 中台坚持独立第三方评测原则：所有评测在统一硬件、统一温度、统一 system prompt 下运行，不接受任何厂商赞助修改测试集，所有结果对外开放。

评测方法论

从数据采集到加权计算，整个流程公开透明。

统一运行环境

所有评测在统一 GPU 集群（H100 / H200）或厂商首方 API 上运行；闭源模型使用官方 SDK 接入，开源模型使用 vLLM / SGLang 部署。温度 0.2、Top-P 0.95、最大 16K 输出。

10 项核心评测

覆盖推理（GPQA Diamond、HLE、CritPt）、编程（SWE-Bench、Terminal-Bench Hard）、智能体（𝜏²-Bench、GDPval-AA）、知识（AA-Omniscience）、长上下文（AA-LCR）与指令遵循（IFBench）。

加权得到智能指数

每项评测在分类内 z-score 归一化，再按权重（推理 20%、编程 18%、智能体 18%、数学 10%、知识 12%、多模态 8%、长上下文 8%、指令 6%）加权得到 0-100 智能指数。

性能与成本

独立测试集发送 100 条 prompt，记录 P50 首字延迟与稳定输出速度。价格直接采用厂商公示价，3:1 输入输出混合得到 blended 价格便于横向比较。

每周回归测试

所有模型每周日凌晨重跑一次（开源模型按 release 触发），结果回填到历史曲线。监测到回归 ±2 分以上将在资讯页发布异动提醒。

开放数据

所有评测原始日志、Prompt、得分明细以 CC-BY 协议开放下载，欢迎研究机构与开发者参与复现。提交 Issue 可申请新增模型或基准。

基准集介绍

智能指数所采用的 10 项核心基准。

智能体

GDPval-AA

真实经济价值任务，覆盖法律、工程、设计等职业，ELO 衡量端到端完成能力。

智能体

𝜏²-Bench Telecom

长任务工具调用基准，模拟真实运营商客服场景，包含多步规划与失败恢复。

编程

Terminal-Bench Hard

面向终端的 SWE 任务集合，要求 Agent 自主使用 Shell、Python、Git 完成。

编程

SciCode

科学计算编程基准，覆盖物理、生物、统计领域的 100 道高难度题目。

长上下文

AA-LCR

128K-2M 上下文的多文档检索与推理评测，模拟法律、研究真实长文档场景。

知识

AA-Omniscience

奖励正确、惩罚幻觉、允许「不知道」，更真实反映模型可信度。

指令遵循

IFBench

复杂多重指令遵循基准，含格式、长度、多语种、JSON 结构等约束。

推理

Humanity's Last Exam

由全球 1,000+ 学者编写的高难度跨学科题目，少有可能被训练泄漏。

推理

GPQA Diamond

研究生级物理/化学/生物推理题目的 Diamond 子集，是经典的「智商上限」基准。

推理

CritPt

物理与工程推理基准，针对中长链条的临界点推断与因果分析。

常见问题

评测频率是怎样的？

所有已收录模型每周回归一次，新发布模型 72 小时内首次评测。

智能指数为什么不直接用某一项评测？

单一基准容易被「过拟合」，加权多项可以避免厂商针对榜单专门优化。

价格数据如何采集？

采用各厂商官网/Dashboard 公示价，每日同步一次；自托管模型按云端推理参考价。

如何提交新模型？

在 GitHub Issue 中提交模型 ID、API 端点或 HuggingFace 链接，72 小时内完成首次评测。

为团队定制评测

基于你的真实业务 prompt，Nexus 可输出私有评测报告与模型选型建议。

联系合作查看公开榜单