公开透明 · 数据源 + 评分管道

Nexus 的 分数 从哪里来?

我们把所有信息源、抓取方法、加权公式与合规边界全部公开。任何人都可以复核某个分数的来源链路,也可基于本管道接入私域数据做内部评测。

给业务与领导的说明(重要)

本页展示的智能指数、价格与部分 KPI在演示环境中为手工整理或示例数据,用于产品形态与交互验证;并非已全自动爬取 B 站、小红书、微信公众号、抖音等全量内容后实时算分。 若要兑现「多源采集 + 自动评测 + 可审计分数」,需要按下方「数据源」页的管道落地:官方 API / 公开榜单 / 合规第三方舆情为主力,社媒热度仅作低权重早期信号,且多数国内平台需自有后端或合规外采(前端无法直接跨域抓取)。 顶部跑马灯已接 Hacker News 热帖(可关)与可配置 JSON 接口,便于研发对接公司统一资讯中台。

七类信息源 → 实施路线图
信息源类型
7
官方 / 学术 / 评测 / 社媒 / 视频 / 社区 / 企业自评
每日采集量
目标
满负荷调度下的规划吞吐(非当前演示环境实时值)
评分维度
10
智能 / 编程 / 智能体 / 推理 / 数学 / 知识 / 多模态 / 长上下文 / 指令 / 安全
回归周期
7d
所有已收录模型每周日凌晨整体回归一次

评分公式

智能指数 = 基准评测 (60%) + 真实任务 (25%) + 社区声誉 (15%)

每一项评测在分类内做 z-score 归一化,再按以下权重加权得到 0–100 智能指数。 基准评测保证客观性、真实任务评测反映可用度、社区声誉提供发布速度与影响力的早期信号。

Intelligence = 0.60 · BenchmarkScore + 0.25 · RealTaskScore + 0.15 · CommunityScore BenchmarkScore = Σᵢ wᵢ · zscore(eval_iᵢ) eval = { GPQA-D, HLE, CritPt, GDPval-AA, τ²-Bench, Terminal-Bench-Hard, SciCode, IFBench, AA-LCR, AA-Omniscience } RealTaskScore = α · NexusInternal + β · UserSubmittedReplay α = 0.7, β = 0.3 (用户回放任务来自 Lab 试用埋点) CommunityScore = γ₁ · log(GitHubStars + HFLikes) + γ₂ · ArenaELO_normalized + γ₃ · SocialTrendIndex(B站/小红书/抖音/微信热度归一化) SocialTrendIndex 仅作信号,权重上限 5%,避免「炒作覆盖事实」。

七类信息源

按可获取性 / 合规度 / 信噪比 排序,下表展示每类的具体方法与可行性。
官方源 · 最高优先级

厂商 API / 模型库 / 官方博客

OpenAI、Anthropic、Google AI Studio、xAI、阿里云百炼、火山方舟、智谱开放平台、HuggingFace Hub。直接调用首方 API 跑评测、抓取定价与版本号。

合规 ✓ RSS / Sitemap 官方 API
可行性:高(含付费 API 成本)
学术源 · 评测金标准

arXiv / OpenReview / PapersWithCode

每日抓取 arXiv cs.CL/cs.AI 新论文摘要,通过关键词 + 分类器过滤大模型相关论文;PapersWithCode 同步榜单分数;HuggingFace Daily Papers 提供编辑精选。

CC-BY / 公开 arXiv API PWC API
可行性:高
公开评测榜单

LMSYS Arena / OpenLLM / 司南

LMSYS Chatbot Arena 提供 ELO 历史;OpenLLM Leaderboard 提供开源模型得分;OpenCompass 司南、SuperCLUE、HELM 等覆盖中英文。每日拉一次。

公开 JSON API CSV 快照
可行性:高
代码生态 · 真实使用度

GitHub / HuggingFace / NPM

追踪 Star/Fork/Issue/PR 速度;HF 模型周下载量;NPM/PyPI 包下载量。这是「真实采用度」最硬的指标之一,也是判断开源模型生态健康度的关键。

GraphQL API HF API npm registry
可行性:高
中文社媒 · 早期热度信号

微博 / 知乎 / 微信公众号

微博话题热度、知乎问答 + 高赞回答、微信公众号文章(仅 Open Search 公开页面)。用情感分类 + 命名实体识别提取模型/工具提及与情绪倾向。

需登录 / 反爬 robots 限制 第三方聚合
可行性:中(建议接入第三方聚合 API,如 NewRank、清博)
视频平台 · 直观体验信号

B 站 / 抖音 / 小红书 / YouTube

抓取标题、tag、播放量、点赞收藏比、评论关键词。例如「Sora 2 实测」「Cursor 教程」类视频量与情感倾向反映工具被开发者真实采用的速度。

需脱敏 / 限频 小红书反爬严格 YouTube Data API ✓
可行性:中(B 站有非官方 API;小红书/抖音建议外采)
英文社媒 · 全球信号

X (Twitter) / Reddit / HN

X API v2 抓取 AI 大 V 与官方账号;Reddit r/LocalLLaMA、r/MachineLearning 等子版;HackerNews 每日 Top。事件第一发布渠道。

X API 已付费 Reddit API HN Firebase
可行性:高(X 需 $100/月起的 Basic 套餐)
私域 · 用户行为回放

Nexus Lab 试用 + 企业私部

Lab 试用页的用户盲评结果直接进入 RealTaskScore;企业版可对接私域 prompt 与人类评分员,输出"内部专属智能指数"。

合规 ✓ 自有数据 埋点 PostHog / 自研
可行性:高

采集与评分流程

5 个阶段,全部模块化设计,每一步都可单独替换或扩展。
01 · COLLECT

抓取

调度器每日按源触发抓取任务,含 RSS、官方 API、第三方 API、网页抓取、视频元数据等。

技术栈:Scrapy / Playwright / 自研 worker / 厂商 SDK
02 · CLEAN

清洗

去重、降噪、语言识别、实体识别(模型名 / 工具名 / 厂商)、情感分类(正/中/负)。

技术栈:spaCy / Jieba / 自研 NER / 小模型 LLM
03 · EVAL

评测

新模型自动进入评测队列:跑 10 项核心 benchmark,记录 token 用量、延迟、价格。

技术栈:lm-eval-harness / OpenCompass / vLLM / Stirrup
04 · SCORE

加权打分

z-score 归一化、加权公式、社区热度归一化、版本化分数入库(含历史曲线)。

技术栈:DuckDB / ClickHouse / Pandas / 自研 scorer
05 · PUBLISH

发布

静态导出 JSON / CSV 到 CDN,前端 Nexus 中台增量加载;触发 Webhook 给企业内部。

技术栈:S3 / Cloudflare R2 / 前端静态站

推荐技术栈

从零开始 4-6 周可上线 MVP,6-8 周覆盖全部社媒源。
调度
Prefect 3Airflow 2.10 Dagstercron + Redis
抓取
ScrapyPlaywright crawl4aiCrawlee FireCrawl SaaS
代理 / 反爬
BrightData芝麻代理 SmartproxyCloudflare WARP
第三方聚合 API
NewRank 微信榜清博舆情 Apify ActorsBright Data Datasets
NLP / 实体识别
spaCy + zh_core_webJieba UIE / PaddleNLP小尺寸 LLM 抽取
评测 Harness
lm-evaluation-harness OpenCompass 司南 HuggingFace LightEval SWE-Bench Pro
存储 / 分析
PostgreSQLClickHouse DuckDBS3 / OSS Parquet
前端 / 发布
Nexus 静态站 (本项目) CDN (CloudFront / Cloudflare) Webhook

合规与边界

绿色 = 完全合规;黄色 = 需要审慎;红色 = 不要碰。

✅ 可以放心做

  • 调用厂商的官方付费 API 跑评测。
  • 抓取 arXiv、HuggingFace、GitHub 公开数据(API 限流内)。
  • 使用 LMSYS Arena、PapersWithCode 等公开榜单数据。
  • YouTube Data API、Reddit API、HackerNews Firebase。
  • X API 付费套餐(v2 Basic / Pro)。
  • 用户在 Nexus Lab 主动提交的盲评数据。

⚠️ 需要审慎

  • B 站、微博、知乎:建议遵守 robots.txt、限频、不存原文,只存指标聚合值。
  • 微信公众号:使用第三方聚合 API(NewRank/清博)合规拿榜,不要直接爬。
  • 小红书 / 抖音:反爬强、ToS 明确禁止;建议外采或人工抽样。
  • 用户身份去标识化、删除可关联 PII,存聚合指标而非原始内容。

⛔ 不要碰

  • 违反 ToS 的爬取(绕 IP/绕登录/伪造身份)。
  • 采集与存储个人信息(手机号、身份证、定位等)。
  • 抓取付费墙后内容(如某 GPT 私有评测结果)。
  • 用爬取数据进行未经授权的二次商业分发(如售卖榜单原始数据)。

实施路线图

建议公司研发分阶段落地,第一期 4 周 MVP,第四期可输出商业 SaaS。
PHASE 1 · 当前 · 第 1-4 周

MVP 骨架

  • 静态前端(已完成)
  • 接入 arXiv / HF / GitHub / PWC
  • 接入 LMSYS Arena 数据
  • JSON 文件版数据库,每日 GitHub Action 更新
PHASE 2 · 第 5-8 周

自动评测

  • 部署 vLLM / OpenCompass 集群
  • 10 项核心 benchmark 流水线
  • 价格 / 速度自动抓取
  • PostgreSQL + 历史曲线
PHASE 3 · 第 9-14 周

社媒热度

  • B 站 / Reddit / X 自有抓取
  • 微博 / 微信 / 小红书 接入第三方
  • NER 模型识别 model/tool
  • 情感与提及量入库
PHASE 4 · 第 15-20 周

商业化

  • 企业版私域评测
  • API 与 Webhook 输出
  • 实时大屏 / 日报
  • 对接 BI 工具

各信息源信噪比对比

横轴 = 时效性(越右越实时);纵轴 = 信号可信度(越高越可靠);圆圈大小 = 数据量级。

一句话总结

Nexus 中台的分数 = 客观评测(占大头) + 真实使用度(GitHub/HF 下载、Lab 试用回放) + 社区热度信号(B 站/小红书/X 等,权重 ≤15%)。 其中客观评测对应业界公开基准;真实使用度防止「跑分高但没人用」;社区信号提供新模型的早期发现能力,但不会让"营销稿"影响最终排名。所有原始抓取、归一化与加权过程都对外公开,可复核可复现。

查看评测方法详情 查看最新动态