数据源与评分管道

给业务与领导的说明（重要）

本页展示的智能指数、价格与部分 KPI在演示环境中为手工整理或示例数据，用于产品形态与交互验证；并非已全自动爬取 B 站、小红书、微信公众号、抖音等全量内容后实时算分。若要兑现「多源采集 + 自动评测 + 可审计分数」，需要按下方「数据源」页的管道落地：官方 API / 公开榜单 / 合规第三方舆情为主力，社媒热度仅作低权重早期信号，且多数国内平台需自有后端或合规外采（前端无法直接跨域抓取）。顶部跑马灯已接 Hacker News 热帖（可关）与可配置 JSON 接口，便于研发对接公司统一资讯中台。

七类信息源 → 实施路线图

信息源类型

7

官方 / 学术 / 评测 / 社媒 / 视频 / 社区 / 企业自评

每日采集量

目标

满负荷调度下的规划吞吐（非当前演示环境实时值）

评分维度

10

智能 / 编程 / 智能体 / 推理 / 数学 / 知识 / 多模态 / 长上下文 / 指令 / 安全

回归周期

7d

所有已收录模型每周日凌晨整体回归一次

评分公式

智能指数 = 基准评测 (60%) + 真实任务 (25%) + 社区声誉 (15%)

每一项评测在分类内做 z-score 归一化，再按以下权重加权得到 0–100 智能指数。基准评测保证客观性、真实任务评测反映可用度、社区声誉提供发布速度与影响力的早期信号。

Intelligence = 0.60 · BenchmarkScore + 0.25 · RealTaskScore + 0.15 · CommunityScore BenchmarkScore = Σᵢ wᵢ · zscore(eval_iᵢ) eval = { GPQA-D, HLE, CritPt, GDPval-AA, τ²-Bench, Terminal-Bench-Hard, SciCode, IFBench, AA-LCR, AA-Omniscience } RealTaskScore = α · NexusInternal + β · UserSubmittedReplay α = 0.7, β = 0.3 （用户回放任务来自 Lab 试用埋点） CommunityScore = γ₁ · log(GitHubStars + HFLikes) + γ₂ · ArenaELO_normalized + γ₃ · SocialTrendIndex（B站/小红书/抖音/微信热度归一化） SocialTrendIndex 仅作信号，权重上限 5%，避免「炒作覆盖事实」。

七类信息源

按可获取性 / 合规度 / 信噪比排序，下表展示每类的具体方法与可行性。

官

官方源 · 最高优先级

厂商 API / 模型库 / 官方博客

OpenAI、Anthropic、Google AI Studio、xAI、阿里云百炼、火山方舟、智谱开放平台、HuggingFace Hub。直接调用首方 API 跑评测、抓取定价与版本号。

合规 ✓ RSS / Sitemap 官方 API

可行性：高（含付费 API 成本）

学

学术源 · 评测金标准

arXiv / OpenReview / PapersWithCode

每日抓取 arXiv cs.CL/cs.AI 新论文摘要，通过关键词 + 分类器过滤大模型相关论文；PapersWithCode 同步榜单分数；HuggingFace Daily Papers 提供编辑精选。

CC-BY / 公开 arXiv API PWC API

可行性：高

榜

公开评测榜单

LMSYS Arena / OpenLLM / 司南

LMSYS Chatbot Arena 提供 ELO 历史；OpenLLM Leaderboard 提供开源模型得分；OpenCompass 司南、SuperCLUE、HELM 等覆盖中英文。每日拉一次。

公开 JSON API CSV 快照

可行性：高

码

代码生态 · 真实使用度

GitHub / HuggingFace / NPM

追踪 Star/Fork/Issue/PR 速度；HF 模型周下载量；NPM/PyPI 包下载量。这是「真实采用度」最硬的指标之一，也是判断开源模型生态健康度的关键。

GraphQL API HF API npm registry

可行性：高

媒

中文社媒 · 早期热度信号

微博 / 知乎 / 微信公众号

微博话题热度、知乎问答 + 高赞回答、微信公众号文章（仅 Open Search 公开页面）。用情感分类 + 命名实体识别提取模型/工具提及与情绪倾向。

需登录 / 反爬 robots 限制第三方聚合

可行性：中（建议接入第三方聚合 API，如 NewRank、清博）

视

视频平台 · 直观体验信号

B 站 / 抖音 / 小红书 / YouTube

抓取标题、tag、播放量、点赞收藏比、评论关键词。例如「Sora 2 实测」「Cursor 教程」类视频量与情感倾向反映工具被开发者真实采用的速度。

需脱敏 / 限频小红书反爬严格 YouTube Data API ✓

可行性：中（B 站有非官方 API；小红书/抖音建议外采）

推

英文社媒 · 全球信号

X (Twitter) / Reddit / HN

X API v2 抓取 AI 大 V 与官方账号；Reddit r/LocalLLaMA、r/MachineLearning 等子版；HackerNews 每日 Top。事件第一发布渠道。

X API 已付费 Reddit API HN Firebase

可行性：高（X 需 $100/月起的 Basic 套餐）

私

私域 · 用户行为回放

Nexus Lab 试用 + 企业私部

Lab 试用页的用户盲评结果直接进入 RealTaskScore；企业版可对接私域 prompt 与人类评分员，输出"内部专属智能指数"。

合规 ✓ 自有数据埋点 PostHog / 自研

可行性：高

采集与评分流程

5 个阶段，全部模块化设计，每一步都可单独替换或扩展。

01 · COLLECT

抓取

调度器每日按源触发抓取任务，含 RSS、官方 API、第三方 API、网页抓取、视频元数据等。

技术栈：Scrapy / Playwright / 自研 worker / 厂商 SDK

02 · CLEAN

清洗

去重、降噪、语言识别、实体识别（模型名 / 工具名 / 厂商）、情感分类（正/中/负）。

技术栈：spaCy / Jieba / 自研 NER / 小模型 LLM

03 · EVAL

评测

新模型自动进入评测队列：跑 10 项核心 benchmark，记录 token 用量、延迟、价格。

技术栈：lm-eval-harness / OpenCompass / vLLM / Stirrup

04 · SCORE

加权打分

z-score 归一化、加权公式、社区热度归一化、版本化分数入库（含历史曲线）。

技术栈：DuckDB / ClickHouse / Pandas / 自研 scorer

05 · PUBLISH

发布

静态导出 JSON / CSV 到 CDN，前端 Nexus 中台增量加载；触发 Webhook 给企业内部。

技术栈：S3 / Cloudflare R2 / 前端静态站

合规与边界

绿色 = 完全合规；黄色 = 需要审慎；红色 = 不要碰。

✅ 可以放心做

调用厂商的官方付费 API 跑评测。
抓取 arXiv、HuggingFace、GitHub 公开数据（API 限流内）。
使用 LMSYS Arena、PapersWithCode 等公开榜单数据。
YouTube Data API、Reddit API、HackerNews Firebase。
X API 付费套餐（v2 Basic / Pro）。
用户在 Nexus Lab 主动提交的盲评数据。

⚠️ 需要审慎

B 站、微博、知乎：建议遵守 robots.txt、限频、不存原文，只存指标聚合值。
微信公众号：使用第三方聚合 API（NewRank/清博）合规拿榜，不要直接爬。
小红书 / 抖音：反爬强、ToS 明确禁止；建议外采或人工抽样。
用户身份去标识化、删除可关联 PII，存聚合指标而非原始内容。

⛔ 不要碰

违反 ToS 的爬取（绕 IP/绕登录/伪造身份）。
采集与存储个人信息（手机号、身份证、定位等）。
抓取付费墙后内容（如某 GPT 私有评测结果）。
用爬取数据进行未经授权的二次商业分发（如售卖榜单原始数据）。

实施路线图

建议公司研发分阶段落地，第一期 4 周 MVP，第四期可输出商业 SaaS。

PHASE 1 · 当前 · 第 1-4 周

MVP 骨架

静态前端（已完成）
接入 arXiv / HF / GitHub / PWC
接入 LMSYS Arena 数据
JSON 文件版数据库，每日 GitHub Action 更新

PHASE 2 · 第 5-8 周

自动评测

部署 vLLM / OpenCompass 集群
10 项核心 benchmark 流水线
价格 / 速度自动抓取
PostgreSQL + 历史曲线

PHASE 3 · 第 9-14 周

社媒热度

B 站 / Reddit / X 自有抓取
微博 / 微信 / 小红书接入第三方
NER 模型识别 model/tool
情感与提及量入库

PHASE 4 · 第 15-20 周

商业化

企业版私域评测
API 与 Webhook 输出
实时大屏 / 日报
对接 BI 工具

各信息源信噪比对比

横轴 = 时效性（越右越实时）；纵轴 = 信号可信度（越高越可靠）；圆圈大小 = 数据量级。

一句话总结

Nexus 中台的分数 = 客观评测（占大头） + 真实使用度（GitHub/HF 下载、Lab 试用回放） + 社区热度信号（B 站/小红书/X 等，权重 ≤15%）。其中客观评测对应业界公开基准；真实使用度防止「跑分高但没人用」；社区信号提供新模型的早期发现能力，但不会让"营销稿"影响最终排名。所有原始抓取、归一化与加权过程都对外公开，可复核可复现。

查看评测方法详情查看最新动态

Nexus 的分数从哪里来？

给业务与领导的说明（重要）

评分公式

七类信息源

厂商 API / 模型库 / 官方博客

arXiv / OpenReview / PapersWithCode

LMSYS Arena / OpenLLM / 司南

GitHub / HuggingFace / NPM

微博 / 知乎 / 微信公众号

B 站 / 抖音 / 小红书 / YouTube

X (Twitter) / Reddit / HN

Nexus Lab 试用 + 企业私部

采集与评分流程

抓取

清洗

评测

加权打分

发布

推荐技术栈

合规与边界

✅ 可以放心做

⚠️ 需要审慎

⛔ 不要碰

实施路线图

MVP 骨架

自动评测

社媒热度

商业化

各信息源信噪比对比

一句话总结

Nexus 的 分数 从哪里来？

给业务与领导的说明（重要）

评分公式

七类信息源

厂商 API / 模型库 / 官方博客

arXiv / OpenReview / PapersWithCode

LMSYS Arena / OpenLLM / 司南

GitHub / HuggingFace / NPM

微博 / 知乎 / 微信公众号

B 站 / 抖音 / 小红书 / YouTube

X (Twitter) / Reddit / HN

Nexus Lab 试用 + 企业私部

采集与评分流程

抓取

清洗

评测

加权打分

发布

推荐技术栈

合规与边界

✅ 可以放心做

⚠️ 需要审慎

⛔ 不要碰

实施路线图

MVP 骨架

自动评测

社媒热度

商业化

各信息源信噪比对比

一句话总结

Nexus 的分数从哪里来？