评分公式
每一项评测在分类内做 z-score 归一化,再按以下权重加权得到 0–100 智能指数。 基准评测保证客观性、真实任务评测反映可用度、社区声誉提供发布速度与影响力的早期信号。
七类信息源
厂商 API / 模型库 / 官方博客
OpenAI、Anthropic、Google AI Studio、xAI、阿里云百炼、火山方舟、智谱开放平台、HuggingFace Hub。直接调用首方 API 跑评测、抓取定价与版本号。
arXiv / OpenReview / PapersWithCode
每日抓取 arXiv cs.CL/cs.AI 新论文摘要,通过关键词 + 分类器过滤大模型相关论文;PapersWithCode 同步榜单分数;HuggingFace Daily Papers 提供编辑精选。
LMSYS Arena / OpenLLM / 司南
LMSYS Chatbot Arena 提供 ELO 历史;OpenLLM Leaderboard 提供开源模型得分;OpenCompass 司南、SuperCLUE、HELM 等覆盖中英文。每日拉一次。
GitHub / HuggingFace / NPM
追踪 Star/Fork/Issue/PR 速度;HF 模型周下载量;NPM/PyPI 包下载量。这是「真实采用度」最硬的指标之一,也是判断开源模型生态健康度的关键。
微博 / 知乎 / 微信公众号
微博话题热度、知乎问答 + 高赞回答、微信公众号文章(仅 Open Search 公开页面)。用情感分类 + 命名实体识别提取模型/工具提及与情绪倾向。
B 站 / 抖音 / 小红书 / YouTube
抓取标题、tag、播放量、点赞收藏比、评论关键词。例如「Sora 2 实测」「Cursor 教程」类视频量与情感倾向反映工具被开发者真实采用的速度。
X (Twitter) / Reddit / HN
X API v2 抓取 AI 大 V 与官方账号;Reddit r/LocalLLaMA、r/MachineLearning 等子版;HackerNews 每日 Top。事件第一发布渠道。
Nexus Lab 试用 + 企业私部
Lab 试用页的用户盲评结果直接进入 RealTaskScore;企业版可对接私域 prompt 与人类评分员,输出"内部专属智能指数"。
采集与评分流程
抓取
调度器每日按源触发抓取任务,含 RSS、官方 API、第三方 API、网页抓取、视频元数据等。
清洗
去重、降噪、语言识别、实体识别(模型名 / 工具名 / 厂商)、情感分类(正/中/负)。
评测
新模型自动进入评测队列:跑 10 项核心 benchmark,记录 token 用量、延迟、价格。
加权打分
z-score 归一化、加权公式、社区热度归一化、版本化分数入库(含历史曲线)。
发布
静态导出 JSON / CSV 到 CDN,前端 Nexus 中台增量加载;触发 Webhook 给企业内部。
推荐技术栈
合规与边界
✅ 可以放心做
- 调用厂商的官方付费 API 跑评测。
- 抓取 arXiv、HuggingFace、GitHub 公开数据(API 限流内)。
- 使用 LMSYS Arena、PapersWithCode 等公开榜单数据。
- YouTube Data API、Reddit API、HackerNews Firebase。
- X API 付费套餐(v2 Basic / Pro)。
- 用户在 Nexus Lab 主动提交的盲评数据。
⚠️ 需要审慎
- B 站、微博、知乎:建议遵守 robots.txt、限频、不存原文,只存指标聚合值。
- 微信公众号:使用第三方聚合 API(NewRank/清博)合规拿榜,不要直接爬。
- 小红书 / 抖音:反爬强、ToS 明确禁止;建议外采或人工抽样。
- 用户身份去标识化、删除可关联 PII,存聚合指标而非原始内容。
⛔ 不要碰
- 违反 ToS 的爬取(绕 IP/绕登录/伪造身份)。
- 采集与存储个人信息(手机号、身份证、定位等)。
- 抓取付费墙后内容(如某 GPT 私有评测结果)。
- 用爬取数据进行未经授权的二次商业分发(如售卖榜单原始数据)。
实施路线图
MVP 骨架
- 静态前端(已完成)
- 接入 arXiv / HF / GitHub / PWC
- 接入 LMSYS Arena 数据
- JSON 文件版数据库,每日 GitHub Action 更新
自动评测
- 部署 vLLM / OpenCompass 集群
- 10 项核心 benchmark 流水线
- 价格 / 速度自动抓取
- PostgreSQL + 历史曲线
社媒热度
- B 站 / Reddit / X 自有抓取
- 微博 / 微信 / 小红书 接入第三方
- NER 模型识别 model/tool
- 情感与提及量入库
商业化
- 企业版私域评测
- API 与 Webhook 输出
- 实时大屏 / 日报
- 对接 BI 工具