来源索引 ·

这份索引是数据扒取部的"地图"——记录去哪里扒、扒之前要怎么判断可信度、扒之后要挂什么标签。所有对外交付的情报必须引用本索引中的来源 ID,不允许裸链接。


一、T1-T7 来源分级 + 判定公式

每个 Tier 有硬标准,不靠感觉。判定时逐条勾选,达不到下探一档。

Tier 类别 判定公式(必须全部满足) 典型示例
T1 学术顶刊/顶会 ① 经同行评审 ② JCR Q1 或 CORE A/A* 或同等 ③ 有 DOI ④ 作者机构可查 Nature / Science / NeurIPS / ACL / CVPR
T2 权威行业媒体 ① 有主编 + 编辑部 ② 发行 ≥5 年 ③ 引用该源的 T1 论文 ≥10 篇 ④ 有事实核查声明 MIT Tech Review / The Economist / Wired
T3 标准/法规/白皮书 ① 发布主体是政府/国际组织/标准委员会 ② 公开可查原文 ③ 有版本号和发布日期 GB/T / ISO / NIST / EU AI Act 官方文本
T4 大学/研究机构 ① 机构在 QS 前 200 或同等 ② 作者可查 PhD/Faculty 身份 ③ 发布于机构官网或官方预印本平台 清华 KEG / Stanford HAI / MIT CSAIL
T5 科技巨头官方 ① 官方域名 ② 有作者署名或团队署名 ③ 非营销稿(区别于 PR 发布) OpenAI Blog / Google Research / Meta AI
T6 咨询/分析报告 ① 咨询公司有 ≥10 年历史 ② 报告标注方法论 ③ 样本量和时间窗口可查 McKinsey / Gartner / CB Insights / IDC
T7 培训/自媒体/社区 ① 作者身份可验证 ② 有明显倾向性或商业利益 ③ 需交叉验证才能使用 公众号 / Substack / 知乎 / X 推文

1.1 降档规则(必读)

1.2 冲突裁决

两源结论冲突时,按以下顺序定胜负: 1. 高 Tier 胜低 Tier(T1 胜 T7) 2. 同 Tier 时,更近日期胜(3 个月内) 3. 同 Tier 同期时,多源一致的一方胜 4. 仍无法裁决 → 标记"悬而未决",送 CEO 复议


二、Admiralty Code · 置信度矩阵

OSINT 行业标准(NATO 通用)。每条情报必须同时打两个字母数字标签:来源可靠性(A-F)× 信息置信度(1-6)。

2.1 来源可靠性(Source Reliability)

代码 含义 用于
A 完全可靠 官方文件、标准法规、同行评审论文
B 通常可靠 权威媒体、大厂官方、知名咨询公司
C 中等可靠 有一定背书但有立场的来源
D 不太可靠 匿名来源、未经核实的社媒爆料
E 不可靠 已被证实多次错误的来源
F 无法评估 第一次见到的新来源

2.2 信息置信度(Information Credibility)

代码 含义 判定标准
1 已确认 ≥3 个独立 A/B 级来源交叉验证
2 很可能真实 2 个 A/B 级来源一致
3 可能真实 1 个 A/B 级来源 + 逻辑自洽
4 真实性存疑 仅单源 + 未经交叉验证
5 不太可能真实 与已有高 Tier 信息冲突
6 无法评估 信息过于新,无参照

2.3 T1-T7 ↔ Admiralty 对照参考

Tier 典型 Admiralty 场景
T1 A1 ~ A2 同行评审 + 多源引用
T2 A2 ~ B2 权威媒体单源报道
T3 A1 官方原文
T4 A2 ~ B2 大学研究 / 预印本
T5 B2 ~ B3 大厂官方(有立场)
T6 B2 ~ C3 咨询报告(方法论决定)
T7 C3 ~ E5 自媒体 / 社区 / 匿名

硬规则: - 对外交付的"事实陈述",最低 B2 - "趋势判断 / 观点引用",最低 C3 - D/E/F 级来源只能做线索,不能做结论


三、来源登记表

ID 来源名称 URL Tier Admiralty 访问方式 合规标签 上次使用 失效? 备注
S001 T_ _ _ A(公开) / B(登录) / C(付费) 🟢可公开爬 / 🟡需留同意 / 🔴禁爬
S002 T_ _ _ A / B / C 🟢 / 🟡 / 🔴
S003 T_ _ _ A / B / C 🟢 / 🟡 / 🔴

3.1 访问方式说明

3.2 合规标签说明

红线:标 🔴 的来源绝对不进本索引。详见 专业知识库/OSINT_红线清单.md


四、订阅清单

4.1 RSS 订阅

# 名称 来源 ID RSS URL 更新频率 关注重点
1 S___ 日/周/月
2 S___

4.2 邮件订阅

# 名称 来源 ID 订阅邮箱 频率 状态
1 S___ 日刊 / 周刊 活跃 / 已退订

4.3 API 接入

# 服务名 来源 ID API 文档 Key 存放位置 免费配额 合规核验
1 S___ .env 密钥名 ✅ 已读 ToS

五、失效来源台账

失效后不删除,保留历史记录。每月由 R07 CKO 月结时复盘。

ID 来源名称 原 URL 失效日期 失效原因 替代来源 ID 复评日期
S___ 404 / 付费墙 / 关停 / 政策 S___

5.1 失效检测 SOP(每周一 R04 自检)

  1. 遍历所有 S 开头来源,HEAD 请求检查
  2. 返回 ≥400 → 标"疑似失效",人工复核
  3. 确认失效 → 移到本节,在登记表标"失效? ✅"
  4. 3 个月内无可用替代 → 送 R07 CKO 评估是否从相关 SOP 中移除引用

六、本索引维护规则