数据扒取部 · 专业知识库

只放链接 + 一句话启发，不复制全文。全文住 04_公司记忆/源材料库/。

目录骨架

专业知识库/
├── README.md
├── OSINT方法论/
│   ├── Bellingcat调查手册_启发.md
│   ├── 地理定位方法论_启发.md
│   └── 时间线重建方法论_启发.md
├── 爬虫工程/
│   ├── Scrapy最佳实践_启发.md
│   ├── robots协议_启发.md
│   └── 反爬识别清单_启发.md
├── 权威源图谱/
│   ├── 学术源分级_T1-T7.md
│   ├── 行业分析机构清单.md
│   └── 政府开放数据源.md
├── 合规红线/
│   ├── 平台服务条款要点.md
│   ├── 数据保护法要点.md
│   └── Aaron_Swartz案例_教训.md
└── 工具链/
    ├── RSS聚合器选型.md
    ├── 网页归档工具.md
    └── OCR与多模态抓取.md

T1-T7 源分级（数据扒取部特化）

级	数据扒取部视角
T1	arXiv / OpenReview / 顶会官网
T2	Semantic Scholar / PubMed
T3	W3C / ISO / 政府开放数据
T4	MIT OCW / Stanford / Berkeley 公开课
T5	Google Research / Meta AI / OpenAI Blog
T6	HackerNews / 公开白皮书
T7	培训机构 / 认证文档
T8⬇️	禁止（营销号 / 抖音 / 自媒体搬运）

红线

❌ 复制源材料全文到本库
❌ 脱离源材料凭空写"启发"
❌ 非 CKO 走蒸馏流程的内容进本库