数据扒取部 · 专业知识库

只放链接 + 一句话启发,不复制全文。全文住 04_公司记忆/源材料库/

目录骨架

专业知识库/
├── README.md
├── OSINT方法论/
│   ├── Bellingcat调查手册_启发.md
│   ├── 地理定位方法论_启发.md
│   └── 时间线重建方法论_启发.md
├── 爬虫工程/
│   ├── Scrapy最佳实践_启发.md
│   ├── robots协议_启发.md
│   └── 反爬识别清单_启发.md
├── 权威源图谱/
│   ├── 学术源分级_T1-T7.md
│   ├── 行业分析机构清单.md
│   └── 政府开放数据源.md
├── 合规红线/
│   ├── 平台服务条款要点.md
│   ├── 数据保护法要点.md
│   └── Aaron_Swartz案例_教训.md
└── 工具链/
    ├── RSS聚合器选型.md
    ├── 网页归档工具.md
    └── OCR与多模态抓取.md

T1-T7 源分级(数据扒取部特化)

数据扒取部视角
T1 arXiv / OpenReview / 顶会官网
T2 Semantic Scholar / PubMed
T3 W3C / ISO / 政府开放数据
T4 MIT OCW / Stanford / Berkeley 公开课
T5 Google Research / Meta AI / OpenAI Blog
T6 HackerNews / 公开白皮书
T7 培训机构 / 认证文档
T8⬇️ 禁止(营销号 / 抖音 / 自媒体搬运)

红线