数据扒取部 · 专业知识库 只放链接 + 一句话启发,不复制全文。全文住 04_公司记忆/源材料库/。 目录骨架 专业知识库/ ├── README.md ├── OSINT方法论/ │ ├── Bellingcat调查手册_启发.md │ ├── 地理定位方法论_启发.md │ └── 时间线重建方法论_启发.md ├── 爬虫工程/ │ ├── Scrapy最佳实践_启发.md │ ├── robots协议_启发.md │ └── 反爬识别清单_启发.md ├── 权威源图谱/ │ ├── 学术源分级_T1-T7.md │ ├── 行业分析机构清单.md │ └── 政府开放数据源.md ├── 合规红线/ │ ├── 平台服务条款要点.md │ ├── 数据保护法要点.md │ └── Aaron_Swartz案例_教训.md └── 工具链/ ├── RSS聚合器选型.md ├── 网页归档工具.md └── OCR与多模态抓取.md T1-T7 源分级(数据扒取部特化) 级 数据扒取部视角 T1 arXiv / OpenReview / 顶会官网 T2 Semantic Scholar / PubMed T3 W3C / ISO / 政府开放数据 T4 MIT OCW / Stanford / Berkeley 公开课 T5 Google Research / Meta AI / OpenAI Blog T6 HackerNews / 公开白皮书 T7 培训机构 / 认证文档 T8⬇️ 禁止(营销号 / 抖音 / 自媒体搬运) 红线 ❌ 复制源材料全文到本库 ❌ 脱离源材料凭空写"启发" ❌ 非 CKO 走蒸馏流程的内容进本库