被动任务 SOP · A/B/C 三档 + 合法采集矩阵 触发:项目进入《项目入口 SOP》第 5 步,岗位提出"我需要什么资料"。 目标:在合法前提下,给每个岗位送上最新、最权威、最好用的信息源,让公司决策不缺料。 1. 接单动作 读岗位的需求清单(要查什么主题、要什么类型的源、权威度底线) 对照《权威金字塔》(T1–T7 分级),判断本次最低要扒到哪一级 把需求拆成三类:A 档能扒的 / B 档需用户配合的 / C 档放弃的 立刻开工 A 档,同时把 B 档清单返给用户确认,C 档直接标注放弃并说明原因 2. A 档 · 系统独立可采集(优先级最高) 定义:开放、合法、无需登录、无反爬阻拦、robots 允许。 原则:源要多、要新、要权威、要覆盖各行各业。以下白名单按领域分类,CEO 的 4 大主航道(AI / 产品 / 设计 / 商业)优先级最高,其他行业作为跨界雷达。 2.1 学术论文 · AI / CS / 数据科学(T1) 源 权威级 扒取方式 备注 arXiv.org T1 官方 API + RSS cs.AI/cs.CL/cs.LG/cs.CV 分区订阅 SSRN T1 RSS 社会科学 / 商科 Semantic Scholar Graph API T1 API 论文引用图谱、影响力 Papers With Code T1 API + 静态页 论文 ↔ 代码 ↔ SOTA 榜 Hugging Face Papers T1 静态页 / RSS 每日精选 AI 论文 OpenReview T1 API ICLR/NeurIPS 公开评审 ACL Anthology T1 静态下载 NLP 顶会全量免费 NeurIPS Proceedings T1 静态下载 年度全量 ICML Proceedings (PMLR) T1 静态下载 机器学习顶会 CVF Open Access(CVPR/ICCV/ECCV) T1 静态下载 视觉顶会 AAAI Proceedings T1 静态 人工智能综合 DOAJ T1 API 开放获取期刊目录 Connected Papers T1 静态页 可视化相关论文 Zeta Alpha T1 RSS AI 论文趋势推荐 DistillPub / BAIR Blog / Gradient T2 RSS 论文可视化长文 2.2 学术论文 · 生命科学 / 医学 / 交叉学科(T1) 源 权威级 备注 PubMed / PubMed Central T1 NIH 医学 bioRxiv / medRxiv T1 生命科学预印本 Cochrane Library 摘要 T1 循证医学 Nature / Science / Cell 官方 RSS(摘要) T1 顶刊头条 2.3 AI 工程 · 前沿工业博客(T2–T5) 源 类型 备注 Anthropic Research & Blog RSS Claude 家族官方 OpenAI Blog / Research RSS GPT 家族官方 Google DeepMind Blog RSS Gemini / AlphaFold Google Research Blog RSS 大厂实验室 Meta AI Blog / FAIR RSS Llama 家族 Microsoft Research Blog RSS Azure / Copilot xAI Blog RSS Grok Mistral AI Blog RSS 开源欧系 Cohere Blog RSS 企业级 LLM Stability AI Blog RSS 开源生图 Hugging Face Blog RSS 生态中枢 NVIDIA Developer Blog RSS 硬件 + CUDA + 推理 Lightning AI / PyTorch Blog RSS 训练框架 LangChain / LlamaIndex Blog RSS Agent 生态 Latent Space(swyx) Newsletter + Podcast AI 工程风向标 Interconnects(Nathan Lambert) Newsletter RLHF / 后训练 Sebastian Raschka Magazine Newsletter LLM 技术拆解 Simon Willison's Weblog RSS 每日 LLM 实战笔记 Lil'Log(Lilian Weng) RSS 技术长综述 AI News(smol.ai) Newsletter 每日社区聚合 The Batch(DeepLearning.AI) Newsletter Andrew Ng 每周 2.4 产品 / 增长 / 创业(T2–T6) 源 类型 备注 Lenny's Newsletter Newsletter 产品管理 No.1 First Round Review RSS 创业方法论 Reforge Blog RSS 增长体系 a16z Blog / Podcast RSS VC 视角 Y Combinator Blog / Hacker News RSS + API 创业圈信号源 Stratechery(Ben Thompson) Newsletter(免费版) 战略分析 The Information 公开文章 RSS 科技深度 Not Boring(Packy McCormick) Newsletter 商业故事 Product Hunt(每日榜 + API) API 新品雷达 Mind the Product RSS PM 社区 Substack 头部科技区 RSS 独立作者 虎嗅 / 36Kr / 极客公园 / 爱范儿 RSS 中文科技媒体 少数派 / 果壳 RSS 产品评测 GeekPark 新品闪电战 RSS 每日产品速递 2.5 设计 / UX / 品牌(T2–T6) 源 类型 备注 Figma Blog RSS 设计工具第一方 Apple HIG 更新 RSS 苹果设计规范 Material Design Blog RSS 谷歌设计规范 Nielsen Norman Group RSS UX 研究殿堂 Smashing Magazine RSS 前端 + 设计 UX Collective(Medium) RSS 社区长文 A List Apart RSS Web 标准 Mobbin(公开页) 静态页 移动 UI 模式 Dribbble / Behance Trending 静态页 + RSS 视觉灵感 SiteInspire / Awwwards RSS 网站灵感 Designer News RSS 设计师 HN 优设网 / UI 中国 RSS 中文设计 2.6 工程 / 开源(T2–T6) 源 类型 备注 Dev.to 顶流标签 RSS 开发者社区 Lobsters RSS 高质量极客社区 Hacker News Front Page + Best API + RSS 全球技术风向 Stack Overflow Blog RSS 开发者现场 ChangeLog.com Podcast + RSS 开源生态 Vercel Blog / Next.js Blog RSS 默认技术栈第一方 Supabase Blog RSS 默认 BaaS 第一方 Cloudflare Blog RSS 边缘 + 安全 HTTP Archive / Web.dev RSS 性能 + 标准 InfoQ 中英站 RSS 架构大会 2.7 商业 / 投资 / 财报(T2–T5) 源 类型 备注 SEC EDGAR API 美股原始披露 港交所披露易 HKEXnews 静态 港股原始 巨潮资讯网 静态 A 股原始 CB Insights 免费报告 RSS VC / 市场地图 Crunchbase News RSS 融资事件 PitchBook Blog RSS 私募市场 Financial Times 公开页 RSS 财经头条 Bloomberg Opinion 公开 RSS 财经评论 路透 Reuters Top News RSS 全球新闻 雪球 / 格隆汇头部号 RSS 中文投资 2.8 行业数据 / 统计(T3) 源 类型 备注 国家统计局 静态 / API 中国宏观 World Bank Open Data API 全球经济 IMF Data API 金融统计 OECD Data API 发达国家统计 UN Data / UNESCO API 联合国口径 Our World in Data API 可视化宏观 FRED(美联储圣路易) API 美国经济金融 data.gov(美/英/欧) API 开放政府数据 Google Trends 非官方 API 搜索热度 Similarweb 公开页 静态 网站流量 App Annie / data.ai 公开榜 静态 App 榜 Statcounter GlobalStats 静态 浏览器 / OS 份额 Statista 免费摘要 静态 图表快览 艾瑞 / QuestMobile / 易观 免费版 静态 / RSS 中国互联网数据 DataReportal(Digital 20XX) 静态 全球数字年报 2.9 新闻 / 时事 / 政策(T3–T6) 源 类型 备注 BBC / Reuters / AP Top Stories RSS 国际口径 AP News / NPR RSS 美国主流 The Guardian RSS 英媒 新华社 / 人民网 RSS 官方口径 澎湃 / 财新 公开版 RSS 中国深度 GDELT Project API 全球事件图数据库 Wayback Machine CDX API 历史快照 国务院 / 发改委 / 工信部 政策发布 RSS 中国政策 欧盟委员会 / 美国白宫官网 RSS 海外政策 中国信通院 RSS ICT 白皮书 2.10 设计 / 技术 / 行业标准(T3) 源 类型 W3C / IETF RFC 静态 + RSS ISO 公开部分 静态 NIST(含 AI RMF) RSS OWASP RSS MDN Web Docs 更新 RSS 2.11 跨行业雷达(T3–T6,供 CEO 跨界借鉴) 一人公司不知道下一个项目来自哪个行业,必须有"各行各业"的被动雷达。 行业 代表源 备注 科学综合 Nature Briefing / ScienceDaily 每日科研快讯 生物 / 医药 STAT News / Endpoints News 免费 行业动态 能源 / 气候 IEA 报告 / Our World in Data / Carbon Brief 能源转型 汽车 / 出行 Electrek / InsideEVs / 第一电动 新能源车 半导体 SemiAnalysis / AnandTech / EETimes 芯片 制造业 McKinsey Operations 免费版 / 界面新闻制造板块 工业 零售 / 消费 Retail Dive / 窄播 / 晚点 消费趋势 金融科技 Finextra / TechCrunch Fintech 支付 / 银行科技 房地产 Redfin Research / 克而瑞公开 楼市 教育 EdSurge / 芥末堆 教育科技 游戏 GamesIndustry.biz / 游戏葡萄 游戏产业 影视娱乐 Variety / Deadline / 毒眸 内容产业 体育 ESPN / 体坛周报 体育商业 法律 / 合规 Lawfare / 数字法治 监管动态 文化 / 思想 Aeon / 澎湃思想市场 人文长文 地缘 / 宏观 Foreign Affairs 公开 / 观察者网 国际关系 2.12 聚合 / 发现工具(元源) 工具 用途 Feedly(免费版) 统一 RSS 阅读,提供 API Inoreader RSS + 规则过滤 Exa.ai / Kagi Search / Perplexity 神经搜索 API,找冷门源 HN Algolia Search API 历史搜索 HN Reddit RSS(每个 sub 都有) subreddit 级订阅 Google Alerts 关键词被动邮件 Wayback Machine 失效页回溯 RSSHub 把没 RSS 的站点转成 RSS(自部署) OpenAlex API 开放学术知识图谱(替代 MAG) 2.13 采集方式优先级 官方 API(首选,稳定、合规) RSS / Atom / JSON Feed(次选,免鉴权) RSSHub 自建(第三方站无 RSS 时) 开放静态页直抓(尊重 robots.txt,限速 1 req / 2s) 公开 PDF 直接下载(学术与政府报告) 2.14 每条资料强制元数据 source_url: https://... accessed_at: 2026-04-12T10:00:00+08:00 tier: A authority_level: T1 # T1-T7 category: 学术论文 / AI 工程 / 产品 / ... keywords: [llm, rlhf, ...] hash_sha256: ... # 防止重复入库 3. B 档 · 需用户配合(必须先得授权) 定义:合法可访问,但需要账号、订阅、付费,或用户手动操作。 类目 需要用户做什么 示例 付费学术库 提供机构账号登录 IEEE Xplore、ACM DL、Web of Science、知网、万方 咨询报告 提供订阅账号 Gartner、Forrester、IDC、Forrester Wave、艾瑞咨询付费版 专业数据库 提供账号 Bloomberg Terminal、Wind、同花顺 iFinD、CB Insights 付费 竞品后台 用户注册并截图 竞品 APP 内页、SaaS 后台、管理员仪表盘 微信生态 用户手动转存 公众号历史文章、朋友圈、私域群、视频号 小红书 / 抖音 / B站 用户导出或截图 强反爬,不可自动化 LinkedIn / X(Twitter) 用户手动检索 反爬 + ToS 禁止自动抓取 企业/招投标库 用户查询截图 中国招投标公共服务平台 付费 Newsletter 用户订阅后转发 Stratechery Plus、The Information 流程: 1. 系统列清单:"本项目需要 B 档源 X/Y/Z,请你 {登录并导出 / 手动截图 / 提供账号}" 2. 用户把素材回传到项目盒子的 原始素材/ 或 调研资料/B档_用户提供/ 3. 系统负责整理、归档、打标,不负责"绕过登录" 红线: - ❌ 不收集用户密码 - ❌ 不代替用户点击"同意 ToS" - ❌ 不把用户账号 cookie 存到非临时位置 4. C 档 · 主动放弃(必须标注) 定义:反爬严格、付费墙严、法律灰区、ToS 明确禁止——系统与用户都不去碰。 类目 放弃原因 Google Scholar 大规模抓取 反爬 + ToS 禁止 小红书 / 抖音 / 快手 后台数据 强反爬 + 平台诉讼先例 天眼查 / 企查查 深度数据 付费 + 反爬 微信公众号全量历史 平台禁止第三方抓取 淘宝 / 京东 / 拼多多 交易数据 反爬 + ToS 竞品内部接口 / 未公开 API 未授权即违法 LinkedIn / Facebook 个人数据 GDPR + ToS 付费墙媒体正文(NYT / WSJ 正文) 版权 + 付费 动作: 1. 在 调研资料/_未采集清单.md 登记:"本项目原想扒 X,档位 C,放弃原因 {反爬/付费墙/ToS}" 2. 给岗位返回"此路不通"的信号,让岗位调整做法(换 A 档替代源,或降低权威期待) 3. 绝不为了"把活儿干漂亮"去撞 C 档 5. 反爬合法替代矩阵(遇到 C 档时的退路) 原则:当一个源落到 C 档,立刻去它的"公开学术 / 开放数据双胞胎"里找等效信号。 想要的 原始源(C 档) 合法替代(A 档) 学术论文全文 Elsevier / Springer 付费版 arXiv / SSRN / PMC / OpenAlex / 作者个人主页 会议论文 付费数据库 OpenReview / ACL Anthology / PMLR / CVF Open Access 行业报告 Gartner / Forrester 世行 / OECD / 信通院 / 咨询公司免费摘要 竞品用量 抓竞品后台 Similarweb 公开 / data.ai 公开榜 / Google Trends / Product Hunt 社媒趋势 小红书 / 抖音爬取 Google Trends / Reddit API / 微博公开热榜 / GDELT 公司财务 企查查深度 SEC EDGAR / 港交所披露易 / 巨潮 / 公司年报 PDF 专利信息 付费专利库 Google Patents / USPTO / WIPO PatentScope / CNIPA 公开 新闻档案 付费墙媒体 官方 RSS + Wayback Machine + GDELT 学术图谱 Scopus / WoS Semantic Scholar / OpenAlex / Connected Papers 招聘 / 人才 LinkedIn 爬取 各公司官网 Careers + 拉勾 / Boss 公开页 6. 交付动作 扒完所有 A 档 + 收齐所有 B 档 + 登记完所有 C 档之后: 在项目盒子的 调研资料/ 下按源分文件夹存放 写一份 调研资料/_索引.md,列明: - 本次共采集 N 份 - A 档 X 份 / B 档 Y 份 / C 档 Z 份(未采集) - 每份的主题、权威级、来源、采集日期 通知提需求的岗位:"资料到位,请查收" 7. 禁止事项 ❌ 混档:把 B 档当 A 档假装是系统扒的 ❌ 无来源:任何没有 source_url + accessed_at 的资料不准入库 ❌ 绕反爬:写爬虫撞验证码、伪造 UA、轮换 IP 池——一律禁止 ❌ 过度扒取:同一源超出其 API 速率或 robots 限速 ❌ 留"待扒":报告里必须把 C 档明确标成"未采集",不允许悬空 ❌ 单源依赖:一个主题只靠一个源,必须交叉验证至少 2 个独立源