斯坦福统计系博士生 Zitong Yang 的论文答辩聚焦于"合成数据驱动的持续预训练"技术路线,通过学习文档间潜在关系来自动生成训练语料,使语言模型能够持续自我改进,而无需依赖海量人工标注数据或教师模型。
传统语言模型预训练: - 依赖海量高质量网页数据 - 数据源正在枯竭 (已用尽互联网大部分文本) - 扩展成本呈指数增长 (需要 20x 数据才能显著提升性能) 具体问题: 1. 单文档因果建模 → 只学习文档内 token 相关性 2. 忽略文档间关系 → 无法利用跨文档的概念关联 3. 数据复制训练 → 效率低下 (repetition baseline) 类比: = 学生只读单本教科书,从不跨书籍总结规律 = 数据利用率极低,大量潜在知识被浪费
问题本质: 现有预训练范式是"局部的" → 在每个文档内学习token序列 → 但文档之间存在丰富的"全局结构"未被利用 举例: 文档 A: "咖啡因是一种兴奋剂,存在于咖啡中" 文档 B: "茶叶含有茶碱,也是兴奋剂" 文档 C: "可可含有可可碱,属于甲基黄嘌呤类" 传统预训练: → 分别学习 A、B、C 的 token 分布 → 不知道它们都在讲"兴奋剂"这个概念 合成预训练的机会: → 识别 A、B、C 的共同概念 → 生成新文档 D: "瓜拉那含有瓜拉那因,也是兴奋剂" → 扩展知识边界
设定: - 给定一个小语料库 (如一本书的文本) - 目标: 让模型深度掌握这个领域的知识 传统方法: → 直接在原始文本上继续预训练 (Continued Pretraining, CPT) → 问题: 数据量有限,容易过拟合 Zitong Yang 的方案: → 用 GPT-4 从原始文本中提取"知识图谱"(EntiGraph) → 基于知识图谱生成大量"合成文档" → 在原始+合成数据上联合训练 结果 (在 Llama 3 8B 上): → 比只用原始数据训练的模型性能显著提升 → 在 QuALITY 阅读理解任务上超越 baseline → 兼容下游指令微调 (instruction tuning)
SCP (2024) vs SBP (2025): SCP (ICLR 2025): - 场景: Continued Pretraining (从小语料库学习) - 方法: 用外部模型 (GPT-4) 生成合成数据 - 局限: 依赖教师模型,成本高 SBP (最新, arXiv 2509.15248): - 场景: From-scratch Pretraining (从零训练) - 方法: 自己学习"文档关系模型",自己生成合成数据 - 突破: 完全自主,不需要教师模型 核心思想: SBP 分两阶段: 1. Phase 1: 在原始数据上训练一个"合成器"模型 → 学习文档间的潜在关系 2. Phase 2: 用合成器生成大量新语料 → 在原始+合成数据上联合训练最终模型
性能提升: → SBP 相比 Baseline 持续提升 → 达到 Oracle 上界的 60% 性能 (Oracle = 用 20x 数据量的理想情况) 质量分析: → 合成文档不是简单的"重述" → 而是: 1. 从种子材料中抽象出"核心概念" 2. 基于概念生成新的叙述 举例 (推测): 原始文档: "光合作用是植物利用光能合成有机物的过程" 合成文档: "藻类细胞通过叶绿素捕获太阳能,驱动糖分子的合成" = 相同概念 (光合作用),不同表述方式 = 扩展了模型的"概念理解"边界
SBP 的隐式假设: 文档是从"潜在概念分布"生成的 数学表述: 1. 潜在概念: θ ~ P(θ) 2. 文档生成: D_i ~ P(D | θ) 传统预训练: → 只学习 P(D) 的边缘分布 → 没有显式建模 θ SBP 的做法: → 合成器隐式学习 P(θ | D_seed) (从种子文档推断潜在概念) → 然后采样 θ,生成新文档 D_new ~ P(D | θ) → 相当于在"概念空间"进行数据增强 类比: 传统方法 = 记住每道题的答案 SBP = 理解题目背后的"知识点",然后生成新题
本科 (UC Berkeley, 2016-2020): - 三个学位: 数学、计算机科学、物理 - 导师: Yi Ma (视觉几何) & Jacob Steinhardt (鲁棒 ML) - 论文: Bias-variance dilemma for neural networks (ICML 2020) 博士 (Stanford, 2022-2025): - 统计系 (不是 CS 系!) - 导师1: Emmanuel Candès (统计学大师,发明 lasso,压缩感知) - 导师2: Tatsunori Hashimoto (NLP/ML 系统) - 核心主题: Synthetic Data for Self-Improving AI 研究演进: 2024: Synthetic Continued Pretraining (小语料库深度学习) 2025: Synthetic Bootstrapped Pretraining (从零预训练) 2025: s1 Test-time Scaling (推理优化) 共同主线: = 如何让 AI 系统"自主"改进 = 不依赖无限数据或人工标注 = 从有限资源中"涌现"新能力
当前困境: - GPT-4/Claude 已用尽互联网大部分高质量文本 - 继续扩展需要 10x-100x 更多数据 - 但高质量数据源正在枯竭 SBP 的解决方案: - 从有限数据中"自举"生成新数据 - 不需要额外的人工标注 - 不需要更大的互联网爬取 类比: 传统方法 = 挖矿 (资源有限,终会耗尽) SBP = 核聚变 (从氢元素中持续释放能量) 影响: = AI 训练从"资源驱动"转向"智能驱动" = 降低对数据垄断的依赖
传统预训练: - 一次性训练,之后冻结参数 - 新知识需要重新训练整个模型 SBP 启发的未来: - 模型持续从环境中学习 - 自己生成训练数据 - 不断改进性能 场景: AI 医生: → 从医学文献中学习 → 生成"模拟病例"进行训练 → 持续提升诊断能力 AI 编程助手: → 从代码库中学习 → 生成"合成代码"进行训练 → 适应新的编程范式
传统观点: 深度学习 = 黑箱 = 不可解释 SBP 的贝叶斯解释: → 模型隐式学习 P(概念 | 文档) → 在概念空间进行数据增强 → 可解释,可分析 理论贡献: = 将"概念抽象"形式化为概率推断 = 连接深度学习与认知科学 = 为"可解释AI"提供新工具 影响: = 不只是工程技巧,而是理论洞察 = 可能影响未来 AI 架构设计
"I am creating continually self-improving AI systems." — Zitong Yang 个人主页
"SBP first abstracts a core concept from the seed material and then crafts a new narration on top of it." — SBP 论文摘要
"SBP delivers up to 60% of performance improvement attainable by an oracle upper bound with access to 20x more unique data." — 实验结果