训练数据扩展归档 - 小码的CheatSheet

大模型时代的数据增强革命：Diffusion模型如何突破训练数据瓶颈

Tim

2025-05-19

在人工智能领域，大模型训练正面临一个根本性矛盾：模型参数量的指数级增长与高质量训练数据的线性供给之间的鸿沟日益扩大。传统数据增强技术如几何变换、颜色扰动等方法已难以满足大模型对数据多样性及语义完整性的需求。这种背景下，Diffusion模型凭借其独特的生成机制，为训练数据扩展提供了全新的技术路径。