标签: 训练数据清洗

大模型”数据投毒”危机:拆解训练数据清洗与去偏的九大生死战

当大模型开始渗透金融决策、司法评估、医疗诊断等关键领域时,数据质量问题已不再是简单的技术瑕疵,而是关乎社会公平的伦理命题。某研究团队最新发现,主流开源训练数据集中存在超过23%的潜在偏见样本,这些"数据毒素"会导致大模型在职业推荐场景中产生高达37%的性别歧视输出。这警示我们,数据清洗与去偏技术已成