A/B测试归档 - 小码的CheatSheet

大模型评测革命：从MMLU到AgentBench揭示AI能力评估的范式转移

Tim

2025-04-12

随着大模型技术进入深水区，传统评测体系正面临前所未有的挑战。2023年对某头部模型的评测实验显示，在MMLU基准测试中获得86%准确率的模型，在真实客服场景中的问题解决率仅为37%，这种评测与实战的显著差异引发了行业对评估方法的深度反思。本文将从技术演进视角，剖析大模型评测体系的三重突破路径。一、传

推荐系统A/B测试革命性突破：基于MLflow的全链路追踪架构解密

Tim

2025-03-31

tech

A/B测试, AI推荐系统, MLflow, 机器学习运维, 模型监控

在推荐系统的持续优化过程中，A/B测试是验证模型效果的核心手段。然而传统监控方案普遍存在三大致命缺陷：实验组数据隔离不彻底、特征漂移难溯源、业务指标与模型指标割裂。这些问题导致超过67%的A/B测试结论存在统计偏差（数据来源：2023年机器学习系统调查报告），严重影响了业务决策的可靠性。 ...