HELM基准测试归档 - 小码的CheatSheet

大模型评估体系陷入僵局？HELM基准测试的指标盲区与突破路径

Tim

2025-03-27

在人工智能领域，大语言模型的评估体系正面临前所未有的信任危机。作为当前主流的评估框架，HELM（Holistic Evaluation of Language...