标签: AgentBench

大模型评测体系深度解析:从MMLU到AgentBench的技术革命与评估困局

随着大语言模型(LLM)的快速发展,如何科学评估其能力成为业界核心命题。早期以MMLU为代表的静态知识评测框架已暴露出明显局限性,而新兴的AgentBench等动态评估体系则试图重构评测范式。这场评估标准演进背后,隐藏着技术路线之争与产业落地需求的深层博弈。 ...