人工智能评测归档 - 小码的CheatSheet

国产大模型逆袭？ChatGLM3中文实测挑战GPT-4霸权

Tim

0

50

2025-04-20

.NET, AI语音处理, ChatGLM3, chatgpt gpt-4o ai, 中文大模型, 人工智能评测

在自然语言处理领域，大语言模型的"中文战争"已进入白热化阶段。我们历时三周对ChatGLM3进行系统性评测，构建了包含12个维度、237项细分指标的评测体系，覆盖日常对话、专业写作、逻辑推理等场景。测试结果显示：在中文语境下，ChatGLM3在成语解析任务中准确率达92.3%，比GPT-4高出7.8

大模型评测体系深度解析：从MMLU到AgentBench的技术革命与评估困局

Tim

0

41

2025-04-08

tech

.NET, AgentBench, MMLU, 人工智能评测, 测试框架

随着大语言模型（LLM）的快速发展，如何科学评估其能力成为业界核心命题。早期以MMLU为代表的静态知识评测框架已暴露出明显局限性，而新兴的AgentBench等动态评估体系则试图重构评测范式。这场评估标准演进背后，隐藏着技术路线之争与产业落地需求的深层博弈。 ...

突破百万帧视频解析瓶颈：Gemini 1.5时空建模技术全解密

Tim

0

62

2025-03-30

tech

.NET, CV大模型, 人工智能评测, 时空建模, 视频理解, 长视频处理

在人工智能领域，视频理解能力正成为检验多模态大模型实力的终极试金石。近期发布的Gemini 1.5版本在长视频解析领域取得突破性进展，其支持处理超过百万token的上下文窗口，这相当于能连续解析3小时的4K视频流。本文将深入剖析其背后的技术创新，通过构建专业评测框架揭示其技术实现路径。 ...