视频理解归档 - 小码的CheatSheet

突破百万帧视频解析瓶颈：Gemini 1.5时空建模技术全解密

Tim

2025-03-30

在人工智能领域，视频理解能力正成为检验多模态大模型实力的终极试金石。近期发布的Gemini 1.5版本在长视频解析领域取得突破性进展，其支持处理超过百万token的上下文窗口，这相当于能连续解析3小时的4K视频流。本文将深入剖析其背后的技术创新，通过构建专业评测框架揭示其技术实现路径。 ...

视频理解革命：对比学习开启自监督时空建模新纪元

Tim

2025-03-26

tech

.NET, 内存对齐, 对比学习, 时空建模, 自监督学习, 视频理解

视频理解作为计算机视觉领域最具挑战性的任务之一，长期受限于标注数据匮乏和时空特征建模困难两大核心难题。最新研究表明，基于对比学习的自监督范式正在重塑视频理解的技术路径，其突破性进展主要体现在三个维度：1）时空解耦特征表示框架；2）跨模态对比增强策略；3）动态负样本生成机制。这些创新不仅显著提升了模型