计算复杂度归档 - 小码的CheatSheet

Transformer架构演进：突破效率瓶颈——从BERT到Mamba的算法革命

Tim

2025-04-28

.NET, ALBERT, BEV+Transformer, Mamba, 序列建模, 空间模型, 自注意力机制, 计算复杂度

在自然语言处理领域，Transformer架构的演进史堪称一部突破计算效率限制的技术革命史。2017年Transformer的横空出世，彻底改变了序列建模的游戏规则；2018年BERT的问世，则证明了预训练范式在语言理解任务中的巨大潜力。然而，当研究者们试图将这种架构推向更长序列、更大规模的应用场景

从千亿参数到轻量化革命：注意力机制二十年技术突围战

Tim

2025-03-24

tech

.NET, ALBERT模型, Mamba模型, Transformer架构, 序列建模, 疏注意力机制, 空间模型, 计算复杂度

2003年，当研究者首次提出注意力机制概念时，没有人预料到这个数学框架将彻底改变人工智能的发展轨迹。二十年间，从最初的Transformer架构到最近的Mamba模型，注意力机制经历了三次重大技术跃迁，其演进过程折射出深度学习领域对计算效率与模型性能的永恒追求。本文将通过技术架构对比、计算复杂度解析