BERT模型归档 - 小码的CheatSheet

解密Transformer架构20年演进：从BERT到Mamba的技术突围战

Tim

2025-03-22

.NET, BERT模型, Mamba, Transformer架构, 疏注意力机制, 空间模型, 长序列处理

在自然语言处理领域，Transformer架构正在经历前所未有的技术变革。本文通过20个关键问题的深度剖析，揭示从经典BERT模型到革命性Mamba架构的演进路径，展现神经网络架构设计的底层逻辑与创新突破。一、Transformer基础架构深度解析 1.1 自注意力机制的计算复杂度陷阱 ...

Transformer架构20年演进史：从双向预训练到状态空间模型的颠覆性突破

Tim

2025-03-21

tech

.NET, BERT模型, GAN图像处理, Mamba架构, Transformer架构, 大规模预训练模型, 疏注意力机制, 空间模型

在自然语言处理领域，Transformer架构的演进堪称21世纪最引人注目的技术革命。自2017年基础架构提出以来，历经BERT的双向预训练突破、GPT系列的自回归范式创新，直至2023年Mamba架构通过状态空间模型（SSM）实现计算复杂度突破，这场持续20年的技术进化正在重塑人工智能的基础范式。