15.1 动机与影响

Transformer与全连接前馈网络(FFN)、卷积神经网络(CNN)、循环神经网络(RNN)并称为深度学习的四大核心架构。其中,Transformer的影响力无疑是最大的。它在序列建模(如自然语言处理)、计算机视觉、多模态学习等多个领域都取得了突破性进展,并且几乎成为当前所有主流大模型架构的基础

Transformer模型于2017年由Google Brain的Vaswani等人在论文《Attention is All You Need》中首次提出,最初用于解决机器翻译(序列到序列)任务。

15.1.1 序列建模的挑战

此前,循环神经网络(RNN)及其改进版本(如LSTM、GRU)是序列建模的主流方法。它们通过对前一时刻的隐藏状态进行递归更新来处理序列数据。然而,这种循环依赖机制存在固有缺陷:

  1. 长距离依赖建模困难(梯度消失/爆炸):随着序列长度的增加,RNN在捕捉远距离元素间依赖关系时效果不佳,训练过程也变得不稳定。尽管LSTM和GRU在一定程度上缓解了这个问题,但仍然存在长距离依赖建模的瓶颈
  2. 串行计算的限制:每一步的计算都严格依赖于前一步的结果,导致模型无法充分利用并行计算资源,严重制约了训练和推理的速度。

与此同时,研究者也探索了使用卷积神经网络(CNN)构建序列模型。虽然取得了一些进展,但CNN同样面临挑战:

  1. 局部感受野的局限:CNN通过滑动卷积核提取局部特征,要建模长距离依赖关系,通常需要堆叠非常深的网络层,这不仅显著增加了模型参数量,也大大提升了计算复杂度。
  2. 信息流动效率低:序列起始位置的信息需要经过多层卷积操作才能传递到尾部位置,信号路径过长可能导致信息衰减或丢失

GPU的普及极大地推动了对大规模并行计算能力的需求,这使得RNN系列模型固有的串行计算缺陷愈发凸显,成为性能瓶颈。另一方面,注意力机制(Attention Mechanism)的蓬勃发展,为模型提供了直接访问序列中任意位置信息的能力,为解决长距离依赖问题开辟了新途径。

15.1.2 Transformer的突破性贡献

Transformer的核心思想体现在其论文标题《Attention is All You Need》中。它首次提出了完全基于自注意力(Self-Attention)机制构建的编码器-解码器架构,彻底摒弃了RNN和CNN在序列建模中的主导地位。该架构的核心优势在于:

  1. 全局信息交互:自注意力机制允许序列中的任意两个位置直接建立联系并进行信息交互,极大地提升了信息传递的效率和范围,从根本上解决了长距离依赖问题。
  2. 强大的并行计算能力:自注意力层的计算可以在序列长度维度上完全并行化,这充分利用了现代硬件(如GPU/TPU)的并行计算能力,显著加速了模型的训练和推理过程

Transformer带来的性能飞跃是惊人的。在WMT 2014英德(EN→DE)机器翻译任务上,单个Transformer模型将当时的最高BLEU分数(由基于LSTM的模型保持的28.4分)大幅提升至41.8分,实现了约13.4分的巨大进步。在速度方面,Transformer在训练阶段得益于并行计算,每秒处理的token数量提升了数倍;在推理阶段,其生成速度也得到了显著加快

自此,Transformer架构迅速成为自然语言处理乃至整个AI领域的基石,并催生了一系列具有里程碑意义的模型,如BERT、GPT、LLaMA、DeepSeek等,持续推动着人工智能的发展。

results matching ""

    No results matching ""