RNNs重塑 - 旧卫队能超越变换器吗？

RNN Redux: Streamlining the Old Guard to Challenge Transformers

在深度学习的世界中，时不时地，一个老旧的方法回到聚光灯下，就像一个老掉牙的摇滚明星做出惊喜的回归。这一次，值得信赖的循环神经网络（RNNs）拿起他们的吉他，重新登上舞台，准备挑战更年轻、更时尚的Transformer模型。

在它们的鼎盛时期，像LSTM和GRU这样的RNN是序列建模任务的主力军 - 直到2017年，当Transformers以它们现在著名的“注意力即你所需”出现时。那项研究标志着序列建模的重大转变。拥有自注意力机制的Transformers允许对整个序列进行并行处理，使其成为语言翻译和文本生成等任务的首选模型。然而，尤其是在处理低资源环境中的长序列时，它们与序列长度的二次复杂度引入了一个瓶颈。

最近一篇名为“RNNs究竟是我们所需要的全部吗？”的论文通过提出LSTMs和GRUs的简化版本（minLSTM和minGRU）重新审视了循环神经网络（RNNs）的作用。这些简化的RNNs的目标是简化传统的RNN结构，消除隐藏状态的依赖关系，并引入可以显著加快训练速度的可并行化版本。

作者们提出了两个主要观点，如下所述。

可并行化的RNNs

通过简化RNN结构-在门中移除tanh激活和隐藏状态依赖- minLSTM 和 minGRU 可以并行训练，实现训练期间的线性复杂度，与 Transformers 的二次内存需求形成对比。

可比较的表现

尽管进行了这些简化，作者们认为最小的RNN与Transformer和Mamba等最先进的模型在任务执行方面表现相当竞争力，尤其是在选择性复制、强化学习和语言建模等任务中。

与注意力就是你的全部相比

变压器通过完全放弃循环彻底改变了序列建模。与依赖于像RNNs这样的顺序处理不同，它们使用注意力一次捕捉整个序列中令牌之间的关系。其结果是一个擅长捕捉长程依赖关系的模型，但在处理更长序列时受到高计算成本的困扰。

以下是最小RNN在比较中的表现。

模型架构

变压器完全放弃循环，仅依赖注意力，其在序列长度上具有二次复杂度。MinLSTM/minGRU保持循环结构，但移除了隐藏状态依赖关系，这允许并行训练并在训练过程中减少瓶颈。

效率

变压器的二次复杂性使它们对资源需求很高，特别是对于更长的序列。 MinLSTM / minGRU 保留线性复杂性，在低资源环境中更具可伸缩性，特别适用于需要处理长序列的任务。并行扫描算法进一步增强了训练效率，使这些模型比传统的RNN和变压器模型都快得多。

表现

变压器在诸如语言建模和翻译等任务中设立了基准，始终提供最先进的结果。 MinLSTM/minGRU在特定任务（如选择性复制和强化学习）中可以与变压器相匹敌或接近。然而，在大规模自然语言处理任务中，它们还没有经过全面测试，而变压器仍然占主导地位。

可扩展性和培训

变压器需要大量的计算资源，通常需要高端硬件如A100 GPU用于大规模任务。采用并行训练的MinLSTM/minGRU可以更好地适应有限资源（如T4 GPU），使它们成为在计算能力受限的环境中实用的替代方案。

论点的优点

RNNs的并行化-本文最重要的贡献之一是展示RNNs可以有效地并行化。通过消除隐藏状态的依赖关系，minLSTMs和minGRUs可以实现RNNs传统上缺乏的训练效率。这使它们成为在需要应对Transformers高复杂性挑战的场景中的有竞争力的替代选择。

设计简洁——最小化的LSTM和GRU变体使用更少的参数，实现和优化也更简单。这种简化，再加上它们在选择性复制和强化学习等任务中的表现，表明这些模型可以成为许多用例的可行替代方案。

实证验证 - 作者提供的实验结果显示，在各种任务中，培训速度大大加快（比传统RNN快175倍），同时保持竞争性能。这一实证证据支持了最小RNN的想法，尽管它们的复杂度降低，仍然可以表现出色。

谬误或限制

过分强调计算效率 — 尽管 minLSTM 和 minGRU 的计算效率是一个重要优势，但论文可能低估了在许多现代应用中 Transformers 的持续主导地位。对于那些计算资源并非首要考虑的任务，如大规模自然语言处理，Transformers 的卓越性能可能仍然证明它们的复杂性是合理的。

有限的应用范围 — 作者声称minLSTM和minGRU在与Transformers的竞争中表现出色，但他们关注的任务，如选择性复制、强化学习和字符级语言建模，相对来说比较狭窄。Transformers已经在更广泛的任务范围中证明了自己，特别是在大规模自然语言处理方面，而与之相比，这些最小化的RNN的应用范围仍未经证明。

内存开销-尽管minLSTMs和minGRUs显著提高了训练时间，但它们仍然比传统的RNNs需要更多的内存。在内存有限的环境中，这种内存开销可能成为一个约束条件，削弱它们的整体效率提升。

偏向特定任务 - 性能比较可能会偏向诸如选择性复制之类的任务，其中门控机制起关键作用。然而，对于需要深度上下文理解的任务，如语言翻译，最小RNN可能无法与基于注意力的模型（如变压器）的性能相匹配。

那么定论是什么？

论文《我们真的只需要RNN吗？》有效地论证了，当将RNN简化并并行化时，可以在计算效率方面与现代模型如变压器相竞争。LSTM和GRU的简化版本解决了许多导致原始转向变压器的可伸缩性问题，为资源受限环境提供了一种轻量级且可扩展的替代方案。

然而，对于更复杂和大规模任务，比较仍然倾向于变形金刚，因为它们通过注意力机制处理远程依赖的能力使其更优秀。然而，在效率和资源约束是优先考虑的情况下，最小RNNs像minLSTM和minGRU提供了一个引人注目的解决方案。它们可能不能完全取代变形金刚，但它们确实在序列建模的不断发展的领域中有自己的位置。

注意：本分析中所做的比较是基于作者在他们的研究中提出的声明。这些声明尚未经过独立验证，极简RNN在不同应用中的表现实际上可能会有所不同。