在大型语言模型(LLMs)的深度处理中,传统的注意力机制因其二次方的复杂度而受限,这限制了它们处理长序列的能力。尽管已经尝试了滑动窗口注意力和稀疏或线性近似等方法,但它们在大规模应用中往往效果不佳。
为了应对这些挑战,谷歌的TransformerFAM引入了一种受人类大脑工作记忆概念启发的反馈注意力机制。这种机制允许模型关注自己的潜在表示,从而在Transformer架构中促进工作记忆的出现。
TransformerFAM包含了一个块滑动窗口注意力(BSWA)模块,它能够高效地关注输入和输出序列中的局部和长距离依赖关系。通过在每个块中集成反馈激活,架构促进了全局上下文信息在块之间的动态传播。