
一文了解Transformer全貌(图解Transformer)
Jan 21, 2025 · 自2017年Google推出Transformer以来,基于其架构的语言模型便如雨后春笋般涌现,其中Bert、T5等备受瞩目,而近期风靡全球的大模型ChatGPT和LLaMa更是大放异彩。 …
如何最简单、通俗地理解Transformer? - 知乎
Transformer最开始应用于NLP领域的机器翻译任务,但是它的通用性很好,除了NLP领域的其他任务,经过变体,还可以用于视觉领域,如ViT(Vision Transformer)。 这些特点 …
挑战 Transformer:全新架构 Mamba 详解
Jan 21, 2025 · 与类似规模的 Transformer 相比, Mamba 具有 5 倍的吞吐量, 而且 Mamba-3B 的效果与两倍于其规模的 Transformer 相当。 性能高、效果好,Mamba 成为新的研究热点。
如何从浅入深理解 Transformer? - 知乎
Transformer升级之路:12、无限外推的ReRoPE? Transformer升级之路:13、逆用Leaky ReRoPE Transformer升级之路:14、当HWFA遇见ReRoPE 预训练一下,Transformer的长序 …
Transformer模型怎么用于regression的问题? - 知乎
回归问题概述 Transformer模型基础 回归问题中的Transformer架构调整 应用案例 优化与技巧 挑战与改进 1. 回归问题概述 回归问题是监督学习中的一种任务,目标是预测一个连续值。这类问 …
Transformer 和 cnn 是两条差异巨大的路径吗? - 知乎
Transformer与卷积神经网络的主要区别 Transformer和卷积神经网络(CNN)在数据处理、特征提取方法和应用场景方面存在显著差异。 在数据处理方面,Transformer通过自注意力机制能够 …
Transformer是如何处理可变长度数据的? - 知乎
Transformer号称代替RNN等等来做NLP,但是RNN处理可变长度数据的方式一目了然,Transformer具体是怎么做…
Transformer两大变种:GPT和BERT的差别(易懂版)-2更
3 days ago · 其实,大模型的诞生,早在2018年就开始酝酿了。那一年,两个大型深度学习模型横空出世:一个是Open AI的GPT(生成预训练),一个是Google的BERT(Transformer的双向 …
Transformer - Attention is all you need - 知乎
《Attention Is All You Need》是Google在2017年提出的一篇将Attention思想发挥到极致的论文。该论文提出的Transformer模型,基于encoder-decoder架构,抛弃了传统的RNN、CNN模 …
为什么目前的强化学习里深度网络很少用 transformer ,更多的是 …
Transformer-XL:Transformer-XL [1] 提出了一种特殊的架构,相比常规 Transformer 能够在不破坏时间连贯性的情况下,使其能够学习超过固定的长度的依赖, 这使得它可以利用当前的输 …