About 104,000 results
Open links in new tab
  1. 一文了解Transformer全貌(图解Transformer)

    Jan 21, 2025 · 自2017年Google推出Transformer以来,基于其架构的语言模型便如雨后春笋般涌现,其中Bert、T5等备受瞩目,而近期风靡全球的大模型ChatGPT和LLaMa更是大放异彩。 …

  2. 如何最简单、通俗地理解Transformer? - 知乎

    Transformer最开始应用于NLP领域的机器翻译任务,但是它的通用性很好,除了NLP领域的其他任务,经过变体,还可以用于视觉领域,如ViT(Vision Transformer)。 这些特点 …

  3. Transformer模型详解(图解最完整版) - 知乎

    Transformer 的整体结构,左图Encoder和右图Decoder 可以看到 Transformer 由 Encoder 和 Decoder 两个部分组成,Encoder 和 Decoder 都包含 6 个 block。Transformer 的工作流程大体 …

  4. MoE和transformer有什么区别和联系? - 知乎

    01. Transformer:像“万能翻译官”的神经网络 Transformer 是当今AI大模型(如ChatGPT)的核心架构,最初用于机器翻译,核心是自注意力机制(Self-Attention),能同时分析句子中所有词 …

  5. 如何从浅入深理解 Transformer? - 知乎

    我敢说100个宣称自己学过Transformer的同学; 真理解Transformer的,可能不足10人。 甚至哪怕你发了一篇基于Transformer的论文; 或者微调了一个基于Transformer的模型; 但对于一些 …

  6. 挑战 Transformer:全新架构 Mamba 详解

    Jan 21, 2025 · 与类似规模的 Transformer 相比, Mamba 具有 5 倍的吞吐量, 而且 Mamba-3B 的效果与两倍于其规模的 Transformer 相当。 性能高、效果好,Mamba 成为新的研究热点。

  7. 如何从浅入深理解 Transformer? - 知乎

    Transformer升级之路:12、无限外推的ReRoPE? Transformer升级之路:13、逆用Leaky ReRoPE Transformer升级之路:14、当HWFA遇见ReRoPE 预训练一下,Transformer的长序 …

  8. Transformer模型怎么用于regression的问题? - 知乎

    Transformer模型在文本回归分析中的应用 BERT模型的基础是Transformer架构,采用自注意力机制来捕捉输入文本中的长距离依赖关系。为了进行回归任务,可以在BERT的基础上进行微 …

  9. 如何理解 Swin Transformer 和 Vision Transformer不同 ... - 知乎

    Swin Transformer 的总体结构 Swin Transformer 总体结构 从上图我们可以观察到在输入端有一个 Patch Partition 的操作,也就是 Vision Transformer 常规的切图。 然后是经过一个线性映射进 …

  10. Transformer的Attention可以理解为类似 CNN 的特征提取器吗?

    Apr 20, 2024 · transformer attention在刚开始直接用到CV任务中的时候,也是有水土不服的问题。 比如在目标检测领域的DETR,作为第一个基于transformer目标检测的范式,它的表现非常 …