The Transformer Encoder Network Architecture

About 110,000 results

Open links in new tab

Any time

zhihu.com
https://www.zhihu.com › tardis › zm › art
一文了解Transformer全貌（图解Transformer）
Jan 21, 2025 · 自2017年Google推出Transformer以来，基于其架构的语言模型便如雨后春笋般涌现，其中Bert、T5等备受瞩目，而近期风靡全球的大模型ChatGPT和LLaMa更是大放异彩。 …
zhihu.com
https://www.zhihu.com › column
Transformer模型详解（图解最完整版） - 知乎
Transformer 的整体结构，左图Encoder和右图Decoder 可以看到 Transformer 由 Encoder 和 Decoder 两个部分组成，Encoder 和 Decoder 都包含 6 个 block。Transformer 的工作流程大体 …
zhihu.com
https://www.zhihu.com › question
如何最简单、通俗地理解Transformer？ - 知乎
Transformer最开始应用于NLP领域的机器翻译任务，但是它的通用性很好，除了NLP领域的其他任务，经过变体，还可以用于视觉领域，如ViT（Vision Transformer）。这些特点 …
zhihu.com
https://www.zhihu.com › question
如何从浅入深理解 Transformer？ - 知乎
Transformer升级之路：12、无限外推的ReRoPE？ Transformer升级之路：13、逆用Leaky ReRoPE Transformer升级之路：14、当HWFA遇见ReRoPE 预训练一下，Transformer的长序 …
zhihu.com
https://www.zhihu.com › question
MoE和transformer有什么区别和联系？ - 知乎
01. Transformer：像“万能翻译官”的神经网络 Transformer 是当今AI大模型（如ChatGPT）的核心架构，最初用于机器翻译，核心是自注意力机制（Self-Attention），能同时分析句子中所有词 …
zhihu.com
https://www.zhihu.com › tardis › zm › art
挑战 Transformer：全新架构 Mamba 详解
Jan 21, 2025 · 与类似规模的 Transformer 相比， Mamba 具有 5 倍的吞吐量，而且 Mamba-3B 的效果与两倍于其规模的 Transformer 相当。性能高、效果好，Mamba 成为新的研究热点。
zhihu.com
https://www.zhihu.com › question
Transformer模型怎么用于regression的问题？ - 知乎
Transformer模型在文本回归分析中的应用 BERT模型的基础是Transformer架构，采用自注意力机制来捕捉输入文本中的长距离依赖关系。为了进行回归任务，可以在BERT的基础上进行微 …
zhihu.com
https://www.zhihu.com › question
如何评价 Meta 新论文 Transformers without Normalization？ - 知乎
再后来，transformer成为主流，nlp那边用layer norm居多，所以transformer继承了它，至于为什么不用BN而用LN，之前知乎一个问题大佬们都有很多讨论了： transformer 为什么使用 layer …
electro-tech-online.com
https://www.electro-tech-online.com › threads
Transformer Spec | Electronics Forum (Circuits, Projects and ...
Dec 14, 2024 · The transformer on the oven control stove board identified as: LS-A12119-PT E154515 Z150H CLASS B (130 C) LEI-4 0704 Input voltage (1,4) = 110-120 Vac Output …
zhihu.com
https://www.zhihu.com › question › answer
如何理解 Swin Transformer 和 Vision Transformer不同 ... - 知乎
Swin Transformer 的总体结构 Swin Transformer 总体结构从上图我们可以观察到在输入端有一个 Patch Partition 的操作，也就是 Vision Transformer 常规的切图。然后是经过一个线性映射进 …

Pagination
- 1
- 2
- 3
- 4
- Next