Transformer Turntable 3D Model

About 103,000 results

Open links in new tab

Past week

zhihu.com
https://www.zhihu.com › tardis › zm › art
一文了解Transformer全貌（图解Transformer）
Jan 22, 2025 · 1. Transformer整体结构在机器翻译中，Transformer可以将一种语言翻译成另一种语言，如果把Transformer看成一个黑盒，那么其结构如下图所示：将法语翻译成英语那么拆 …
zhihu.com
https://www.zhihu.com › question
如何最简单、通俗地理解Transformer？ - 知乎
Transformer最开始应用于NLP领域的机器翻译任务，但是它的通用性很好，除了NLP领域的其他任务，经过变体，还可以用于视觉领域，如ViT（Vision Transformer）。这些特点 …
zhihu.com
https://www.zhihu.com › column
Transformer模型详解（图解最完整版） - 知乎
Transformer 的整体结构，左图Encoder和右图Decoder 可以看到 Transformer 由 Encoder 和 Decoder 两个部分组成，Encoder 和 Decoder 都包含 6 个 block。Transformer 的工作流程大体 …
zhihu.com
https://www.zhihu.com › tardis › zm › art
挑战 Transformer：全新架构 Mamba 详解
Jan 21, 2025 · 与类似规模的 Transformer 相比， Mamba 具有 5 倍的吞吐量，而且 Mamba-3B 的效果与两倍于其规模的 Transformer 相当。性能高、效果好，Mamba 成为新的研究热点。
zhihu.com
https://www.zhihu.com › question
MoE和transformer有什么区别和联系？ - 知乎
Transformer通过自注意力机制捕捉全局依赖关系。 MoE通过专家分工和稀疏计算提升模型的可扩展性。 (3) 应用场景两者都广泛应用于自然语言处理（NLP）、计算机视觉（CV）等领域。 …
zhihu.com
https://www.zhihu.com › question
如何从浅入深理解 Transformer？ - 知乎
Transformer升级之路：12、无限外推的ReRoPE？ Transformer升级之路：13、逆用Leaky ReRoPE Transformer升级之路：14、当HWFA遇见ReRoPE 预训练一下，Transformer的长序 …
zhihu.com
https://www.zhihu.com › question
训练最基础的transformer模型用多大的gpu就行? - 知乎
8gb或者12gb就够训练 12层的 encoder-decoder 架构 transformer 模型了。序列长度在512左右。 batch size什么的可以通过 gradient checkpoint 或者 accumulate gradient 等操作间接提升。小 …
zhihu.com
https://www.zhihu.com › question
Transformer模型怎么用于regression的问题？ - 知乎
回归问题概述 Transformer模型基础回归问题中的Transformer架构调整应用案例优化与技巧挑战与改进 1. 回归问题概述回归问题是监督学习中的一种任务，目标是预测一个连续值。这类问 …
zhihu.com
https://www.zhihu.com › column
大模型面试：八股文+题目整理 - 知乎
在 Transformer 出现之前，序列建模主要依赖循环神经网络（RNN）及其改进版本 LSTM 和 GRU，它们通过递归结构逐步处理序列，适用于语言建模、机器翻译等任务，但在处理长距 …
zhihu.com
https://www.zhihu.com › question
如何评价 Meta 新论文 Transformers without Normalization？ - 知乎
再后来，transformer成为主流，nlp那边用layer norm居多，所以transformer继承了它，至于为什么不用BN而用LN，之前知乎一个问题大佬们都有很多讨论了： transformer 为什么使用 layer …

Pagination
- 1
- 2
- 3
- 4
- Next