Transformer Single Line Diagram

About 109,000 results

Open links in new tab

Any time

zhihu.com
https://www.zhihu.com › tardis › zm › art
一文了解Transformer全貌（图解Transformer）
Sep 26, 2025 · 网上有关Transformer原理的介绍很多，在本文中我们将尽量模型简化，让普通读者也能轻松理解。 1. Transformer整体结构在机器翻译中，Transformer可以将一种语言翻译成 …
zhihu.com
https://www.zhihu.com › question
如何最简单、通俗地理解Transformer？ - 知乎
Transformer最开始应用于NLP领域的机器翻译任务，但是它的通用性很好，除了NLP领域的其他任务，经过变体，还可以用于视觉领域，如ViT（Vision Transformer）。这些特点 …
zhihu.com
https://www.zhihu.com › question
如何从浅入深理解 Transformer？ - 知乎
Transformer升级之路：12、无限外推的ReRoPE？ Transformer升级之路：13、逆用Leaky ReRoPE Transformer升级之路：14、当HWFA遇见ReRoPE 预训练一下，Transformer的长序 …
zhihu.com
https://www.zhihu.com › tardis › zm › art
Transformer两大变种：GPT和BERT的差别（易懂版）-2更
Jul 16, 2025 · Transformer是GPT和BERT的前身。谷歌和OpenAI在自然语言处理技术上的优化，都是基于这个模型。更多关于的Transformer可以看文章： ChatGPT与Transformer（无公 …
zhihu.com
https://www.zhihu.com › question
深度学习中“Transformer”怎么翻译为中文？ - 知乎
Transformer 个人觉得不翻译为好。 Transformer按在机器翻译中原意可以翻译为变形器或变换器。但随着Transformer的普及，它已经成为一类以自注意力为主要部件的特定模型，其原本在机 …
zhihu.com
https://www.zhihu.com › question
为什么 2024 年以后 MMDiT 模块成为了大规模文生视频或者文生 …
而且对于纯transformer架构，文本tokens和图像tokens拼接在一起也是很自然且容易的事情（UNet的图像是2D特征，而文本是1D特征）。而且，SD3的技术报告中其实也对不同的架构 …
zhihu.com
https://www.zhihu.com › question
训练最基础的transformer模型用多大的gpu就行? - 知乎
8gb或者12gb就够训练 12层的 encoder-decoder 架构 transformer 模型了。序列长度在512左右。 batch size什么的可以通过 gradient checkpoint 或者 accumulate gradient 等操作间接提升。小 …
zhihu.com
https://www.zhihu.com › question
为什么我还是无法理解transformer？ - 知乎
7 Transformer 的发展 Transformer架构自从发明之后，沿着几条道路快速发展，它模型分Encoder和Decoder两个部分，怎么做成实际的模型是个排列组合问题：只选择Encoder，只 …
zhihu.com
https://www.zhihu.com › tardis › zm › art
挑战 Transformer：全新架构 Mamba 详解
Sep 23, 2025 · 而就在最近，一名为 Mamba 的架构似乎打破了这一局面。与类似规模的 Transformer 相比， Mamba 具有 5 倍的吞吐量，而且 Mamba-3B 的效果与两倍于其规模的 …
zhihu.com
https://www.zhihu.com › question
如何评价 Meta 新论文 Transformers without Normalization？ - 知乎
再后来，transformer成为主流，nlp那边用layer norm居多，所以transformer继承了它，至于为什么不用BN而用LN，之前知乎一个问题大佬们都有很多讨论了： transformer 为什么使用 layer …

Pagination
- 1
- 2
- 3
- 4
- 5
- Next