Global web icon
zhihu.com
https://www.zhihu.com/tardis/zm/art/600773858
一文了解Transformer全貌(图解Transformer)
网上有关Transformer原理的介绍很多,在本文中我们将尽量模型简化,让普通读者也能轻松理解。 1. Transformer整体结构 在机器翻译中,Transformer可以将一种语言翻译成另一种语言,如果把Transformer看成一个黑盒,那么其结构如下图所示:
Global web icon
zhihu.com
https://www.zhihu.com/question/445556653
如何最简单、通俗地理解Transformer? - 知乎
Transformer最开始应用于NLP领域的机器翻译任务,但是它的通用性很好,除了NLP领域的其他任务,经过变体,还可以用于视觉领域,如ViT(Vision Transformer)。 这些特点让Transformer自2017年发布以来,持续受到关注,基于Transformer的工作和应用层出不穷。
Global web icon
zhihu.com
https://www.zhihu.com/question/471328838
如何从浅入深理解 Transformer? - 知乎
Transformer升级之路:1、Sinusoidal位置编码追根溯源 Transformer升级之路:2、博采众长的旋转式位置编码 猛猿:Transformer学习笔记一:Positional Encoding(位置编码) 解密旋转位置编码 解密旋转位置编码:数学基础、代码实现与绝对编码一体化探索_哔哩哔哩_bilibili
Global web icon
zhihu.com
https://www.zhihu.com/question/7385521828
Transformer 和 cnn 是两条差异巨大的路径吗? - 知乎
Transformer 和 CNN,真的是两条差异巨大的路径吗? 两者设计逻辑不一样,但目标一致——让机器看懂东西 CNN 是图像领域的老炮,靠“局部感知+权值共享”吃饭。 简单说,它专注于看图像的局部细节,就像你拿着放大镜逐块拼图,看得又快又省力。
Global web icon
zhihu.com
https://www.zhihu.com/tardis/zm/art/684231320
挑战 Transformer:全新架构 Mamba 详解
而就在最近,一名为 Mamba 的架构似乎打破了这一局面。 与类似规模的 Transformer 相比, Mamba 具有 5 倍的吞吐量, 而且 Mamba-3B 的效果与两倍于其规模的 Transformer 相当。 性能高、效果好,Mamba 成为新的研究热点。
Global web icon
zhihu.com
https://www.zhihu.com/question/1904728228213548260
你对下一代Transformer架构的预测是什么? - 知乎
2. 引入随机化(Randomized Transformer) Transformer巨大的规模使得不管训练还是推理都极具挑战。 然而,很少有人知道的是,引入随机化矩阵算法可以减少Transformer需要的FLOPs。 虽然这种做法会降低计算的精度,但这对Transformer的预测性能却可能是好事。
Global web icon
zhihu.com
https://www.zhihu.com/question/8851069085?write
Transformer模型怎么用于regression的问题? - 知乎
回归问题概述 Transformer模型基础 回归问题中的Transformer架构调整 应用案例 优化与技巧 挑战与改进 1. 回归问题概述 回归问题是监督学习中的一种任务,目标是预测一个连续值。这类问题通常涉及对数值数据的建模,常见的应用场景包括: 股票价格预测 温度预测 房价预测 传感器数据的分析 回归 ...
Global web icon
zhihu.com
https://www.zhihu.com/column/p/311156298
Transformer - Attention is all you need - 知乎
《Attention Is All You Need》是Google在2017年提出的一篇将Attention思想发挥到极致的论文。该论文提出的Transformer模型,基于encoder-decoder架构,抛弃了传统的RNN、CNN模型,仅由Attention机制实现,并且由…
Global web icon
zhihu.com
https://www.zhihu.com/question/603330287
transformer主要用在哪些领域和哪些研究方向? - 知乎
Transformer可以广泛应用于时间序列领域。 Transformer是一种基于自注意力机制的深度神经网络结构,最初用于自然语言处理中的文本翻译任务,由Google的研究人员于2017年首次提出。
Global web icon
zhihu.com
https://www.zhihu.com/question/650575356
有没有比transformer更好的模型?无论挑战还是超越了transformer。? - 知乎
谢邀,咱们客观讲,transformer一代经典模型,要全方位比transformer好是不现实的。 但某些方面比transformer强是有可能的。甚至我觉得,transformer不一定是未来 transformer只是现阶段和GPU的计算模型最匹配,所以他最突出 如果未来有比GPU更好的计算硬件,显然也会有一种更贴合硬件的模型架构脱颖而出 就 ...