All
Search
Columbus
Images
Videos
Maps
More
News
Shopping
Flights
Travel
Notebook
Topics
Back to All Topics
Weather
Forecast
Radar
Severe Alerts
Air Quality
Restaurants
Mexican
Italian
Sushi
Vegan
Fast Food
HomeServices
Plumbing
Moving
Cleaning
Landscaping
Automotive
Car Repair
Car Rental
Tire Shops
Auto Glass
Healthcare
Urgent Care
Dentists
Chiropractors
Therapists
Shopping
Groceries
Electronics
Pharmacy
Clothing
LocalNews
Politics
Crime
Weather
Sports
Events
Concerts
Festivals
Meetups
Sports Games
zhihu.com
https://www.zhihu.com/tardis/zm/art/600773858
一文了解Transformer全貌(图解Transformer)
网上有关Transformer原理的介绍很多,在本文中我们将尽量模型简化,让普通读者也能轻松理解。 1. Transformer整体结构 在机器翻译中,Transformer可以将一种语言翻译成另一种语言,如果把Transformer看成一个黑盒,那么其结构如下图所示:
zhihu.com
https://www.zhihu.com/question/445556653
如何最简单、通俗地理解Transformer? - 知乎
Transformer最开始应用于NLP领域的机器翻译任务,但是它的通用性很好,除了NLP领域的其他任务,经过变体,还可以用于视觉领域,如ViT(Vision Transformer)。 这些特点让Transformer自2017年发布以来,持续受到关注,基于Transformer的工作和应用层出不穷。
zhihu.com
https://www.zhihu.com/question/471328838
如何从浅入深理解 Transformer? - 知乎
Transformer升级之路:1、Sinusoidal位置编码追根溯源 Transformer升级之路:2、博采众长的旋转式位置编码 猛猿:Transformer学习笔记一:Positional Encoding(位置编码) 解密旋转位置编码 解密旋转位置编码:数学基础、代码实现与绝对编码一体化探索_哔哩哔哩_bilibili
zhihu.com
https://www.zhihu.com/question/7385521828
Transformer 和 cnn 是两条差异巨大的路径吗? - 知乎
Transformer 和 CNN,真的是两条差异巨大的路径吗? 两者设计逻辑不一样,但目标一致——让机器看懂东西 CNN 是图像领域的老炮,靠“局部感知+权值共享”吃饭。 简单说,它专注于看图像的局部细节,就像你拿着放大镜逐块拼图,看得又快又省力。
zhihu.com
https://www.zhihu.com/tardis/zm/art/684231320
挑战 Transformer:全新架构 Mamba 详解
而就在最近,一名为 Mamba 的架构似乎打破了这一局面。 与类似规模的 Transformer 相比, Mamba 具有 5 倍的吞吐量, 而且 Mamba-3B 的效果与两倍于其规模的 Transformer 相当。 性能高、效果好,Mamba 成为新的研究热点。
zhihu.com
https://www.zhihu.com/question/1904728228213548260
你对下一代Transformer架构的预测是什么? - 知乎
2. 引入随机化(Randomized Transformer) Transformer巨大的规模使得不管训练还是推理都极具挑战。 然而,很少有人知道的是,引入随机化矩阵算法可以减少Transformer需要的FLOPs。 虽然这种做法会降低计算的精度,但这对Transformer的预测性能却可能是好事。
zhihu.com
https://www.zhihu.com/question/8851069085?write
Transformer模型怎么用于regression的问题? - 知乎
回归问题概述 Transformer模型基础 回归问题中的Transformer架构调整 应用案例 优化与技巧 挑战与改进 1. 回归问题概述 回归问题是监督学习中的一种任务,目标是预测一个连续值。这类问题通常涉及对数值数据的建模,常见的应用场景包括: 股票价格预测 温度预测 房价预测 传感器数据的分析 回归 ...
zhihu.com
https://www.zhihu.com/column/p/311156298
Transformer - Attention is all you need - 知乎
《Attention Is All You Need》是Google在2017年提出的一篇将Attention思想发挥到极致的论文。该论文提出的Transformer模型,基于encoder-decoder架构,抛弃了传统的RNN、CNN模型,仅由Attention机制实现,并且由…
zhihu.com
https://www.zhihu.com/question/603330287
transformer主要用在哪些领域和哪些研究方向? - 知乎
Transformer可以广泛应用于时间序列领域。 Transformer是一种基于自注意力机制的深度神经网络结构,最初用于自然语言处理中的文本翻译任务,由Google的研究人员于2017年首次提出。
zhihu.com
https://www.zhihu.com/question/650575356
有没有比transformer更好的模型?无论挑战还是超越了transformer。? - 知乎
谢邀,咱们客观讲,transformer一代经典模型,要全方位比transformer好是不现实的。 但某些方面比transformer强是有可能的。甚至我觉得,transformer不一定是未来 transformer只是现阶段和GPU的计算模型最匹配,所以他最突出 如果未来有比GPU更好的计算硬件,显然也会有一种更贴合硬件的模型架构脱颖而出 就 ...