
来自 Google Brain 的计算机科学家 Maithra Raghu 分析了视觉转换器(Vision Transformer),以确定它是如何“看到”图像的。与 CNN 不同,Transformer 可以从一开始就捕捉到整个图像,而 CNN 首先关注小的部分来寻找像边缘或颜色这样的细节。这种差异在语言领域更容易理解,Transformer 诞生于 NLP 领域。例如这句话:“猫头鹰发现了一只松鼠。它试图抓住它,但只抓到了尾巴的末端。” 第二个句子的结构令人困惑: “它”指的是什么?如果是 CNN 就只会关注“它”周围的词,那会十分不解;但是如果把每个词和其他词连接起来,就会发现是”猫头鹰抓住了松鼠,松鼠失去了部分尾巴”。这种关联性就是“Attention”机制,人类就是用这种模式理解世界的。Transformer 将数据从一维字符串(如句子)转换为二维数组(如图像)的多功能性表明,这种模型可以处理许多其他类型的数据。就在 10 年前,AI 领域的不同分支几乎没有什么可以交流的,计算机科学家 Atlas Wang 这样表述, “我认为 Transformer 之所以如此受欢迎,是因为它暗示了一种变得通用的潜力,可能是朝着实现某种神经网络结构大融合方向的重要一步,这是一种通用的计算机视觉方法,或许也适用于其它的机器智能任务”。更多基于Transformer 模型的Generative AI案例,推荐好友 Rokey 的这篇《AI 时代的巫师与咒语》,这应该是中文互联网上写得最详细清晰的一篇。