为转型变压器网络做好准备

 专家说,变压器网络的注意力机制“将真正打破研究的大门”。

  有一些颗粒状的镜头需要增强,或者你需要发现一种神奇的药物?无论任务如何,答案都越来越可能是变压器网络形式的人工智能。

  变形金刚,就像那些熟悉网络的人喜欢简写的那样,是 Google Brain 于 2017 年发明的,并被广泛用于自然语言处理 (NLP)。但现在,它们正在扩展到几乎所有其他人工智能应用,从计算机视觉到生物科学。

  Transformer 非常擅长在非结构化、未标记的数据中寻找关系。他们还擅长生成新数据。但是为了有效地生成数据,transformer 算法通常必须增长到极端的比例。训练语言模型 GPT3 具有 1750 亿个参数,估计成本在 1100 万美元到 2800 万美元之间。那就是训练一个网络,一次。并且变压器尺寸没有显示出任何平稳的迹象。

  变压器网络拓宽视野

  

 

  伊恩·巴克(来源:英伟达)

  是什么让变压器在如此广泛的任务中如此有效?

  Nvidia 加速计算总经理 兼副总裁 Ian Buck 向 EE Times 解释 说,虽然早期的卷积网络可能会查看图像中的相邻像素以找到相关性,但 Transformer 网络使用一种称为“注意”的机制来查看更远的像素从彼此。

  “注意力集中在远程连接上:它的目的不是查看邻居在做什么,而是识别远程连接并优先考虑这些连接,”他说。“[变形金刚]如此擅长语言的原因是因为语言充满了上下文,这些上下文不是关于前一个单词,而是[依赖于]句子中前面说过的东西——或者把那个句子放在整个上下文中段落。”

  对于图像,这意味着转换器可用于 上下文化像素或像素组。换句话说,转换器可用于在图像的其他位置寻找具有相似大小、形状或颜色的特征,以尝试更好地理解整个图像。

  “卷积很棒,但你经常不得不构建非常深的神经网络来构建这些远程关系,”巴克说。“变形金刚缩短了这一点,因此他们可以用更少的层更智能地做到这一点。”

  变压器考虑的连接越远,它就越大,而且这种趋势似乎还没有结束。Buck 提到了考虑句子中的单词,然后是段落中的句子,然后是文档中的段落,然后是整个互联网语料库中的文档的语言模型。

  

 

  一旦他们理解了语言,transformer 网络就可以学习任何有足够文本的主题,通过阅读来有效地吸收知识。不同类型的转换器也可用于计算机视觉和图像生成。作者使用 Craiyon.com(以前称为 Dall-E Mini)创建了这些图像,这是一个生成的预训练变压器网络,使用提示“变压器机器人正在阅读大量真实照片”。(来源:Craiyon.com/EE Times)

  到目前为止,变压器尺寸似乎没有理论上的限制。巴克说,对 5000 亿个参数模型的研究表明,它们还没有接近过拟合的程度。(当模型有效地记忆训练数据时,就会发生过拟合。)

  “这是人工智能研究中的一个活跃问题,”巴克说。“还没有人想出来。这只是勇气的问题,”他开玩笑说,并指出让模型变大并不像添加更多层那么简单。需要大量的设计工作和超参数调整。

  但是,可能存在实际限制。

  “模型越大,你需要训练的数据就越多,”巴克说,并指出所需的大量数据也必须是高质量的,以确保语言模型不会在不相关或不适当的内容上进行训练,以及过滤出重复。对数据的要求可能是未来变压器规模的限制因素。

  Nvidia 的 Hopper GPU 架构认识到超大型网络的趋势, 包括一个转换器引擎 - 一种硬件和软件功能的组合,可在保持准确性的同时实现更高的吞吐量。Buck 认为,像 Hopper 这样的平台通过允许较小的基础设施训练更大的网络来解决训练变压器的经济限制。

  应用比比皆是

  变形金刚可能是从语言开始的,但它们正被应用于计算机视觉和药物发现等不同领域。一个引人注目的用例是医学成像,其中转换器可用于生成用于训练其他 AI 的合成数据。