简略来说,依照研讨人员规划好的架构计划从头练习模型,往往是查验一个架构是否有用的重要手法。
对此,包括李飞飞团队在内的研讨人员提出了一种被称为“Grafting(嫁接)”的新思路——
根据这一思路,他们侧重重视了DiTs这一大范围的运用在图画和视频生成的Transformer模型。
详细而言,这群人先是构建了一个根据DiT-XL/2规划的测验渠道,以便利后续研讨“嫁接”对模型质量的影响,然后实际运用“嫁接”技术开发了一系列混合规划。
成果发现,许多混合规划在运用不到2%的预练习核算量的情况下,获得了和本来大差不差的模型功能。
将这一办法应用于文生图模型PixArt-Σ,其生成速度提高了1.43倍,但生成图画的质量只下降了不到2%。
以上阐明,“嫁接”的确能成为一种轻量级、高效的架构探究东西,能够让研讨者在短少核算资源的情况下测验新主意。
众所周知,模型架构规划一般触及测验不同的组件(如注意力机制、卷积层)和装备(如模型深度、宽度)。
而作为一种架构修正办法,“嫁接”主要是经过修正预练习DiTs的核算图来完成新架构的验证,详细则主要是经过激活蒸馏和轻量级微调这两个要害阶段来完成。
所谓核算图,是指模型内部的运算逻辑结构——由多层Transformer块组成,每个块包括自注意力(MHA)、多层感知器(MLP)等算子(Operator),这些算子按特定次序衔接,构成履行生成使命的“数据流途径”。
假如简略地把新算子的权重随机初始化,它或许一开端就会和模型的其他部分不协调,导致模型功能下降。
当替换多个算子时,每个替换都或许引进一些差错。一旦差错逐步堆集,终究或许会导致模型功能大幅下降。
而且,为了评价“嫁接”自身的作用,研讨真实开端前还引进了自嫁接(self-grafting)作为对照试验。
所谓自嫁接,是指将现有MHA、MLP等替换为相同类型但权重随机初始化的算子 。
此外,即使替换DiT-XL/2中一切的多头注意力(MHA)或多层感知器(MLP)层,仅运用10%的练习数据来进行微调,模型也能正常康复。
经过将DiT-XL/2中的注意力层MHA替换为滑动窗口注意力(SWA)或门控卷积(Hyena-X),在50%替换份额下,FID仅比基线(FID值越低,阐明越挨近原始功能)。
而100%全替换会导致FID骤降(数值75),生成质量溃散,这阐明并非一切层都能被部分算子代替,即模型中存在“有必要依靠大局信息” 的层,而另一部分层可接受部分核算。
团队还测验将DiT-XL/2中的感知器层MLP也进行了替换,成果在将MLP的扩展比改成r=3或r=6的情况下,就算全换掉,模型作用也挺好,这阐明MLP宽度改起来不容易出问题。
一言以蔽之,多种混合规划的生成质量均挨近原模型,且核算成本不到预练习的2%。
接下来,研讨人员对文生图模型PixArt-Σ进行了“嫁接”,将MHA替换为Hyena-X,成果运用12k组成数据微调后,完成了1.43倍速度提高(从235ms→164ms),GenEval分数从49.75→47.78(下降小于2%)。
经过将DiT-XL/2的28层次序块转为14层并行块(每对次序块并行履行),在深度折半的情况下,模型生成质量优于同类深度模型。
不过最终,团队也提到了研讨的局限性。一是仅在DiT-XL/2模型进步行了验证,二是仅测验了替换成Hyena-X和SWA的作用,定论的普适性受限。
但不管怎样,团队以为“嫁接”这种办法在探究新的模型架构方面显示出很大的潜力,尤其是在需求高效使用核算资源的场景中。