李飞飞团队提出架构规划新思路！无需从头练习直接“嫁接”预练习模型要害组件_bob平台官网入口_鲍勃体育下载ios

新闻中心

李飞飞团队提出架构规划新思路！无需从头练习直接“嫁接”预练习模型要害组件

来源：bob平台官网入口发布时间：2025-06-26 01:08:52 阅读：317 次

　　简略来说，依照研讨人员规划好的架构计划从头练习模型，往往是查验一个架构是否有用的重要手法。

　　对此，包括李飞飞团队在内的研讨人员提出了一种被称为“Grafting（嫁接）”的新思路——

　　根据这一思路，他们侧重重视了DiTs这一大范围的运用在图画和视频生成的Transformer模型。

　　详细而言，这群人先是构建了一个根据DiT-XL/2规划的测验渠道，以便利后续研讨“嫁接”对模型质量的影响，然后实际运用“嫁接”技术开发了一系列混合规划。

　　成果发现，许多混合规划在运用不到2%的预练习核算量的情况下，获得了和本来大差不差的模型功能。

　　将这一办法应用于文生图模型PixArt-Σ，其生成速度提高了1.43倍，但生成图画的质量只下降了不到2%。

　　以上阐明，“嫁接”的确能成为一种轻量级、高效的架构探究东西，能够让研讨者在短少核算资源的情况下测验新主意。

　　众所周知，模型架构规划一般触及测验不同的组件（如注意力机制、卷积层）和装备（如模型深度、宽度）。

　　而作为一种架构修正办法，“嫁接”主要是经过修正预练习DiTs的核算图来完成新架构的验证，详细则主要是经过激活蒸馏和轻量级微调这两个要害阶段来完成。

　　所谓核算图，是指模型内部的运算逻辑结构——由多层Transformer块组成，每个块包括自注意力（MHA）、多层感知器（MLP）等算子（Operator），这些算子按特定次序衔接，构成履行生成使命的“数据流途径”。

　　假如简略地把新算子的权重随机初始化，它或许一开端就会和模型的其他部分不协调，导致模型功能下降。

　　当替换多个算子时，每个替换都或许引进一些差错。一旦差错逐步堆集，终究或许会导致模型功能大幅下降。

　　而且，为了评价“嫁接”自身的作用，研讨真实开端前还引进了自嫁接（self-grafting）作为对照试验。

　　所谓自嫁接，是指将现有MHA、MLP等替换为相同类型但权重随机初始化的算子。

　　此外，即使替换DiT-XL/2中一切的多头注意力（MHA）或多层感知器（MLP）层，仅运用10%的练习数据来进行微调，模型也能正常康复。

　　经过将DiT-XL/2中的注意力层MHA替换为滑动窗口注意力（SWA）或门控卷积（Hyena-X），在50%替换份额下，FID仅比基线（FID值越低，阐明越挨近原始功能）。

　　而100%全替换会导致FID骤降（数值75），生成质量溃散，这阐明并非一切层都能被部分算子代替，即模型中存在“有必要依靠大局信息” 的层，而另一部分层可接受部分核算。

　　团队还测验将DiT-XL/2中的感知器层MLP也进行了替换，成果在将MLP的扩展比改成r=3或r=6的情况下，就算全换掉，模型作用也挺好，这阐明MLP宽度改起来不容易出问题。

　　一言以蔽之，多种混合规划的生成质量均挨近原模型，且核算成本不到预练习的2%。

　　接下来，研讨人员对文生图模型PixArt-Σ进行了“嫁接”，将MHA替换为Hyena-X，成果运用12k组成数据微调后，完成了1.43倍速度提高（从235ms→164ms），GenEval分数从49.75→47.78（下降小于2%）。

　　经过将DiT-XL/2的28层次序块转为14层并行块（每对次序块并行履行），在深度折半的情况下，模型生成质量优于同类深度模型。

　　不过最终，团队也提到了研讨的局限性。一是仅在DiT-XL/2模型进步行了验证，二是仅测验了替换成Hyena-X和SWA的作用，定论的普适性受限。

　　但不管怎样，团队以为“嫁接”这种办法在探究新的模型架构方面显示出很大的潜力，尤其是在需求高效使用核算资源的场景中。