每日AIGC最新进展(51)：昆仑万维震撼发布16B DiT-MoE图像生成模型、东北大学提出使用去噪神经权重进行高效训练、美团提出视频扩散模型量化方法

2024-07-18 13:38:03
开发
23

Diffusion Models专栏文章汇总：入门与实战

Scaling Diffusion Transformers to 16 Billion Parameters

本文介绍了DiT-MoE，一种可扩展的稀疏变分Transformer模型，它在保持与密集网络竞争力的同时，实现了高度优化的推理。通过共享专家路由和专家级平衡损失设计，DiT-MoE捕获了共同知识并减少了不同路由专家之间的冗余。

DiT-MoE通过将DiT中的部分密集前馈层替换为稀疏MoE层，实现了条件计算。每个图像块的标记被路由到一组专家（即MLP层）。此外，引入了共享专家路由和专家负载平衡损失，以优化专家专业化并减少不同路由专家之间的冗余。

实验结果表明，DiT-MoE在条件图像生成任务中的表现与密集网络相当，但推理时的计算负载更小。通过合成图像数据进一步扩展模型参数至16.5B，DiT-MoE在512×512分辨率下达到了新的SoTA FID-50K得分1.80。项目页面可在GitHub上找到。

Efficient Training with Denoised Neural Weights

本文提出了一种高效的深度神经网络（DNN）训练方法，通过使用去噪神经权重生成器来减少训练成本。传统的权重初始化方法需要手动调整，耗时且易出错。本文通过生成对抗网络（GAN）的图像到图像翻译任务，展示了权重生成器的可行性和有效性。

研究者们首先收集了大量图像编辑概念及其对应训练权重的数据集，用于训练权重生成器。为了处理不同层的特性和大量权重预测，将权重分为等大小的块，并为每个块分配索引。然后，使用扩散模型训练权重生成器，结合文本条件和块索引。通过单步去噪过程快速推断权重生成器，并使用预测的权重初始化GAN模型。

实验结果表明，使用权重生成器初始化的图像翻译模型在训练时间上比从头开始训练（如Pix2pix）快15倍，同时获得了更好的图像生成质量。与现有的高效训练方法相比，本文方法在训练时间上节省了4.6倍。此外，通过消融研究，验证了权重块大小和分组规则对权重生成器性能的影响。

QVD: Post-training Quantization for Video Diffusion Models

本文提出了一种针对视频扩散模型（VDMs）的后训练量化（PTQ）策略，名为QVD。视频扩散模型因其在生成连贯和逼真视频内容方面的显著进展而受到关注，但其在处理多帧特征时的高延迟和内存消耗限制了其应用。QVD旨在通过量化技术减少模型的内存占用并提高计算效率。

QVD引入了高时间可辨识性量化（HTDQ）方法，专为时间特征设计，保留量化特征的高可辨识性，为所有视频帧提供精确的时间指导。此外，提出了分散通道范围集成（SCRI）方法，通过每个通道的集成操作提高量化级别的覆盖率，解决激活值的离散性和不对称性问题。

通过在不同模型、数据集和位宽设置下的实验验证了QVD的有效性。特别是在W8A8位宽下，QVD的性能几乎无损，FVD（Fréchet Video Distance）指标优于现有方法205.12。实验结果表明，QVD在多种评价指标上均表现出色，证明了其在视频扩散模型量化中的优越性和通用性。

原文地址:https://blog.csdn.net/qq_41895747/article/details/140518059 本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：https://www.suanlizi.com/kf/1813810440287948800.html 如若内容造成侵权/违法违规/事实不符，请联系《酸梨子》网邮箱：1419361763@qq.com进行投诉反馈，一经查实，立即删除！

阅读全部