任意分辨率无缝衔接!清华团队提出“高分辨率”图像生成法,生成式AI 踩下“加速键”

汤圆爱科技 2023-09-14
2269 字丨阅读本文需 6 分钟

在火热的“AI 图像生成”领域,任意不同分辨率的无缝衔接扩散模型,出现了。

近日,来自清华大学和智谱 AI 的研究团队联合提出了一个新型级联模型——Relay Diffusion(RDM)。据介绍,运用该模型,扩散过程可以在任何新的分辨率或模型下无缝进行,而无需从纯噪声重新开始生成。相关研究论文以“Relay Diffusion: Unifying diffusion process across resolutions for image synthesis”为题已发表在预印本网站 arXiv 上,相关代码已发布在 GitHub 上。

近些年来,扩散模型(Diffusion)在图像合成方面取得了巨大的成功,显著提升了图片合成的质量。然而,扩散模型在合成高分辨率图片时仍面临较大挑战。

8秒到4秒,采样速度快了整整一倍

清华大学计算机系朱军教授带领的TSAIL 团队提出 DPM-Solver(NeurIPS 2022 Oral,约前 1.7%)和 DPM-Solver++,将扩散模型的快速采样算法提升到了极致:无需额外训练,仅需10到25步就可以获得极高质量的采样。

要说 AI 领域今年影响力最大的进展,爆火的 AI 作图绝对是其中之一。设计者只需要输入对图片的文字描述,就可以由 AI 生成一张质量极高的高分辨率图片。目前,使用范围最广的当属 StabilityAI 的开源模型 Stable Diffusion,模型一经开源就在社区引起了广泛的讨论。

然而,扩散模型在使用上最大的问题就是其极慢的采样速度。模型采样需要从纯噪声图片出发,一步一步不断地去噪,最终得到清晰的图片。在这个过程中,模型必须串行地计算至少50到100步才可以获得较高质量的图片,这导致生成一张图片需要的时间是其它深度生成模型的50到100倍,极大地限制了模型的部署和落地。

为了加速扩散模型的采样,许多研究者从硬件优化的角度出发,例如Google使用JAX语言将模型编译运行在TPU上,OneFlow团队使用自研编译器将Stable Diffusion做到了“一秒出图”。这些方法都基于50步的采样算法PNDM,该算法在步数减少时采样效果会急剧下降。这一纪录又被刷新了Stable Diffusion的官方Demo更新显示,采样8张图片的时间从原来的8秒钟直接被缩短至了4秒钟!快了整整一倍!而基于自研深度学习编译器技术的OneFlow团队更是在不降低采样效果的前提下,成功将之前的“一秒出图”缩短到了“半秒出图”!在GPU上仅仅使用不到0.5秒就可以获得一张高清的图片!

事实上,这些工作的核心驱动力都来自于清华大学朱军教授带领的 TSAIL 团队所提出的 DPM-Solver,一种针对于扩散模型特殊设计的高效求解器:该算法无需任何额外训练,同时适用于离散时间与连续时间的扩散模型,可以在 20 到 25 步内几乎收敛,并且只用10到15步也能获得非常高质量的采样。在Stable Diffusion 上,25步的DPM-Solver就可以获得优于50步PNDM的采样质量,因此采样速度直接翻倍!

无缝衔接扩散模型,清华大学交出接力棒

近日,清华大学和智谱 AI 的研究团队联合提出了一个新型级联模型,主要解决合成高分辨率图片的质量问题。目前,在这方面有两个难点,一是低分辨率的噪声调度很难直接用于高分辨率,研究者们需要为高分辨的场景谨慎地调节噪声调度表,且仍难以获得良好的结果;二是高分辨的训练过程需要大量资源,计算成本较高。

目前,一种普遍采用的解决方案是 latent (stable) diffusion 提出的在隐空间内训练,再映射回像素空间,但这种方法不可避免地会受到底层伪影(low-level artifacts)的影响;另一种方案则是训练一系列不同分辨率的超分扩散模型构成级联,现有的级联方法是有效的,但它需要在每个阶段从噪音开始完整采样,效率较低,且效果严重依赖于条件增强等训练技巧。

为了更好地解决上述问题,研究团队提出的级联模型 Relay Diffusion 在具备原有级联方法优点的同时,借助模糊扩散过程(blurring diffusion)和块状噪音(block noise),可以在任意不同分辨率间无缝衔接,就像“接力赛”一样,极大地减少了训练和采样的成本。

据论文描述,通过离散余弦变换频谱分析发现,相同噪声强度在更高的分辨率下对应于频率空间的信噪比(SNR)在低频部分更高,这意味着自然图像的低频信息没有被很好地破坏掉。为此,该研究提出了一种像素点间具有相关性的块状噪音——block noise,它在高分辨率下对应的 SNR 在低频部分和高斯噪音在低分辨率下的 SNR 相当。

以 64×64 和 256×256 为例,Relay Diffusion 的整体流程为:先通过标准扩散过程生成低分辨率图片,再将其上采样为每个 4×4 网格具有相同像素值的模糊高分辨率图片,之后对每个 4×4 的网格独立进行模糊扩散过程(blurring diffusion)。这样使得前向过程的终态和上采样的模糊图片对齐,因此 Relay Diffusion 的第二阶段可以直接以模糊图片为起始点,而不是现有级联方法中的纯高斯噪音。

实验结果显示,相比传统的级联扩散模型,Relay Diffusion 在生成高分辨率图片时,省去了生成低频信息的部分,极大地节约了计算成本,同时更加简单,不需要以低分辨率图片为条件和各种条件增强技巧,而且不需要重新设计或调节噪声调度表。

另外,Relay Diffusion 在节省成本的同时,还可以更快地达到更好的生成性能,在无条件数据集 CelebA-HQ-256 上达到了 SoTA 的 FID,在条件数据集 ImageNet-256 上达到了 SoTA 的 sFID 以及具有竞争力的 FID,大幅超过了 ADM、LDM、DiT 等模型。当不使用无分类器指导(CFG)时,Relay Diffusion 也显示出强大的性能优势。研究团队表示,本次研究提出的级联模型有助于创建更先进的文本到图像模型。

总结:

2023年,AIGC概念持续火爆,AI生成图像的工具更是愈发层出不穷。截止目前,市面上应用知名度较高的AI生成图片工具有Canva、Stable Diffusion、MidJourney、DALL·E 2、Dream Studio 、Jasper.ai Art、Deep Dream、Night Cafe等等。

生成式AI是指能够生成文本和图像的机器学习算法技术。随着ChatGPT的火热,AI及生成式AI成为时下的热点,据路透社记者统计,AI、生成式AI或机器学习等词出现的频率是上一季度的2~6倍。而谷歌在财报会议中提及AI的次数从第三季度的13次增加到了45次,微软提及AI的次数从第三季度的15次增加到了39次。

清华团队提出“高分辨率”图像生成方法无疑会再次推动该领域的发展,具体表现为:

1. Relay Diffusion 的出现将极大地推动 AI 图像生成领域的发展。传统的级联扩散模型在合成高分辨率图片时面临诸多挑战,而 Relay Diffusion 借助模糊扩散过程和块状噪音,实现了在任意不同分辨率间无缝衔接,提高了生成图片的质量和效率。

2. Relay Diffusion 的创新点在于其模糊扩散过程和块状噪音的设计。这种设计使得自然图像的低频信息得到了更好的保留,同时在高分辨率下实现了与低分辨率相似的噪声强度,从而提高了生成图片的质量。

3. Relay Diffusion 的研究成果对于计算资源有限的团队和个人来说具有重大意义。该模型在节省计算成本的同时,还能更快地达到更好的生成性能,这对于推动文本到图像模型的研究和发展具有积极影响。

4. 从 Relay Diffusion 的研究成果来看,未来 AI 图像生成领域的发展将更加注重模型在不同分辨率下的适应性和效率。这种趋势将推动更多研究者关注和解决这一问题,从而推动整个领域的进一步发展。

文章来源: 学术头条,PaperWeekly,36kr

免责声明:凡注明来源本网的所有作品,均为本网合法拥有版权或有权使用的作品,欢迎转载,注明出处本网。非本网作品均来自其他媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。如您发现有任何侵权内容,请依照下方联系方式进行沟通,我们将第一时间进行处理。

0赞 好资讯,需要你的鼓励
来自:汤圆爱科技
0

参与评论

登录后参与讨论 0/1000

为你推荐

加载中...