橙色云资讯 - 工业互联网行业信息门户

任意分辨率无缝衔接！清华团队提出“高分辨率”图像生成法，生成式AI 踩下“加速键”

汤圆爱科技 2023-09-14

2269 字丨阅读本文需 6 分钟

在火热的“AI 图像生成”领域，任意不同分辨率的无缝衔接扩散模型，出现了。

近日，来自清华大学和智谱 AI 的研究团队联合提出了一个新型级联模型——Relay Diffusion（RDM）。据介绍，运用该模型，扩散过程可以在任何新的分辨率或模型下无缝进行，而无需从纯噪声重新开始生成。相关研究论文以“Relay Diffusion: Unifying diffusion process across resolutions for image synthesis”为题已发表在预印本网站 arXiv 上，相关代码已发布在 GitHub 上。

近些年来，扩散模型（Diffusion）在图像合成方面取得了巨大的成功，显著提升了图片合成的质量。然而，扩散模型在合成高分辨率图片时仍面临较大挑战。

8秒到4秒，采样速度快了整整一倍

清华大学计算机系朱军教授带领的TSAIL 团队提出 DPM-Solver（NeurIPS 2022 Oral，约前 1.7%）和 DPM-Solver++，将扩散模型的快速采样算法提升到了极致：无需额外训练，仅需10到25步就可以获得极高质量的采样。

要说 AI 领域今年影响力最大的进展，爆火的 AI 作图绝对是其中之一。设计者只需要输入对图片的文字描述，就可以由 AI 生成一张质量极高的高分辨率图片。目前，使用范围最广的当属 StabilityAI 的开源模型 Stable Diffusion，模型一经开源就在社区引起了广泛的讨论。

然而，扩散模型在使用上最大的问题就是其极慢的采样速度。模型采样需要从纯噪声图片出发，一步一步不断地去噪，最终得到清晰的图片。在这个过程中，模型必须串行地计算至少50到100步才可以获得较高质量的图片，这导致生成一张图片需要的时间是其它深度生成模型的50到100倍，极大地限制了模型的部署和落地。

为了加速扩散模型的采样，许多研究者从硬件优化的角度出发，例如Google使用JAX语言将模型编译运行在TPU上，OneFlow团队使用自研编译器将Stable Diffusion做到了“一秒出图”。这些方法都基于50步的采样算法PNDM，该算法在步数减少时采样效果会急剧下降。这一纪录又被刷新了Stable Diffusion的官方Demo更新显示，采样8张图片的时间从原来的8秒钟直接被缩短至了4秒钟！快了整整一倍！而基于自研深度学习编译器技术的OneFlow团队更是在不降低采样效果的前提下，成功将之前的“一秒出图”缩短到了“半秒出图”！在GPU上仅仅使用不到0.5秒就可以获得一张高清的图片！

事实上，这些工作的核心驱动力都来自于清华大学朱军教授带领的 TSAIL 团队所提出的 DPM-Solver，一种针对于扩散模型特殊设计的高效求解器：该算法无需任何额外训练，同时适用于离散时间与连续时间的扩散模型，可以在 20 到 25 步内几乎收敛，并且只用10到15步也能获得非常高质量的采样。在Stable Diffusion 上，25步的DPM-Solver就可以获得优于50步PNDM的采样质量，因此采样速度直接翻倍！

无缝衔接扩散模型，清华大学交出接力棒

近日，清华大学和智谱 AI 的研究团队联合提出了一个新型级联模型，主要解决合成高分辨率图片的质量问题。目前，在这方面有两个难点，一是低分辨率的噪声调度很难直接用于高分辨率，研究者们需要为高分辨的场景谨慎地调节噪声调度表，且仍难以获得良好的结果；二是高分辨的训练过程需要大量资源，计算成本较高。

目前，一种普遍采用的解决方案是 latent (stable) diffusion 提出的在隐空间内训练，再映射回像素空间，但这种方法不可避免地会受到底层伪影（low-level artifacts）的影响；另一种方案则是训练一系列不同分辨率的超分扩散模型构成级联，现有的级联方法是有效的，但它需要在每个阶段从噪音开始完整采样，效率较低，且效果严重依赖于条件增强等训练技巧。

为了更好地解决上述问题，研究团队提出的级联模型 Relay Diffusion 在具备原有级联方法优点的同时，借助模糊扩散过程（blurring diffusion）和块状噪音（block noise），可以在任意不同分辨率间无缝衔接，就像“接力赛”一样，极大地减少了训练和采样的成本。

据论文描述，通过离散余弦变换频谱分析发现，相同噪声强度在更高的分辨率下对应于频率空间的信噪比（SNR）在低频部分更高，这意味着自然图像的低频信息没有被很好地破坏掉。为此，该研究提出了一种像素点间具有相关性的块状噪音——block noise，它在高分辨率下对应的 SNR 在低频部分和高斯噪音在低分辨率下的 SNR 相当。

以 64×64 和 256×256 为例，Relay Diffusion 的整体流程为：先通过标准扩散过程生成低分辨率图片，再将其上采样为每个 4×4 网格具有相同像素值的模糊高分辨率图片，之后对每个 4×4 的网格独立进行模糊扩散过程（blurring diffusion）。这样使得前向过程的终态和上采样的模糊图片对齐，因此 Relay Diffusion 的第二阶段可以直接以模糊图片为起始点，而不是现有级联方法中的纯高斯噪音。

实验结果显示，相比传统的级联扩散模型，Relay Diffusion 在生成高分辨率图片时，省去了生成低频信息的部分，极大地节约了计算成本，同时更加简单，不需要以低分辨率图片为条件和各种条件增强技巧，而且不需要重新设计或调节噪声调度表。

另外，Relay Diffusion 在节省成本的同时，还可以更快地达到更好的生成性能，在无条件数据集 CelebA-HQ-256 上达到了 SoTA 的 FID，在条件数据集 ImageNet-256 上达到了 SoTA 的 sFID 以及具有竞争力的 FID，大幅超过了 ADM、LDM、DiT 等模型。当不使用无分类器指导（CFG）时，Relay Diffusion 也显示出强大的性能优势。研究团队表示，本次研究提出的级联模型有助于创建更先进的文本到图像模型。

总结：

2023年，AIGC概念持续火爆，AI生成图像的工具更是愈发层出不穷。截止目前，市面上应用知名度较高的AI生成图片工具有Canva、Stable Diffusion、MidJourney、DALL·E 2、Dream Studio 、Jasper.ai Art、Deep Dream、Night Cafe等等。

生成式AI是指能够生成文本和图像的机器学习算法技术。随着ChatGPT的火热，AI及生成式AI成为时下的热点，据路透社记者统计，AI、生成式AI或机器学习等词出现的频率是上一季度的2~6倍。而谷歌在财报会议中提及AI的次数从第三季度的13次增加到了45次，微软提及AI的次数从第三季度的15次增加到了39次。

清华团队提出“高分辨率”图像生成方法无疑会再次推动该领域的发展，具体表现为：

1. Relay Diffusion 的出现将极大地推动 AI 图像生成领域的发展。传统的级联扩散模型在合成高分辨率图片时面临诸多挑战，而 Relay Diffusion 借助模糊扩散过程和块状噪音，实现了在任意不同分辨率间无缝衔接，提高了生成图片的质量和效率。

2. Relay Diffusion 的创新点在于其模糊扩散过程和块状噪音的设计。这种设计使得自然图像的低频信息得到了更好的保留，同时在高分辨率下实现了与低分辨率相似的噪声强度，从而提高了生成图片的质量。

3. Relay Diffusion 的研究成果对于计算资源有限的团队和个人来说具有重大意义。该模型在节省计算成本的同时，还能更快地达到更好的生成性能，这对于推动文本到图像模型的研究和发展具有积极影响。

4. 从 Relay Diffusion 的研究成果来看，未来 AI 图像生成领域的发展将更加注重模型在不同分辨率下的适应性和效率。这种趋势将推动更多研究者关注和解决这一问题，从而推动整个领域的进一步发展。

文章来源：学术头条，PaperWeekly，36kr

免责声明：凡注明来源本网的所有作品，均为本网合法拥有版权或有权使用的作品，欢迎转载，注明出处本网。非本网作品均来自其他媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如您发现有任何侵权内容，请依照下方联系方式进行沟通，我们将第一时间进行处理。

0赞好资讯，需要你的鼓励

来自：汤圆爱科技

0 0

参与评论

登录后参与讨论 0/1000

下一篇 5G是本 8K是魂 TCL提速发布全球首款5G 8K智屏

撰文/蓝科技不要再盲目崇拜外资电视品牌。进...

2020-08-21

任意分辨率无缝衔接！清华团队提出“高分辨率”图像生成法，生成式AI 踩下“加速键”

参与评论

协同+研发

400-800-1557

我是需求方

我是服务商

交易保障

帮助中心

工程社区

任意分辨率无缝衔接！清华团队提出“高分辨率”图像生成法，生成式AI 踩下“加速键”

参与评论

为你推荐

天玑8000加持！Redmi Note 12系列入网：首次搭载旗舰级芯片

智能网联汽车周报(6月第三周) | 《汽车软件升级通用技术要求》征求意见；中国牵头成立ISO车载激光雷达工作组

智能网联汽车周报(7月第一周) | 广州智能网联自动驾驶混行试点南沙首发；浙江德清颁发L4级自动驾驶卡车路测牌照

半年融资827亿，1.2万字看懂新能源汽车产业图谱

燧原科技完成C＋轮融资，大基金二期入股｜ 镁客网每周硬科技领域投融资汇总（8.6-8.12）

智能网联汽车周报(3月第三周) | 工信部将开展汽车软件在线升级管理试点；湖南发布智能网联汽车产业“十四五”规划

智能网联汽车周报(6月第一周) | 长安6月30日起关闭远程智能泊车等功能；首款前装量产全无人驾驶环卫车批量交付

智能网联汽车周报(1月第一周) | 首个自动驾驶公交车标准发布；京台高速部分路段为智能网联车测试道路

中国智慧城市“药方”如何化解海外城市治理症结？

智能网联汽车周报(11月第三周) | 工信部发布十四五信息通信行业发展规划，福特车路协同系统正式落地广州

AI新基建：AIoT领域群雄逐鹿，七家标杆企业各有什么过人之处？

RISC-V只适用于嵌入式芯片？以IoT为立足点，RISC-V正在“征服”整个半导体世界

下一个消费电子蓝海，VR/AR市场海外玩家走到哪一步，中国大厂布局情况又如何？

虚拟偶像、虚拟主播逐渐出现在人们的视野中，未来虚拟人行业将向何发展？

“灯塔工厂”的中国路径：智造从点到面铺开

国产屏厂TCL华星要打入苹果供应链：为iPad、MacBook出货LCD

国产CIS开始向2亿像素时代迈进，巨头垄断格局或将被打破

AI健身/3D试衣/AI烤肉……黑科技扎堆的AWE2021都有哪些硬货？

Nreal国内首发AR眼镜，消费级AR眼镜潮即将爆发，VR/AR产业链开启“卡位战”

研究人员研发仿生二合一纳米电子传感器，可同时测量细胞电气和机械反应

国家电投与阿里巴巴宣布战略合作，数字化转型这条路上，央企各显神通

新材料七国的竞争版图：热门行业分布大集锦，未来10年的市场机会或许在这

智能网联汽车周报(8月第一周) | 自然资源部开展汽车高精度地图应用试点；智能网联汽车测试示范区评估结果发布

SiC迎来“奇点时刻”，盘点近期产能、需求量、交易等行业大事件

智能网联汽车周报(1月第三周) | 北京建设2022年高级别自动驾驶示范区3.0；上海将制定智能网联汽车终端发展计划

年内 IPO 上市？哪吒汽车完成超 20 亿融资｜ 镁客网每周硬科技领域投融资汇总

下一个10年，将会发生的12个趋势

从工业机器人产业链看智能制造机会

最新总结：冬奥会的100个创业机会

后疫情时代，OTA如何回血

相关推荐

协同+研发

400-800-1557

我是需求方

我是服务商

交易保障

帮助中心

工程社区

燧原科技完成C＋轮融资，大基金二期入股｜镁客网每周硬科技领域投融资汇总（8.6-8.12）

年内 IPO 上市？哪吒汽车完成超 20 亿融资｜镁客网每周硬科技领域投融资汇总