百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 编程网 > 正文

英伟达联合MIT、清华提出文生图框架Sana,可秒出高分辨率图像

yuyutoo 2024-10-27 16:57 6 浏览 0 评论

近年来,文本到图像的生成技术取得了显著进展,这尤其得益于潜在扩散模型(Latent Diffusion Models)的提出与应用。


潜在扩散模型由 Rombach 等人于 2022 年首次提出[1],它是一种通过在预训练的自动编码器生成的潜在空间中进行扩散与逆扩散的技术。由于潜在空间中的维度较低,因此,相比直接在像素空间中操作,它大大降低了计算量,进而使我们能在较低的计算资源需求下实现高质量的图像生成。




但另一方面,许多模型的参数却不断扩大。从 PixArt 的 0.6B 参数到 Flux 的 12B 参数,其训练和推理的成本始终居高不下,使用门槛也较高,这显然不利于技术的进一步发展。


因此,如何在保持图像质量的前提下,开发出计算效率高、运行速度快且易于使用的图像生成器,成为了一个重要的问题。


正是在这一背景下,英伟达联合麻省理工学院与清华大学团队,发表了一篇预印本论文,提出了一种新的文生图框架 Sana,能够高效生成最高分辨率为 4096×4096 的高质量图像,对这一难题做出解答[2]。



相比于传统的大型扩散模型,Sana 在模型大小上显著缩减,并在推理速度方面实现了巨大的提升。在生成 1K 分辨率图像时,Sana-0.6B 速度比当前最先进的模型 FLUX 快了 40 倍以上。而 Sana 之所以能在性能与效率之间实现良好的平衡,归功于其核心架构的一系列革新。


Sana 的优势首先得益于其所使用的深度压缩自动编码器(Deep Compression Autoencoder)。传统的自动编码器通常只能将图像的长度和宽度压缩 8 倍,Sana 采用了一种新的自动编码器,压缩倍数高达 32 倍。




这种高倍数的压缩显著减少了潜在 token 的数量,从而降低了训练和推理的计算量,特别适用于超高分辨率图像的生成。通过这种方式,Sana 得以在降低计算开销的同时,保证了生存图像的质量,做到了高效率与高质量的兼得。


其次,Sana 采用了一种高效的线性 DiT (Linear Diffusion Transformer)来替代传统的二次方复杂度的自注意力模块。以往的自注意力机制计算复杂度为 O(N2),在处理高分辨率图像时为二次增长,因而需要大量的计算资源。


而 Sana 通过使用线性注意力,将计算复杂度降低至 O(N),由此显著提高了处理高分辨率图像时的计算效率。


同时,研究团队还引入了 Mix-FFN 模块以替代 MLP-FFN,将 3×3 深度卷积整合到多层感知器(Multilayer Perceptron,MLP)中,从而更好地聚合 token 的局部信息。结果表明,这种模块设计使得线性注意力在性能上与传统的自注意力相媲美,但在生成 4K 图像时,其延迟缩短了 1.7 倍。


而且,Mix-FFN 无需位置编码(NoPE)就能保持生成性能,是首个完全省略位置嵌入的 DiT。


Sana 的另一处创新在于对文本编码器的选择。团队使用了最新的仅解码器式小型 LLM Gemma-2 作为文本编码器,以增强对用户提示的理解和推理能力。


与之前广泛使用的 T5 或 CLIP 编码器相比,Gemma-2 具有更强的文本理解和指令跟随能力,在理解和生成用户提示方面表现更加优秀,从而使生成的图像在内容和细节上更符合预期。


并且,研究人员通过设计复杂的人类指令(Complex Human Instruction,CHI),结合上下文学习,进一步提高了 Sana 的文本-图像对齐能力。


为了进一步提高训练和推理的效率,团队还提出了一套高效的训练和采样策略。


在训练过程中,Sana 使用多种视觉语言模型(Visual Language Model,VLM)对图像进行自动标签,并通过基于 Clipscore 的采样策略来选择最合适的标签,从而提高训练的收敛速度和文本与图像的对齐程度。相比于传统的随机选择标签的方法,这种策略显著减少了训练过程中的不确定性,并加速了模型的收敛。


在推理阶段,团队提出了 Flow-DPM-Solver 采样方法,将采样步骤从传统的 28-50 步减少至 14-20 步,并且在采样质量上实现了进一步提升。这种改进不仅提高了采样的效率,还在很大程度上降低了计算资源的需求,使得 Sana 能够在较低的硬件配置上运行。


实验结果表明,Sana-0.6B 不仅在参数数量上远小于许多现有的扩散模型,而且在计算速度上也有显著的优势。在一张 16GB GPU 的 PC 端上,Sana-0.6B 可以在不到 1 秒的时间内生成分辨率为 1024×1024 的图像,这意味着它在低成本的内容创作和边缘设备部署上具有极大的应用潜力。




而在生成 4096×4096 的高分辨率图像时,其推理延迟也仅为 9.6 秒。相比之下,当前最先进的 FLUX 模型需要 469 秒才能完成同样的任务。


进一步的测试显示,在1024×1024 分辨率下,Sana 的生成速度比 LUMINA-Next、SDXL 以及 PixArt-Σ 等同类模型均快了数倍,同时保持了非常高的生成质量。


在生成性能上,Sana-0.6B 的每秒吞吐量达到了 1.7 张图像,而且参数量为 1.6B 的 Sana 版本也能实现 1.0 张每秒的速度,这表明 Sana 在维持高图像质量的前提下依旧具备极高的推理效率。




总结来说,Sana 为高效的高分辨率图像生成提供了一个有潜力的基础模型,其显著的计算效率和速度优势,使得高分辨率图像生成技术向低成本、低门槛方向迈出了重要的一步。未来,团队计划基于 Sana 构建高效的视频生成流程,将其应用拓展至动态内容生成领域。


相关代码即将公布在 GitHub(项目地址:https://github.com/NVlabs/Sana)。


参考资料:

1.https://arxiv.org/abs/2112.10752

2.https://arxiv.org/abs/2410.10629


运营/排版:何晨龙

相关推荐

.NET 奇葩问题调试经历之3——使用了grpc通讯类库后,内存一直增长......

...

全局和隐式 using 指令详解(全局命令)

1.什么是全局和隐式using?在.NET6及更高版本中,Microsoft引入了...

请停止微服务,做好单体的模块化才是王道:Spring Modulith介绍

1、介绍模块化单体是一种架构风格,代码是根据模块的概念构成的。对于许多组织而言,模块化单体可能是一个很好的选择。它有助于保持一定程度的独立性,这有助于我们在需要的时候轻松过渡到微服务架构。Spri...

ASP.NET程序集引用之痛:版本冲突、依赖地狱等解析与实战

我是一位多年后端经验的工程师,其中前几年用ASP.NET...

.NET AOT 详解(.net 6 aot)

简介AOT(Ahead-Of-TimeCompilation)是一种将代码直接编译为机器码的技术,与传统的...

一款基于Yii2开发的免费商城系统(一款基于yii2开发的免费商城系统是什么)

哈喽,我是老鱼,一名致力于在技术道路上的终身学习者、实践者、分享者!...

asar归档解包(游戏arc文件解包)

要学习Electron逆向,首先要有一个Electron开发的程序的发布的包,这里就以其官方的electron-quick-start作为例子来进行一下逆向的过程。...

在PyCharm 中免费集成Amazon CodeWhisperer

CodeWhisperer是Amazon发布的一款免费的AI编程辅助小工具,可在你的集成开发环境(IDE)中生成实时单行或全函数代码建议,帮助你快速构建软件。简单来说,AmazonCodeWhi...

2014年最优秀JavaScript编辑器大盘点

1.WebstormWebStorm是一种轻量级的、功能强大的IDE,为Node.js复杂的客户端开发和服务器端开发提供完美的解决方案。WebStorm的智能代码编辑器支持JavaScript,...

基于springboot、tio、oauth2.0前端vuede 超轻量级聊天软件分享

项目简介:基于JS的超轻量级聊天软件。前端:vue、iview、electron实现的PC桌面版聊天程序,主要适用于私有云项目内部聊天,企业内部管理通讯等功能,主要通讯协议websocket。支持...

JetBrains Toolbox推出全新产品订阅授权模式

捷克知名软件开发公司JetBrains最为人所熟知的产品是Java编程语言开发撰写时所用的集成开发环境IntelliJIDEA,相信很多开发者都有所了解。而近期自2015年11月2日起,JetBr...

idea最新激活jetbrains-agent.jar包,亲测有效

这里分享一个2019.3.3版本的jetbrains-agent.jar,亲测有效,在网上找了很多都不能使用,终于找到一个可以使用的了,这里分享一下具体激活步骤,此方法适用于Jebrains家所有产品...

CountDownTimer的理解(countdowntomars)

CountDownTimer是android开发常用的计时类,按照注释中的说明使用方法如下:kotlin:object:CountDownTimer(30000,1000){...

反射为什么性能会很慢?(反射时为什么会越来越长)

1.背景前段时间维护一个5、6年前的项目,项目总是在某些功能使用上不尽人意,性能上总是差一些,仔细过了一下代码发现使用了不少封装好的工具类,工具类里面用了好多的反射,反射会影响到执行效率吗?盲猜了一...

btrace 开源!基于 Systrace 高性能 Trace 工具

介绍btrace(又名RheaTrace)是抖音基础技术团队自研的一款高性能AndroidTrace工具,它基于Systrace实现,并针对Systrace不足之处加以改进,核心改进...

取消回复欢迎 发表评论: