回归模子建筑设计

量子位 | "大众年夜众号 QbitAI

只需Image Tokenizer，Llama也能做图像天生了，而且效果超过了扩散模型。

回归模子建筑设计施工管理

来自港大和字节的研究职员，提出了基于自回归模型Llama的图像天生方法。

目前该模型已经开源，并在GitHub斩获了近900颗星标。

扩散模型涌现后，取代了自回归方法，一度成为图像天生的主流技能路线。

但在ImageNet测试基准上，作者提出的LlamaGen表现超越了LDM、DiT等扩散模型。

作者的这一创造，证明了最原始的自回归模型架构同样可以实现极具竞争力的图像天生性能。

那么，基于自回归模型，或者说基于Llama的图像天生，是如何实现的呢？

用自回归模型做图像天生

作者先容，开源社区对自回归模型做图像天生的印象大多勾留在2020年的VQ-GAN的ImageNet基准上取得的15旁边的FID分数。

然而，早在2021年的ViT-VQGAN已经达到了FID 3.0旁边的性能，DALL-E 1，Parti等更是在文生图领域展现了巨大的潜力。

不过这些事情都没有开源，于是，研究团队将目标设定成了推出开源版的基于自回归图像天生模型。

针对现有的前辈的图像天生模型，作者总结出其成功的三点关键设计：

图像压缩/量化器（Image Compressors/Tokenizers）可scale up的图像天生模型（Scalable Image generation models）高质量的演习数据（High-quality Training Data）

于是，作者采取了与VQ-GAN同样的CNN架构，将连续的图像转化成离散的Token。

比较2020年的VQ-GAN，作者对Image Tokenizer有了更多的认知：

一个精良的Tokenizer须要更大的Codebook Size，更低的Codebook Vector Dimension，同时，更好的图像重修须要更多的Token数量。

△VQ-GAN架构，非本项目

架构方面，LlamaGen的模型架构紧张基于Llama措辞模型，包括利用RMSNorm的Pre-Normalization、SwiGLU和RoPE。

只管图像天生领域一些常用的技能（如AdaLN）可能进一步提高性能，但作者还是尽可能保持与Llama措辞模型千篇一律的架构。

在Class-Conditional和Text-Conditional（文生图）图像天生模型中，作者采取了利用最大略的实现：

Class或文本嵌入直接作为起始Token，后续的Image Token运用next-Token预测范式产生。

演习的过程则分为两个阶段进行。

在第一阶段，模型在LAION-COCO的50M子集上进行演习，图像分辨率为 256×256。

LAION-COCO原始数据集有6亿图文对，作者通过有效的图像URL、美学分数、水印分数、CLIP图文相似度分数和图像大小来筛选这些图像。

在第二阶段，模型在1千万规模的内部高美学质量图像上进行微调，图像分辨率为512×512。

这些美学图像的文本描述由LLaVa产生。

到了支配阶段，基于原生自回归模型架构的图像天生模型可以无缝采取现有的LLM支配框架，例如vLLM。
这也是统一模型架构的一大上风。

同时，基于vLLM的框架支配办法，为LlamaGen带来了326%-414%的加速。

效果不输扩散模型

那么，作者研究出的这款模型效果究竟若何呢？

先说作者重新演习的Image Tokenizer，它在ImageNet和COCO上优于以前的Tokenizers，包括VQGAN，ViT-VQGAN和MaskGI等。

主要的是，基于离散表征的Tokenizer与基于连续表征的VAE性能持平（例如在扩散模型中被广泛利用的SD VAE），这表明图像量化的离散表征不再是图像重修的一大瓶颈。

实际天生过程中，在ImageNet测试集上，LlamaGen在FID、IS、Precision和Recall等指标上都表现出了极强的竞争力。

个中，LlamaGen-3B模型优于广为盛行的扩散模型 LDM和DiT。
这表明最朴素的自回归模型架构有能力作为前辈图像天生系统的根本模型。

同时，与之前的自回归模型比较，LlamaGen在各个参数量级上均优于以前的模型。

作者剖析，这样的成绩是得益于更好的Image Tokenizer和Llama架构更好的扩展性。

文生图方面，经由第一阶段的演习，模型基本拥有了图文对齐的能力，但其天生图像的视觉质量有待提高。

第二阶段的演习显著提高了天生图像的视觉质量，作者认为这种提高来自两个方面——

第二阶段的演习利用了高质量的美学图像；第一阶段的图像分辨率是256x256，第二阶段是512x512，更大的图像分辨率会带来更好的视觉效果。

当输入更长的文本时，LlamaGen也可以天生兼具图文对齐与视觉质量的图像。

不过作者也坦言，如果类比扩散模型的发展路线，目前的LlamaGen只是做到了Stable Diffusion v1阶段，未来的改进方向包括SDXL（更大的分辨率，更多的Aspect Ratio），ControlNet（更高的可控性），Sora（视频天生）。

从多模态大模型的视角看，自回归模型分别实现理解任务和天生任务都被证明了可行性，下一步便是在同一个模型中联合演习。

目前该项目已经开源，而且还支持在线体验，感兴趣的话不妨一试。

在线体验：https://huggingface.co/spaces/FoundationVision/LlamaGen论文地址：https://arxiv.org/abs/2406.06525项目主页：https://peizesun.github.io/llamagen/GitHub：https://github.com/FoundationVision/LlamaGenHugging Face：https://huggingface.co/FoundationVision/LlamaGen

— 完 —

量子位 QbitAI · 头条号签约

关注我们，第一韶光获知前沿科技动态