近日,腾讯旗下的混元文生图大模型宣告对外开源,目前已在 Hugging Face平台及 Github 上发布,包含模型权重、推理代码、模型算法等完全模型,可供企业与个人开拓者免费商用。

官网地址:https://dit.hunyuan.tencent.com/

不会英语可以学建筑设计 工艺流程

GitHub 项目地址:https://github.com/Tencent/HunyuanDiT

Hugging Face 模型地址:https://huggingface.co/Tencent-Hunyuan/HunyuanDiT

技能报告地址:https://tencent.github.io/HunyuanDiT/asset/Hunyuan_DiT_Tech_Report_05140553.pdf

1. 如何利用:

登录晨羽智云(https://www.suanyun.cn/console/pod/16e5af32a3e547528fe581fd16f8edef)

一键利用最新版本,享受开箱即用带来的便利。

2.效果如何:

与这些 SOTA 模型的定性比较结果如下图所示。

中文原生也是腾讯混元文生图大模型的一大亮点。
此前,像 Stable Diffusion 等主流开源模型核心数据集以英文为主,对中国的措辞、美食、文化、习俗都理解不足。
作为首个中文原生的 DiT 模型,混元文生图具备了中英文双语理解及天生能力,在古诗词、鄙谚、传统建筑、中富丽食等中国元素的天生上表现出色。
我们可以看以下一些天生示例。

3.有什么特色上风:

据腾讯文生图卖力人芦清林分享,在原始DiT架构之上,混元DiT有三大升级:

一是强大建模能力,将文生图架构从自研U-Net架构升级为更大参数的DiT模型,提升图像质量和扩展能力,让DiT架构具备了长文本理解能力,支持最长256个字符的图片天生指令;同时利用多模态大措辞模型,对大略/抽象的用户指令文本进行强化,转写成更丰富/具象的画面文本描述,终极提升文生图的天生效果。

二是增加中文原生的理解能力,自主演习中文原生文本编码器,让中文语义理解能力更强,对中文新观点学习速率更快,对中文认知更深刻,同时让模型更细致地分辨不同粒度文本信息。

三是增强多轮对话能力,与自研大措辞模型结合,让模型具备高下文连贯的理解能力,同时通过技能手段掌握同一话题与主体下图片主体的同等性。

1、核心算子升级:

从UNet到DiT的飞跃 去年学术界推出了根本的DiT架构,而混元DiT在此根本上进行了创新升级,实现了更强大的语义编码能力,尤其针对长篇幅和繁芜文本的理解更为精准。
它原生支持中英双语,且模型尺寸易于扩展。
混元DiT架构的演习过程更为稳定,通过优化构造,能够支持数十亿参数的模型和高达1024分辨率的稳定演习。
它还具备出色的生态兼容性,能够灵巧集成ControlNet、LoRA、IP-Adapter、Photomaker等Stable Diffusion社区的插件。
此外,该架构支持多分辨率图像输出,提升了不同分辨率天生图像的质量,包括1:1、4:3、2:4、16:9、9:16等比例,以及768至1280分辨率的图像天生。

2、措辞编码器升级:

原生中文理解力 混元文生图是首个支持中文原生的DiT模型,具备中英文双语理解及天生能力,在古诗词、鄙谚、传统建筑、中富丽食等中国元素的天生上表现出色。
通过措辞编码器的升级,混元DiT架构对中文的理解更为深入,与以英文为核心的主流开源模型比较,它能够更好地理解中国的措辞、美食、文化、习俗和地标。
例如,在天生昆曲艺术家演出的图像时,混元文生图在理解昆曲艺术方面明显优于其他国外主流文生图模型。
升级后的混元文生图能够更细致地分辨信息。
其演习方法采取正负样本比拟学习丢失,让模型学会区分对错,实现更风雅的属性理解和表达。

3、绘图与对话能力提升:

多轮交互新体验 混元文生图在算法上实现了创新,具备多轮生图和对话的能力,可以在初始天生的图片根本上,通过自然措辞描述进行调度,以得到更满意的效果。
例如,初始指令为“天生一朵长在森林中的白色玫瑰”,随后可哀求“改为百合花”、“改为粉色”、“改为动漫风格”;或者初始指令为“画一只色彩斑斓的折纸小狐狸”,随后可哀求“背景换成沙漠”、“狐狸换成小狗”。
模型的交互难度降落,用户无需编写繁芜的生图提示词指令。
混元文生图支持多轮图文指令理解,实现多轮交互式图片编辑天生,支持超过十轮的对话。