基于AI(artificial intelligence)的建筑设计探索——以Stable Diffusion为例Exploration of AI-based Architecture Design - A Case Study of Stable Diffusion

择要:近一年来,各种AI图像天生程序席卷了全体互联网,随着AI技能的不断进步,传统的设计行业也随之而改变。
本文紧张基于stable diffusion为例,磋商AI图像天生程序对付建筑设计的影响,简要阐述世面常见AI程序及其干系事理,探索基于AI天生的建筑设计探索,提出未来可能的建筑设计流程。
可以看出,以Stable Diffusion等为代表的图像天生软件在建筑设计领域有着广阔的运用前景,它们可以帮助建筑师在前期方案阶段快速探索多种可能性,提高设计效率和创造力。

Summary: Over the past year, various AI image generation programs have swept the entire internet, and with the continuous advancement of AI technology, the traditional design industry has also changed accordingly. This article mainly explores the impact of AI image generation programs on architectural design using stable diffusion as an example. It briefly elaborates on common AI programs and their related principles, explores AI-generated architectural design, and proposes possible future architectural design processes. It can be seen that image generation software represented by Stable Diffusion has broad application prospects in the field of architectural design. They can help architects quickly explore multiple possibilities in the early stage of the scheme, improve design efficiency and creativity.

算法驱动的建筑设计案例 住宅建筑设计

关键词:AI设计、Stable Diffusion、artificial intelligence、AI设计流程、AI设计方法

Keywords: AI design, Stable Diffusion, artificial intelligence, AI design process, AI design methods

一、 研究背景与意义

《建筑学报》曾在2022年9月以“布局未来:有关建筑学趋势的设想”为专题出版了一期杂志,个中袁烽教授在《思辨人类世中的建筑数字未来》一文中指出:建筑业的“意图——建筑制图——再现——建造”的传统流程亟待更新。
新技能时期许可机器智能可以无缝衔接从意向到建造的全过程,这种人机警能共生的设计范式将出身全新的创造力与生产力[1]。

图1:传统的设计建造流程

然而,就在这篇文章发布不到半年的韶光里,就有许多的科技公司陆续发布了以神经网络深度学习为根本的 AI (Artificial Intelligence) 绘图软件,这些软件能够依据文件天生逼真图像从而席卷了互联网,使它们成为迄今采取速率最快的技能之一[[1]]。
个中一些AI天生工具,如DALL-E、MidJourney或ChatGPT已经得到了广泛的"大众年夜众有名度。

这些AI创作的图像不仅仅运用于人物天生,也可以创造出令人惊叹的建筑方案。
AI有潜力改变建筑师在设计阶段和观点创意阶段的事情办法,大家除了惊叹以外,更多谈论的是AI将如何影响建筑设计的未来。
随着科技水平的不断进步,AI设计在未来可能成为创造力的基石。
虽然现阶段AI设计尚不完善,但是该技能的紧张上风在于AI能够快速捕捉项目的愿景并给与具象的观点,在项目的早期阶段乃至可以取代草图和观点设计[[2]]。
可以想象在未来,AI设计将会成为全体设计流程中主要的一部分,人机协作的流程将变革为“意向——天生——优化——建造——评估”的螺旋进化式流程。

图2:人工智能参与设计流程

现在比较主流的AI绘图软件有三款:DALL-E,midjourney和Stable Diffusion。
这三款软件均是基于笔墨天生图片的基本事理来进走运作[[3]]。
输入的笔墨可以理解为对设计的意向,AI通过大措辞模型根据笔墨意向天生相应的结果,设计师可以基于AI天生的结果而进行优化、建造、评估;待评估完毕后设计师将评估结果让AI进一步学习,这样一个螺旋进化式流程便形成了。

二、常见AI绘图软件干系先容

1.Stable Diffusion

Stable Diffusion是一种潜在的文本到图像扩散模型(latent text-to-image diffusion model),能够在给定任何文本输入的情形下天生照片般逼真的图像。
它是由StabilityAI在2022年发布,是基于LAION-5B数据库的512x512图像子集上演习潜在扩散模型。
而扩散模型是一种图像天生模型,它通过学习如何迭代地反转高斯噪声,将随机高斯噪声转换成图像[[4]]。
比较之前的text-to-image模型,Stable Diffusion通过将图像形成过程分解为逐步运用去噪自编码器和扩散模型(DM),DM在图像数据及其它方面实现了最前辈的合成结果。
因此,该模型相对较轻且可以在至少具有10GB VRAM的GPU上运行[[5]]。

图3利用图像到图像的风格转移运用程序进行扩散过程(以草图为输入,真实图片为输出)。

2.Midjourney (https://www.midjourney.com/)

Midjourney由同名的独立研究实验室创建的,他们是一个仅有11名全职员工的小型自助团队。
Midjourney可以从文本描述中合成图像,旨意探索新的思维媒介,扩展人类的想象力[[6]]。
Midjourney方向于天生超现实主义图像,深受艺术家的欢迎。

3.DALL·E

DALL·E是OpenAI基于GPT-3(120亿参数版本)演习而成的神经网络程序,它通过利用文本-图像对应的数据集中获取信息,可以根据自然措辞表述的各种观点创建图像。
DALL-E 2是DALL-E的后续版本,OpenAI从互联网抓取了大约6.5亿个图像文本并对其进行了演习,它可以在更高分辨率下创建比DALL-E更逼真的图像,并可以天生不同的观点、属性和风格[[7]]。

几款软件比较,由于DALL.E 2是基于数百万张库存图像进行演习的,以是它所创造的输出更加繁芜,最适宜企业利用[[8]]。
根据Stable Diffusion的创始人Emad Mostaque的说法,DALL.E 2的修复功能是其最佳特性,使其与其他图像天生器区分开来[9]。
此外,与Midjourney或Stable Diffusion比较,DALL.E 2在有超过2个角色的情形下天生的图像要好得多[10]。

而midjourney更具有艺术家风格,倾向凭空想象、无中生有。
渲染效果和补充效果也更好。
在设计中,它更倾向给出具有创意的观点方案或者天马行空的设计灵感[11]。

Stable Diffusion的塑形掌握能力更好,插件也更多,且为开源[[12]],以是运用更广泛,掌握能力更高,适宜对方案进行考虑,并且能够适应具有限定条件和不断变革的设计哀求。
因此,比拟三款软件,本文紧张基于Stable Diffusion进行AI设计流程的研究与磋商。

图4:在同样的笔墨输入情形下三款软件的天生结果比拟

Stable Diffusion事情事理和意向的前期准备

Stable Diffusion为开源程序,因此浩瀚程序员基于其原始代码进行二次开拓。
个中“AUTOMATIC1111”于2022年9月在github发布了基于个人电脑本地支配的“Stable Diffusion webUI”程序,这代表着个人免费文生图程序时期的到临。
而本地支配webUI程序也是AI赞助设计的第一步事情。
然而,在进行AI赞助设计之前,我们仍需准备和理解其余两款基于Stable Diffusion的插件——ControlNet以及LoRA。

ControlNet可以支持额外的输入条件用来掌握预演习大型扩散模型。
像stable diffusion这样的大型扩散模型同样也可以通过controlnet进行增强,比如利用边缘图、分割图、关键点(edge maps, segmentation maps, keypoints)等条件输入,可以实现多样的掌握大型扩散模型的方法,并进一步促进图像天生的干系运用[[13]]。

图5:利用Hough线(M-LSD)掌握stable diffusion。
“自动提示”是由BLIP根据默认结果图像天生的,而不该用用户提示。

LoRA(Low-Rank Adaptation)为一种大措辞模型的低阶适应方法。
该方法将预演习模型权重冻结,从而大大减少了下贱任务的可演习参数数量。
经由研究,LoRA可将可演习参数的数量减少10,000倍,并将GPU内存需求降落3倍[[14]]。
LoRA除了运用在像ChatGPT这样的大措辞模型之外,在图像天生模型中表现更为精良。
我们可以通过演习并利用LoRA模型更加精准的掌握图像天生的风格。

基于Stable Diffusion的建筑设计天生研究

笔者通过不断的试错与研究,初步得出基于stable Diffusion培植设计天生方法,可供大家参考:

自然措辞天生的模型要比提示词(tag)堆叠的效果要好;建筑设计天生质量的好坏取决于LoRA演习的品质好坏;多样性的建筑设计天生风格需合营多样性LoRA;利用contronet合营语义分割法(Seg)能够更好的掌握图像天生质量

图6:基于SU草模天生的建筑效果图比拟

图7:不同LoRA天生图片比拟

图8:动漫风格与木模型风格效果天生

总结与畅想

AIGC发展的速率飞快,从互联网的各种教程和展示可以看出,以Stable Diffusion等为代表的图像天生软件在建筑设计领域有着广阔的运用前景,它们可以帮助建筑师在前期方案阶段快速探索多种可能性,提高设计效率和创造力。

对付未来的建筑设计的流程来说,Stable Diffusion可以做到以下四个方面:

1.从低信息量到高信息量的天生。
可以根据建筑师供应的大略的体块模型、手绘草图或实体模型,天生更加细节丰富和风格多样的建筑方案。
这样可以在保持设计框架的同时,丰富设计细节,深化设计。

2.从非建筑信息到建筑信息的迁移。
可以将与建筑无关的信息转化为建筑信息,例如将物件摆放、自然菌类或其他非人类信息作为输入,天生对应的建筑场景或形态。
这样可以拓展建筑师的视野和灵感,探索更多与建筑干系的理论和方法。

3.从一个方案到多个方案的扩展。
可以利用隐空间中参数的连续性,天生一系列具有相似性和变革性的建筑方案。
这样可以给建筑师供应更多的选择和可能性,优化设计方案。

4.从二维图像评估到三维模型天生的转变。
可以结合其他天生式算法,利用CLIP作为评估工具,辅导算法优化天生结果,从而得到符合提示语描述的三维模型。
这样可以更贴合建筑设计需求,提高设计质量和效果。
[[15]]

人工智能的高速发展确实极大的超出了人们的想象,并且以迅雷不及掩耳之势席卷了全体设计行业,大家对付未来的职业发展也是充满的迷茫和不安,但笔者还是认为AI不能替代建筑师,由于建筑设计是技能与艺术的领悟,即便AI可以赞助建筑师进行方案天生等事情,但是AI无法理解人类的情绪和文化背景,更无法创造出具有个性和特色的建筑作品。
建筑师的浸染是将自己的理念和情绪通过建筑的形式表达出来,与人类的生活和环境相互互换和影响,这些都是AI无法做到的。
终极笔者相信,各位建筑师也一定会逐渐适应并驾驭AI,与科技共同进步!

图1来源于:袁烽,许心慧,李可可.思辨人类世中的建筑数字未来[J].建筑学报,2022(09):12-18.DOI:10.19819/j.cnki.ISSN0529-1399.202209002.

图2依据袁烽,许心慧,李可可.思辨人类世中的建筑数字未来[J]中图片作者自绘

图3来源于Louis Bouchard.Google Brain's Answer to Dalle-e 2: Imagen.https://www.louisbouchard.ai/google-brain-imagen/

图4来源于fabians.eth in twitter

图5来源于Zhang, Lvmin, and Maneesh Agrawala. "Adding conditional control to text-to-image diffusion models." arXiv preprint arXiv:2302.05543 (2023).

图6:基于SU草模天生的建筑效果图比拟 作者自绘

图7:不同LoRA天生图片比拟 作者自绘

图8:动漫风格与木模型风格效果天生 作者自绘

袁烽,许心慧,李可可.思辨人类世中的建筑数字未来[J].建筑学报,2022(09):12-18.DOI:10.19819/j.cnki.ISSN0529-1399.202209002.[] Martínez, Gonzalo, et al. "Combining Generative Artificial Intelligence (AI) and the Internet: Heading towards Evolution or Degradation?." arXiv preprint arXiv:2303.01255 (2023). ↑[] “How AI software will change architecture and design”https://www.dezeen.com/2022/11/16/ai-design-architecture-product/ ↑[] Borji, Ali. “Generated Faces in the Wild: Quantitative Comparison of Stable Diffusion, Midjourney and DALL-E 2.” ArXiv abs/2210.00586 (2022): n. pag. ↑[] Rombach, Robin, et al. "High-resolution image synthesis with latent diffusion models." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022. ↑[] “Stable Diffusion”.GitHub - CompVis/stable-diffusion: A latent text-to-image diffusion model ↑[] https://www.midjourney.com/ ↑[] https://openai.com/product/dall-e-2 ↑[] Kyle Wiggers.“OpenAI expands access to DALL-E 2, its powerful image-generating AI system”.https://techcrunch.com/2022/07/20/openai-expands-access-to-dall-e-2-its-powerful-image-generating-ai-system/ ↑Emad in Twitter: "So #dalle2 is a model and a service. It is focused on a certain usage subset that will broaden. Inpainting is it’s best feature but by default it is random and best used for ideation and more corporate usage, hence it’s clear training on licensed stock images" / Twitter ↑fabians.eth in Twitter: ""Pixar movie scene of a dark skull wizard fighting against Kermit the frog as a gladiator, incredible render, Presto" DALL-E's usually my go to for scenes involving 2 or more clear "actors" - will be cool to render battle scenes for my prompt fighting game @battleprompts https://t.co/hSVDuqH8wp" / Twitter ↑↑[] Kyle Wiggers.“This startup is setting a DALL-E 2-like AI free, consequences be damned”.https://techcrunch.com/2022/08/12/a-startup-wants-to-democratize-the-tech-behind-dall-e-2-consequences-be-damned/ ↑[] Zhang, Lvmin, and Maneesh Agrawala. "Adding conditional control to text-to-image diffusion models." arXiv preprint arXiv:2302.05543 (2023). ↑[] Hu, Edward J., et al. "Lora: Low-rank adaptation of large language models." arXiv preprint arXiv:2106.09685 (2021). ↑[] 郑豪,不雅观点 | AIGC影响下的AI建筑学,https://zhuanlan.zhihu.com/p/606502335 ↑