超新星爆发 | Simon Meng | AI创世

type

status

date

slug

summary

category

icon

password

URL

February 8, 2022 • 72 min read

by Simon的白日梦, mp.weixin.qq.com • See original

这是一篇超级硬核长文，感谢花姐、晓刚哥、张婉琳及其他全球知识雷锋朋友们的努力，在启发性的问答中，我自己也学到很多（产出了硬核+有系统性的文章）。PS: 采访是3个多月前进行的，已经有更多更有趣的模型出现，更多信息可以在文末扫码加群讨论。

建筑学博士如何“过关斩将”玩转AI？

人工智能可以代替人类进行艺术创作吗？

借助AI进行创作的突破点何在？

建筑从业者最值得关注的AI动向？

答案加载中 ……

超新星爆发

蒙胜宇 Simon Meng

建筑、人工智能、生物跨领域研究者

及艺术创作者

奥地利因斯布鲁克大学（UIBK）建筑学在读博士

伦敦大学学院（UCL）建筑学硕士

UIBK及UCL技术课程助教及特邀评图嘉宾

公众号&视频号&小红书&B站&微博：Simon的白日梦

“机器能思考吗？”

这艾伦·图灵在1950年提出的问题，

也是人工智能的理论基础。

如今，人工智能被广泛地应用在自动驾驶、人脸识别、无人商店、声音识别、医疗等方面，本期超新星Simon也利用人工智能创作出了令人惊叹的建筑、城市、外星生物……

“转码”似乎是建筑系学生讨论未来时候的高频词。眼前出现了两个岔路口：是辛苦坚持还是彻底逃离？

Simon 在这两条路之间努力地踏出未知的第三条路。他积极地获取着这个越来越数字化的世界最前沿的AI算法，同时又能够极为有效地把自己多年积累的建筑学知识内容应用于全新的创作场景中。

访谈

Q：连晓刚

儿童教育品牌“百造学堂”创始人，清华建筑系毕业，小雷锋的幕后元老

A：蒙胜宇

建筑、人工智能、生物跨领域研究者及艺术创作者，奥地利因斯布鲁克大学建筑学在读博士

整理：张婉琳

全球知识雷锋“超新星爆发”栏目主编

访谈框架

初入AI领域

如何跨越行业门槛：正向反馈与契机

个人特质、天赋：做连线的能力

生物领域：借鉴复杂系统扩展人类局限

5. AI的进化与本能

6. AI是基于算法还是数据

AI创作的难点：良品率与工业标准

值得建筑师关注的AI的方向

9. AI学习与儿童认知的相似性基于算法/逻辑

AI对于创作内容匮乏是否有帮助

图像质量泛化性速度

外星生物的作品：AI对不同物体的认知

入门指南教程推荐

欣赏的创作者

AI工作坊设计

硬件要求：不高

建筑工作流中不同工具配合使用：grasshopper、blender、AI……

点击知识卡获取更多AI科普

AI 概念知识卡

文中出现较多AI领域的专业术语

对AI没有了解的读者可以先阅读以下的部分

人工智能（AI，Artificial Intelligence）是计算机科学的一个分支，它企图创造一种能以人类智慧相似的方式做出反应的机器。

<< 左右滑动 >>

机器学习（Machine Learning）是一种实现人工智能的方法，机器学习最基本的做法，是使用算法基于统计和概率来分析数据、从中学习数据分布的规律，然后对真实世界中的事件做出决策和预测。与传统的为解决特定任务、硬编码的软件程序不同，机器学习是用大量的数据来“训练”，通过各种算法从数据中学习如何完成任务。传统机器学习的研究方向主要包括决策树、随机森林、贝叶斯学习等方面。

深度学习（Deep Learning）是机器学习领域中一个新的研究方向，它被引入机器学习使其更接近于最初的目标——人工智能。

如何让机器可以像人一样轻而易举地进行思考和做成判断呢？人工神经网络就是[MS1] 模拟人脑进行分析学习的神经网络，人工神经网络与神经元组成的逻辑大体相似，是个体单元互相连接而成，每个单元有数值量的输入和输出，形式可以为实数或线性组合函数。它先要以一种学习准则去学习，然后才能进行工作。当网络判断错误时，通过学习使其减少犯同样错误的可能性。深度学习模仿人脑的机制来解释数据，例如图像，声音和文本等。

[MS1]深度学习的重点在于“深度”，即网络足够深。模拟人脑的概念应该是人工神经网络的概念。

典型的深度学习模型有卷积神经网络(CNN, convolutional neural network)、生成对抗网络（GAN, Generative Adversarial Networks ）、递归神经网络（RNN,Recurrent neural network）等。

来源：

https://www.youtube.com/watch?v=UGdG4WpluJ8&t=424s

维基百科

初入AI领域

/ / / / / /

晓刚：

你是从什么时候开始接触人工智能领域的，当时有什么样的经历？

Simon：

你是指狭义定义的AI呢，还是说广义的计算生成都算在里边呢？

晓刚：

可以把计算生成都算在里面。

Simon：

这样的话就非常早了，应该是2010年左右，我是08级的建筑本科，基本是刚学建筑没多久就接触到了参数化设计，”参数化“这个名词现在发生了一些演变，但基本上那时候就开始用grasshopper这些东西。

我一直是对使用工具比较感兴趣的，高中的时候我就开始做个人网站、学PS什么的。**接触到参数化设计前，我从未想过工具的能力会那么强大。**相当于是以前的工具可能只是延伸了你的一些器官，你每一步都要做到位，它只是帮你省一点事，**但是后面你只需要种下一个种子，然后它就能够长出一棵——现在的AI可能是能长出一棵大树，以前是长出一棵树苗，但也足够吸引我了。**所以对计算生成这一块的接触基本上和我的建筑学习是同步的。

我对狭义上的AI的接触，主要是取决于AI工具的发展，以前的深度学习框架是比较难用的，比如比较早的Torch啊、Chainer啊那些是非常难用的，而且以前你也没有Google Colab，也没有Anaconda，总而言之进入的门槛非常的高。

15我年从UCL硕士毕业回国，那两年发生了很多事，创造了一些契机。比如说AlphaGo打败了李世石，又打败了柯洁，让全世界的人认识到了AI的潜力。当然本源上是因为我自己喜欢这方面的东西。

另外一方面就是出现了很多我们工作流中能够应用的算法，比如说2016年的时候，Pix2pix & cycleGAN ，它可以做很多图像的转换。图像转化其实跟建筑工作中的事情已经非常的像了，建筑设计经常是从一个草图变成一个效果图，一个草图变成一个技术图纸。同时当时已经有比较方便的——我不知道有没有Anaconda，但是当时我是自己装Ubuntu的环境，总而言之当时的运行门槛已经相对比较低。即使不是AI专家，也可以去使用开源的一些框架进入到这个领域里面。

所以有契机，技术本身也发展到了适合非计算机本专业但有所涉略的人去进入的程度，然后我就开始了这么一个……不能叫修罗之道，应该叫做奇幻旅程。

如何跨越行业门槛：

正向反馈与契机

/ / / / / /

晓刚：

我再问的具体一些，因为听起来是行业在提供一些可能性的工具，然后你也自己在熟悉这些工具的过程中，从PS这种工具到grasshopper，再到我都听不太懂的一些高级的工具方法，这个过程肯定不是线性。这当中有没有一些对你来说印象深刻的大门槛，或者说你认为对普通建筑背景的人来说，这个行业的门槛是在哪里？你是如何跨过去的？

Simon：

虽然说我们中国传统文化里面一直说“有志者事竟成”，一直说“世上无难事只怕有心人”。**但我自己面对困难时其实是意志不那么坚定的人，所以当我真的想去做一件事的时候，我会需要很多连续不断的、时间上相隔没有那么远的正向反馈。**到现在我会习惯去人为去设置一些正向反馈，这也是给一些希望进入这个渠道、做一些类似的比较艰难的研究的人的建议。

即便当时的工具已经变得比较简单了，但是如果你是独自一个人去战斗，在黑暗中摸索的话还是比较困难的，你会需要一些鼓励，需要一些同伴。

当时有这样几个节点，一个是17年初的时候，也是从UCL回来的同学在北京有一个还蛮著名的公司叫「甲板智慧」，做了很多互动式园林，不知道你们有没有去过海淀公园，里面用望远镜看植物时可以提供相关信息，运动时它能够反馈给你一些互动的场景信息等等，很有意思。

当时他们的创始人叫李长霖，霖总。2017年的时候我正好去北京出差碰到他，跟他说了我最近关注的这些技术，他就非常的兴奋。之后他其实是给我开了工资，配备了设备，我来远程控制设备，去做我们想做的东西——当时的设想是只要给AI一个线稿，它就可以直接用深度学习模型映射成一张完整的效果图，就不需要附材质，也不需要打灯光。

线稿 to 效果图

Pix2pix & cycleGAN 基于监督学习对抗神经网络的图像生成

来源：Berkeley AI Research (BAIR) Laboratory

https://arxiv.org/ pdf/1611.07004v1.pdf

左：直接输出效果图右：su原始截图

但是因为我们自身的能力和当时算法的局限性，这个项目没有完全做成。但它留下了一些“遗产”，AI作为一个工具，良品率是比较低的，可能生成100张图，有5张图或者2张图能用——作为工具来讲它是不合格的。

线稿 to 效果图

基于人工智能的数据集外的建筑速写线稿生成测试

但是如果我的角色是一个艺术家，这个工具我是可以接受的。所以当时积累的这套图，正好参加了一个清华与艺评网联合举办的首届AI全球艺术大赛，我们就靠它拿了一个三等奖和一个潜力新秀奖。当然这个奖不是特别高，但是对于一个初入这个领域的新人来说，已经算是一个足够让我继续前进的肯定。

所以从这个契机开始，我感觉自己就有足够的动力往下走了。

个人特质、天赋：

做连线的能力

/ / / / / /

晓刚：

据我的了解，你是在AI创作建筑领域最先锋的人之一。你觉得你身上有什么特质，或者由于什么偶然或必然的某种原因，让你走到这一步的？

Simon：

首先澄清一点，我其实技术不算很强的，也不算特别先锋的。只是说我找了一个定位，这个位置上跟我竞争的人还比较少，所以可能是讨了一个巧。特别是AI那一块，我只是了解一些基本原理，能够使用工具和进行一些修改而已。

硬要说特质的话，换个角度来讲，我的缺点是我会对很多东西浅尝辄止，不会非常深地挖掘，我会每个东西都了解一些。那么反过来讲，他给予我了做连线的能力，我擅长把很多看起来不相关的东西进行连线，包括AI里面的模型、甚至建筑以外的东西——其实做连线是这个时代很宝贵的能力。

因为一方面，我们人类的科技树已经长得非常大了，已经没有办法像以前说什么“目不窥园10年”，你就能够洞悉几个学科，甚至现在一个学科都做不到。但是另一个角度，现在信息传播非常快，你能获得的资源非常多，这时候你做连线的能力，可以把你能够触及到的信息的效用最大化。

当然我不是拿自己与乔布斯比，只是我想起这个例子，**乔布斯他没有发明iPhone上的任何一样东西，触摸屏、操作系统、交互方式、摄像头等等全是原来就有的，但是他把它组成了一个新的艺术品——这就是做连线的能力锻造到极致的人可以做出来的东西。**我在这一方面稍微有一点点天赋的。

生物领域：

借鉴复杂系统扩展人类局限

/ / / / / /

晓刚：

在你自己的介绍里面啊，说你是建筑、人工智能与生物领域的跨领域研究者，第三个领域能再展开说一说吗？

Simon：

生物领域的话是因为我在UCL读硕士的时候，我跟的导师叫Claudia Pasquero，她做的完全是建筑与生物的跨界研究。现在我在读她的博，所以这领域我肯定也要涉略，否则毕不了业（笑）。

虽然我对AI更感兴趣一点，但话又说回来，我刚开始读硕士的时候，我对生物的热情其实没有那么高，主要是因为导师的方向在影响我。到现在我觉得这件事情还是挺重要的，因为比如说，以前我导师在一个建筑物上，做了很多膜结构的东西，膜结构里是活体的藻类，通过控制藻类的生长，可以发电，也可以把建筑变成跟普通的一棵树一样，它可以固碳，有植物的基础功能。

刚读书的时候我不懂这件事情，会觉得这个是多此一举，你做一个房子我再种两棵树不是更好。但现在我就觉得这件事情很有意思，**她在尝试去打破建筑学和人类社会、构筑物还有自然的边界。**举个例子，我们现在的城市有很多问题，它的根源之一在于我们的城市、建筑的系统太过于简单，什么叫太过于简单？

拿生物圈来看的话，生物学里面它有好多个不同的生态位，很多个层级，每一个生态位可能都会有好几个不同的物种。生态位里面的某一个物种挂掉了，其他的物种会填补上去。甚至你某一个生态位的物种全部都挂掉了，其他生态位的物种会突变去填补点位。

从我们人类宜居的角度来看，生态系统是不稳定的。但是从生态圈自身的角度来看，它是很稳定的。

所以再回过来头来看，她通过引入自然中的一些已有的东西，去把我们现在构建的系统变得复杂化。它复杂化之后，就具备了两个能力：**一是它能够更好地嵌入现在地球的生态系统。**现在的城市系统，它是孤立于地球生态系统之外的。比如我们要专门去建一个发电站去给城市提供电能，它没有办法自己给自己提供能量。当然现在有一些新能源如风电、太阳能这类被动发电的会稍微好一点。我们的城市如果你不去管理它的话，它会慢慢地破损，慢慢地凋亡，它不会像一棵老树一样能够历久弥新，它是一个很脆弱的系统，需要不断外部维护。

所以她做这件事情，一方面去增加我们城市的韧性，它的层级会比「简单碳中和」还要再高一些，把城市系统嵌入生态系统里面。

另外一方面我们人类是有极限的，我们拥有的就是这几千年有文字以来积累的一些知识。但是存在另外一套研究体系，比如直接用黏菌，把黏菌变成一个生物计算机，通过设置不同的连接吸引点来引导黏菌生成城市平面；又或者我们怎样控制一些蜜蜂来搭建构筑物。

当然有时候外行人看不懂，就觉得这件事情没什么意义。其实之所以做这样的尝试，是因为不同的物种进化了几百万年到上亿年不等，它积累下来的智慧是未可知的。

我们人类不管怎么去做设计，一定用的是自己可知的智慧或者经验。那么引入生物的话，借鉴它们去做一些设计，至少带来一种可能性，打破我们身为人类的一些局限性，所以我觉得还是非常有意思的事情。

AI的进化与本能

/ / / / / /

晓刚：

我想跳跃到形而上的部分，跟你谈一谈对AI这个事情的看法。刚才聊到进化和复杂性，我其实很感兴趣AI生成的过程，有人会把它比拟成一个很快速的进化。在我看来，它有时又很接近一种缺少自主意识的本能的反应，用计算机模拟出一些本能反应，这个本能反应有时候会让我们觉得和人的本能是有关的，有时候可能又会觉得陌生的，你是怎么看？有没有想过你创作的这些东西，它是不是在模拟一种进化或模拟一种生物的本能，而且它是目前难以预知的。

Simon：

我先把进化和本能拆开讲。进化的话会有，比如说最简单的一种算法叫遗传算法，遗传算法模拟的就是一个进化的过程，它通过突变和择优去尽量让结果接近最优的目标。AI模型里面那个求梯度下降找全局最优点的过程，也有点像进化的过程，某种程度上借鉴了生物进化的智慧。

本能可以理解为最原始的神经元的冲动，比如说你拿一个针扎我，我的神经元驱使我去把手缩回来，这是一种本能。

*最早的神经网络是模仿的青蛙的视觉细胞，一个视觉神经网络，它确实是模拟了原始的神经冲动以及进化。**这又与前面谈到的相关，一些学科在起步阶段确实要从进化了几千万年的生物中去借鉴很多经验——有趣的点就在这里。

但是发展到现在，现在的一些比较新的神经网络，比如说Transformer* 、Resnet*这些可能又跟进化以及生物神经网络不是那么像了。

科普：

①Transformer：http://www.uml.org.cn/ai/201910233.asp

②Resnet：https://zhuanlan.zhihu.com/p/72679537

因为这个问题比较模糊，我只能说确实它最开始的时候是借鉴这个算法，现在我们用的模型里面也有进化与神经冲动本能的影子，这是没有错的。但是它与生物学范畴的进化和本能又不大一样，不大一样的原因有两个，生物和计算机毕竟是两种不同的结构系统，我们可以称之为「碳基生命」和「硅基生命」。那么我们在锻造硅基生命的时候可能就从碳基生命借了一些种子，但是最后一定会发展出一套更适合硅基生命本身的算法。

第二个就是「本能」、「进化」这两个词，通常我们是用在有意识的生命上面的，所以目前我们认为AI是没有意识的，定义不尽相同，所以只能说是它借鉴了这里面的一些原理和算法。

AI是基于算法还是数据

/ / / / / /

晓刚：

刚刚你提到的其实AI的现在的技术流有两种路径，有一种是偏向于模仿生物本能的，还有一种从理性逻辑入手的。我们之前看到有一部分AI它是用随机的海量的数据，让它通过一个黑盒子长出来。然后又有人反对这个方式，说这是一个歧途，认为真正的AI应该还是要模仿人类现在已经有的智能与逻辑。这个事情你是怎么看的？在你的创作中有没有遇到过分叉道的选择？

Simon：

你说的两种路径它其实就是一种路径，一个模型中会同时借鉴遗传算法与神经网络，或者说这两种东西本身就有相似性。因为神经网络它是一个架构，它每一个节点可以被理解为每个神经元，在它搭建起来的时候，它所负责的功能也好，它的权重也好，怎么去激活它也好，这些东西是没有确定的。

那么它会需要用一个类似于遗传算法的方式去分派每一个神经元的工作。像小孩在两三岁的时候，他神经元的数量达到最多，但是他并不是最聪明，到后面没有用的神经元就被减掉了。

AI也是一样的，它最开始有一个框架，这个框架里面每一个点负责的功能是不确定的，不管是机器学习中的决策树还是深度学习中的深度神经网络都是如此。然后在网络学习的过程中再用各种梯度下降去求偏导、求最优解。总而言之需要一个能够根据学习样本去更新网络的算法去把整个框架中每个点的功能和权重给梳理出来。

到最后它训练完成，有一些点的权重会比较大，负责的功能比较多，有一些点又负责另外一件事情，有一些点甚至是没有用的。

所以工业里面要去部署一个模型的话，我们就可以通过模型蒸馏与剪枝，把那些没有用的神经元剪掉来优化模型，减轻它的重量，或者说减轻它运行的负担——所以说其实跟人类也是很像的。

你的第二个问题是，AI是基于数据还是基于算法的？一般来说我们最早的AI其实是基于算法的。比较早的AI被称为「人工决策树」，相当于树的每一个分叉有个节点，一个决策流转到这个点，遇到什么条件到哪边，然后再遇到什么条件——这是比较早的AI。那个时候建筑学上也有控制论这个说法，大概是六七十年代，控制论比较盛行的时候，但是到后面发现这个东西行不通，它的性能非常的有限，它只能去解决一些比较简单的任务。

*现在主流的AI基本上全部都是靠数据去喂的，但是它并不是随机构建的网络，它是通过大家的经验总结，针对不同任务搭了不同的网络框架。****比如说图像处理一般是卷积神经网络，语言处理一般是长短期记忆循环神经网络（LSTM）以及Transformer。**它有不同网络架构，当你要做不同的任务时，你要去找任务相关的数据去喂它，把网络对应到相关的知识里去。

曾经的主流是人工决策树，也就是你说的那种提前把算法定好的，但其实发展到后来，决策树中的条件其实也是可以通过喂数据来让机器自主学习制定的，现在的决策树已经变成了机器学习算法的一种。

总而言之，**现在提前把所有规则都提前定好的AI其实非常少了，因为它的性能完全不能跟用数据训练的匹敌。**但是涉及人类生命安全的领域是个例外，比如自动驾驶现在很多是强化学习，也是靠数据去喂。但业界一直有争论，因为AI虽然现在有很多分析的工具出来，但是它某种程度上还是一个黑箱，有时候你不能直接知道它里面发生了什么事情，所以比如说自动驾驶这次出了一个事故，你就很难去找到底是训练时哪个地方出了错。所以现在业界有一种观点：凡是涉及到生命安全的、容错率特别低的地方，应该用人类编写好的算法，因为我们能够清楚地知道每一步在做什么。

但据我了解，现在主流的自动驾驶厂商应该用的还是喂数据，因为真的是很难做的出来，除非是在一些非常简单的任务上面，比方说我印象中法国的阿尔斯通（Alstom）公司，相当于是法国以前的华为，美国用一样的手法，把阿尔斯通公司的高管拘了之后，又把公司收购、肢解了，当然我们华为没有走到这一步。

比较早的时候，它在法国建立了一条地上的自动驾驶轻轨，我记不清是轻轨自动驾驶还是轻轨信号灯系统了，它不仅不是基于人工智能，甚至是基于模拟信号的，还不是数字信号的。就非常的神奇，只有在一些比较简单的事情上可以实现。因为轻轨的任务复杂性和实际道路的情况是根本不能比的，轻轨是一条铁路上面什么时候发什么车你都是知道的，而且它有足够的距离缓冲。实际道路情况就非常复杂，所以基本上在复杂任务中都几乎不可能靠纯粹编写算法来达成。

AI创作的难点：

良品率与工业标准

/ / / / / /

晓刚：

也有一些人是在做类似于施工图强排的AI的应用，是不是那一类就是会偏向于算法的路径？但是他们确实无法创作比较好的建筑形象，就像你创作这些画面出来。

Simon：

施工图的AI我没有具体去了解他们背后的算法，但是根据我仅有的知识，我估计他们应该不是靠数据训练，他们采用的方法应该是人工决策树或者说是提前写好的算法。因为它其实有很明确的条件，就是施工图里面哪个地方违规，哪个地方不违规，是可以比较清楚的通过算法的方式去描述出来的。所以我觉得应该是直接写的。

听众A：

那个是直接写的，我有朋友在科大讯飞做这方面，就是直接跟老一辈的绘图人，他写完强排、停车场之类之后，他可以让你新的人很快上手，一瞬间变成大概有两年经验的人。

晓刚：

你最近发了一个AI生成空间的这样一个作品，在你创作过程中，你觉得AI生成空间的主要难点在什么地方？

Simon：

首先我澄清一下，最近你们看到的作品严格来说其实不是AI，它是分形算法生成空间，直接生成出来就是三维的。也使用了一点AI技术，你设定一些参数之后，它里面有一个遗传算法的工具，它可以让作品突变，突变之后你可以选一个喜欢的。可能使用了5%的AI。

*AI生成内容的话，我觉得现在比较难的是两个方面：良品率和工业标准。**良品率我前面提到了，像我们16、17年用的工具，因为它是一个黑箱，有时候很难往你想要的地方修正，或者说你往那边修正，它可能另外一边又出了问题。所以在内容生成这一块，它有时候良品率比较低，这是一个比较难的地方。

第二个比较难的地方就是工业标准。举个例子，我们输出一张分辨率较高能够打印的图，假设要5000×5000，但是市面上没有模型能直接输出一张5000×5000的图，那么你要通过一些算法去放大，放大之后它又模糊了，打印效果没有那么好，这是一种简单的工业标准。

更复杂一点的工业标准的话，就是胡胡他们搞游戏空间创作的，他们建模应该是有很多要求，这个模型不仅要好看，还要控制总面数不能超过多少，材质不能超过多少种，图层要怎么分……AI生成三维的东西其实很难契合工业的标准。

我觉得内容生成这一块目前来说最难的是这两点。

胡胡：

我快速回应一下，因为不太有关。确实工业标准是游戏行业里AI生成比较困难的一个点，游戏其实更像是施工，把一个建筑图纸施工在真正的场地上，学生、建筑师画的平面图，施工方是用不了的，这跟刚刚讲的意思差不多。不论AI生成，还是原画师画出来的那些模型都是用不了的，最终还是要有专门的人去把它落地。

值得建筑师关注的AI的方向：Transformer、Gan、零次学习

/ / / / / /

晓刚：

上次跟你聊的时候，我意识到有一个点，你会关注这个算法的一个迭代，尤其一些开源的算法。能不能来聊聊最近几年技术迭代的主要方向，尤其对于建筑师来说值得关注的方向。

Simon：

首先我要说建筑师里面值得关注的人工智能算法有三个类型，一个类型就是我现在做的这种内容生成，还有一种类型是建筑性能优化，优化强排也好，优化节能采光也好。第三种是直接对接生产流程的内容生成。他们生成的东西当然是在行业上很有价值，但是它在视觉上没有那么直观，我个人可能会比较追求视觉上的一些东西。

内容生成这一块，我觉得这两年最有价值的是对抗生成网络（GAN）这个系统下面的，一个就是前面我说的 Pix2pix&cycleGAN，可以通过两个图片集，训练之后把这一类图片转到另外一类图片；另外一个就是StyleGAN**，**StyleGAN是一个自监督模型，只要把一堆类似的图给它，它就能生成类似但与现有的都不一样的图，就是生成人脸的技术。

他们的三维这块也有造诣，比如 ShapeHD，RasGAN，什么的，它可以直接学习很多椅子的体素模型，就是像素块模型之后，能生成新的椅子。所以这几个基于对抗神经网络的，包括二维和三维的，我觉得是比较值得关注的。

这两年最新的还有两个，一个基于transformer的， transformer本来是一个语言处理领域的模型，它的特点在于能够对距离非常远的上下文内容上去建立有效的连接，比如你讲一句特别长的话。以前的AI有个问题，给它输一个1000字的文章，它看到后面时就忘了前面讲了什么，但是transformer它可以跨过很多东西去建立有效连接，相当于能够让AI在有意义的点相隔非常远时建立关联。

然后现在这套东西被用到了图像生成的模型里面，其实每一个画面它也是有语义的，你是可以通过语言去描述一个画面的。相当于是让AI有点能够理解这幅画里面这个位置跟那个位置的相关性是什么，然后它生成的东西就更加的真实。

比如说生成一幅街景的时候，如果到街景里面是下雨的，那么这个街景里面出现的人可能就会撑伞，因为它已经了解了伞跟雨之间的这么一个关系，这会让它生成的图更加真实，所以最近这一两年性能爆炸的图像市场模型很多都是因为接了transformer的模型在里面。

另外还有一个零次学习的应用：CLIP*，最近的那些通过文字生成图片内容的模型就是CLIP加上VQGAN*。

2022年2月8日补充：图像生成模型中的diffusion模型，基于神经网络的可微渲染Nerf也是最近值得关注的对象。

科普：

①https://github.com/openai/CLIP

②https://github.com/nerdyrodent/VQGAN-CLIP

VQGAN是一个你给了它一大堆图，它就能够生成那个图里面相似的内容。但是它跟StyleGAN最不同的地方在于它不需要那些图的同类，所有图混在一起给它，它也可以生成这些图，里面每一张都很真。它生成出来的东西是随机的，所以好处就是不需要为了专门任务去训练一个模型。但是又很难从庞杂的结果里摘出来你要的东西。

这时候CLIP的作用就是它能够理解图片与文字之间的关系，你给它一段文字，它就能够判断模型生成的图是不是接近你这段文字，它会诱导VQGAN去生成它认为最接近文字内容的一张图。所以做到了文字生成图片。

那么CLIP为什么能做到这一点？有个叫零次学习的概念，就是可以无缝地把你对某一些东西的经验搬到另外一件事情上**。**

比如说我们去跟一个没有见过熊猫的小孩描述熊猫的样子，我们的前提假设是他知道什么是熊，知道什么是黑色和白色，那么你只要跟小孩说，熊猫就是眼圈和耳朵是黑色，脚是黑色，其他地方很多地方是白色的，一个长得跟熊差不多的动物。他去动物园看到熊猫就可以认出来了。

CLIP在训练的时候比较有意思的在于它不仅把那张图里面的内容标注出来，它还有一些描述性的语言。比如说这是一个黄色的香蕉，或者说这是一辆有两个轮子的自行车，它有了这些冗余的信息之后，你跟它描述的不是这个模型本来见过的东西，但是和它见过的东西有一些共同点，它就能够知道你描述的是什么了。所以零次学习让AI有了一点智能的味道，搭配它之后，很多生成的模型就能够更好的接入到创作的工作流里面。

所以我觉得transformer、GAN还有零次学习这三个领域是这两三年就会比较有影响的。

AI学习与儿童认知的相似性

基于算法/逻辑

/ / / / / /

晓刚：

其实拿儿童的学习过程跟AI的比例还是挺有意思的。比如说儿童学习的过程中，有一类是语义学习，就像你讲的，我去认知到一个熊猫它有什么特征，我把它记住了，然后再看到它的时候，我认为就应该是它。还有一种学习是形象的认知， AI也会通过图形特征的同构来识别这个关系。还有一种是行为方面的，可能在AI这块还比较少见。这两个你怎么看？刚才也提到一个孩子可能两岁多的时候，有2000亿个神经元，然后这2000亿个神经元需要慢慢连接，这个与算法它的生长过程是不是有很强的相似性？

Simon：

我不好说有多相似，首先还是回到原来那个问题，最开始做人工神经网络的idea肯定是从生物的神经元里面来的，然后求最优解的方法，也借鉴了遗传的这么一个方法，它肯定是有相似性，但是很难说它有多相似，一个是因为算法多种多样，每种都不大一样。

然后第二个有一些网络结构，其实已经与人类的神经元不大像了。但是直观上来讲，我觉得还是会有一些相似的地方，我猜它可能跟一些本源的问题有关。我之前听郑豪兄*的演讲，他提到一个很启发我的点，他把算法生成分成了两种，一种基于数据，一种基于逻辑。

https://www.zhihu.com/people/HowardZhengDS/answers

就像你说的，一种是编的，一种是基于数据的，其实大家最开始是不想做基于数据这一块的。基于逻辑的话，编写得比较直观，你能知道它发生什么。

第二个很现实的问题是基于数据的话对硬件的要求非常高，你必须能够同时处理很多数据，所以也就是这几年，大概是2010年之后，随着摩尔定律慢慢走向终结，晶体管越来越多，显卡、CPU性能爆炸了之后，才能够容纳那么大的模型，其实最早时神经网络的模型是比不过人工编写的算法的。因为当时的显卡或者处理器上没有办法同时吞吐很多的数据。一步步走到今天，编算法能编出来成本肯定还是低的。编码好维护，用AI训练要收集数据、清洗数据，然后要很多的硬件资源。但大家发现只有基于数据的那个方法，才能够更接近地去完成现实环境中的一些任务。

*所以我怀疑在走向智慧的过程中，智慧本身是没有办法直接编写的，它必须是靠学习、靠积累、靠进化、靠突变加环境的影响，来最终达到一种接近智慧的效果。**所以这是我们觉得AI的进化、训练与儿童的成长和学习有相似性的本质原因。

10.

AI对于创作内容匮乏是否有帮助

/ / / / / /

晓刚：

在借助AI创作的过程中，有没有一些时刻让你觉得这东西不应该是AI做出来的，或者说特别惊喜的一个时刻？

Simon：

其实是有的，而且有很多。基本上我每用一个新的模型或者算法去生成的时候，一开始都会很惊喜，然后随着创作越来越多之后，我慢慢知道它大概会做些什么事情，那种惊喜感就慢慢消失了。这又会驱动我去找新的算法，或者把已有的算法做新的连接。总体来讲，没有一个特定的作品让我觉得很惊喜，但是每个系列的作品开头时，我都会觉得蛮惊喜的。

晓刚：

我觉得宏观来看，艺术与建筑的创作在逐渐走向匮乏，AI的创作无论它成不成熟，现不现实，你觉得它的这种意外性能够给日渐匮乏的艺术和建筑创作带来什么启示，或者说提供什么帮助？

Simon：

*我觉得它应该是一个放大器，能够让一些本来有创作天赋或者有想法的人去放大他的产量，或者提高他作品表面上的质量。**但是可能没有办法直接去改变。

这关系到匮乏的定义是什么，如果是指缺乏真正能够使学界、业界脱胎换骨的，能够改变整个理论走向的东西，我觉得这可能不会由AI去产生。

*因为这些观念源于创作者对社会、历史阶段或者一个行业的深刻的洞察。**以前引领建筑变革的那些大师都对社会有非常深刻地洞察，这个东西是没有办法用AI来完成的。

但是如果匮乏指的不是这些能够改变整个历史走向的作品，而是指一些中高质量的作品或者消费领域的产品，我觉得AI是可以起到作用的。因为现在市场上好的内容也非常匮乏，比如说我们拿游戏来讲，这是我曾经去参加一个游戏论坛听到的说法，一个好的游戏，侠盗猎车也好，荒野之息也好，或者一些3A大作也好，人家是几百个人的开发团队，几百个工程师做了几年，才做出一个10G的游戏，结果玩家肝了三天就通关了，这个内容一下就被消费掉了。

但如果说我们要迈入元宇宙的话，我们必须有足够的——不一定是经典作品，但至少是优良的作品，而且是不重复的、个性化的优良作品来提供大量的素材。那么这些内容就很难用传统的开发周期来生产，因为太慢了，成本也非常高，大家上去玩两天就没了。

*为什么现在自媒体那么兴起，而且自媒体最喜欢拍的就是身边的事，因为这是一个最低成本产生不同消费内容的方法。**所以大家都是拍视频，写文章、写故事写得好很难，做音乐做好也不容易，但是拍身边的事、分享身边的事大家是比较愿意看的，成本也是很低的——现在是这样的趋势。

*如果内容生成AI可以广泛使用的话，中高质量的作品的数量就会增长，那些创作中高质量作品的人拥有了一个创作的倍增器。**他本来可能1个月只能做一个，但是借助AI工具的话一个月能做20个。所以AI能够某种程度上缓解这一个层级的内容的匮乏。

晓刚：

其实AI还是一个让创作者提高生产效率的辅助工具。

Simon：

目前来说是这样的，毕竟作品最重要的是它的精神内核：作品的主旨是什么吗？受众是谁？想要解答什么问题？AI在走到强人工智能或者通用人工智能之前，它是没有办法帮你回答这些问题的。其实当你创造一个东西的时候，你在回答那几个问题之后，这个东西大体上就已经确定了。所以这个还是得靠人。

11.

图像质量泛化性速度

/ / / / / /

晓刚：

最近特别火的nft的作品头像里也有很多像是AI能够生成的，它们里面很多创作方法是有迹可循的，你觉得是这样吗？

Simon：

他那些头像确实可以用AI生成，但是根据我仅有的知识来推断，那个其实都不用AI，用一个脚本拼接就好了，因为它就固定成了那么多个部分，每个部分准备那么多的素材，然后随机拼接一下就完了，而且它会比AI更可控更低成本，可能质量还更高，因为AI生成的图很多时候会有一些不确定性的东西在里面，有些不可控的，脚本拼接是完全可控的。

晓刚：

你今天已经提过很多次“模糊”了，从一个模糊的初步作品到清晰的结构化的作品，比如说你身后的背景图，这一步是很难的吗？在短时间内AI创作精度的提高是可能实现的吗？

Simon：

难倒也不难，比如说StyleGAN已经能够生成很多非常真实、基本上是不可辨别真假的图像。现在出了个比赛叫Deepfake挑战赛*，它是专门为识别生成的假人脸的程序设立的比赛，因为人眼已经不能识别是否是生成的，要靠机器判定识别。

https://www.leiphone.com/category/industrynews/Mx2ax9joYZlcKpsD.html

我说的模糊它是出现在一些特定的场合。**如果把AI的模型画一个能力圈的话，它有几个坐标：生成图像的质量，这个质量包括图像的锐度、清晰度、真实度这些。我认为目前AI模型的性能有一个不可能三角，即泛化性，速度和质量。**这三个点往往不可兼得，你可能只能得到其中两点。如果我希望AI给我一个很意外的东西，比如说我要它给我一个人脸，地球上的黑人、白人、黄种人，男人、女人、老人、小孩这种人脸，它是能够给我一个很真实的人脸的。但如果我希望他给我一个介于外星人与地球人中间的人脸，它就会变得模糊。因为这个就是考验它的泛化性。如果我希望它又有泛化性，又真实的话，可能就要牺牲速度，要在模型的区域找很久，得到一个稍微清晰一点的图。也不能说很难，只是说分不同情况，有时候是可以很清晰的。

听众B：

我问一个问题，所谓的“泛化性”指的是生成一个训练时没有告诉它的图吗？

Simon：

就是跳出它训练集范围以外比较远的一些图。

听众B：

另外从模糊到清晰这一步，是不是会用到一些super resolution之类的？

Simon：

我觉得本来就模糊的话，你拿super resolution搞了之后它的边虽然是变清晰了，但是你会觉得那地方应该还有一些什么信息，它只是把边缘变锐利了。加上CLIP的话有助于它变清晰，比如说你用VQGAN概念生成一个图，VQGAN也不是每一张图都是清晰的，有模糊有清晰随机的。但是CLIP训练的时候得到的图都是清晰的，所以你让它引导的时候，它不仅会找内容接近的图，也会找尽量清晰的图。我发现CLIP加diffusion*会比较清晰，可能跟diffusion本身的性能有关，但是它迭代时间会比较长。

https://huggingface.co/spaces/akhaliq/clip-guided-diffusion

12.

外星生物的作品：

AI对不同物体的认知

/ / / / / /

晓刚：

你有两个生成外星生物的作品，我觉得它的边界比建筑、空间的图还要清晰，这两种在操作的过程中有什么区别吗？

AI生成末日生物

使用 CLIP + VQGAN/diffusion Model

根据以下文字生成：cyborg jellyfish survive in nuclear war

Simon：

那几个倒没有区别，就是文字加diffusion模型生成的，其实对AI来说生物可能会比建筑稍微简单一点，因为建筑是一个比较复杂的场景，建筑上的一个门、一个窗，可能在AI的眼里就跟一个生物差不多复杂。

而且建筑的立面会比较多样，所以你让它生成一个建筑的时候，AI会觉得很不确定。哪怕只限定在哥特式建筑，都会有很多不一样的，它的边界就会模糊。

但对于AI来讲，比如说你让它生成一只狗、一只猫，猫与猫之间的差距可能会比不同哥特式建筑之间的差距小很多，AI就会觉得这些事情确定性更大一些。所以我感觉生成生物这些可能会对进入AI创作领域的人来说简单一些。

13.

入门指南教程推荐

/ / / / / /

晓刚：

你觉得对于一个对AI领域很感兴趣的普通建筑师来说，除了b站上的教程之外，还有什么适合初学者入门的资源？一个新手应该如何迈出尝试的第一步？

Simon：

三个方面吧，第一个就是你要先去找到一些案例跑起来，你要先看到结果，你大概知道它能干什么。第二个方面是你还是要了解一下背后的原理，本来就是黑箱了，你再不知道原理，你更没办法控制好它。第三个就是要做好心理准备，这是一个漫长的学习过程，它的学习曲线非常的陡峭，要去准备一些正向激励给自己。

「自学指南」

Step 1

公众号：量子位，CSDN，机器之心，paperweekly

那么第一点的话，你可以先去关注一些中文的公众号，比如：量子位，CSDN，机器之心，paperweekly。有一些公众号会推一些AI新的比较有意思的算法，然后你看到那些算法觉得有意思，你就去github上找对应的源码。这时候你要具备一个基本能力，就是可以看懂。第二个能够配置运行程序所需要的环境，不管你是在自己电脑上装anaconda环境也好，还是做ubuntu系统也好，还是你用 Google colab的虚拟环境也好，总而言之你要能够把它跑起来。

Step 2

教程：吴恩达-深度学习（官网 deeplearning.ai，网易公开课有中文字幕版，但是好像没有附带的作业；）；B站 @跟李沐学AI，@同济子豪兄

第二点的话，如果是你真的要去学习AI，我会建议去学吴恩达的课，我自己是花了两三年慢慢把它啃下来的。在学习深度学习专项课程的过程中，会发现你缺少很多基础知识，比如说你会发现线性代数不会，高数又不会，你会发现你需要去啃高数的“四大天书”，另外你会发现Python又不会，然后你可能要通过别的途径去学习Python。

Step 3

社群（公众号同名）：无界社区mixlab

然后第三个就是正向激励，我会建议找一些跟你志同道合的小伙伴，加一些社群，有问题就可以问，感觉大家在进步。另外一方面经营一下自己的自媒体，也不一定自媒体，其实把做来的东西发朋友圈就可以，如果你身边的人都没见过这种东西，一定会毫不吝啬地给你点赞，然后你得到激励之后，会更有动力往下走。

14.

欣赏的创作者

/ / / / / /

晓刚：

你觉得给你影响最大的创作者是谁？比如说建筑师、艺术家、文学家谁都可以。

Simon：

好像很难说谁最大我好像不大说上来，因为我发现我一个特点就是我经常会想起一个东西在哪里看到，但我会直接忘了那个人是谁。

补充：其实肯定有一些大师对我影响是很大的，但是当时问我这个问题的时候，我第一反应却没有想着去说出这些名字，因为我觉得他们就像天边耀眼的星，他们虽然很亮，但是不足以照亮我们脚下的路。因为这个时代迭代得太快了，我们可能更需要像路灯一样的、更亲切的、一步一步指引你前进的这么一些人。

所以在这个意义上讲呢，我觉得在实践中对我影响更大的应该是网络上的一些，或者说up主、po主，他们是活跃在创作的一线的，他们有时候会分享自己的想法，甚至教程。因为他们一直在创作，你能够从他们的连续的创作中去感受，挖掘出他们的创作路径或者创作手法。

所以我会建议大家，**除了那些特别伟大的大师之外，多关注一些没有那么遥远，就是在做跟你类似的事情、但是做的比你要好一些的人。**你通过分享一些你的创作，跟他们建立连接，甚至能在网上跟他们直接进行交流，我觉得这个帮助会更大些。

15.

AI工作坊设计

/ / / / / /

晓刚：

我再问一个实用性的问题，可以通过几天或者一系列的工作坊，让一些对AI感兴趣的人可以更容易地进入这个领域么？

Simon：

我觉得可以设计一个让初学者能够快速使用工具的workshop，但是要把背后的原理说清楚可能很难。

其实就我们现在背景的这张图，就是我19年的时候去你们清华参加徐卫国老师的参数化培训班的时候做得，当时也是几天7天的时间，然后当时我的导师是Casey Rehm*，他教了一部分processing，一部分人工智能，但是他只是教怎么运行起来这个模型，没有讲背后的原理。

https://www.linkedin.com/in/casey-rehm-73068370

「 AI生成城市」

左：沙漠地区卫星图右：洛杉矶卫星图

场地平面图—总平面图—建筑体量—带材质模型

结合图片分割及拼合基于对抗生成网络（GAN）进行高分辨率的单张图片对转换

学完之后，我去观察当时参加我们组的学员，基本上之后还可以去使用这些程序的，都是本身就有一定基础的。原来没有基础的那些可能当时就没学会，或者过了就忘了。

现在有很多工具比较简单地就能够运行起来，使用的门槛的确下降了。但是理解的门槛目前还没有下降得那么明显，当然现在深度学习的框架变得容易了一点，也有更多好的教程出来。但是它原理本身这一块没有变得更容易。就像不管什么时代，高数四大天书，它还是四大天书。但可能未来大家不需要去了解那么多背后的知识，就可以把这个工具用的蛮好，现在慢慢有这个趋势。

我觉得可以尝试，大家就把它当成一个黑箱。如果你没有那么多时间去学习的话，就凭直觉去对它进行使用，也可能会蹚出一条路来，我自己不是走这条路的，但是我觉得这也是可行的。

16.

硬件要求：不高

/ / / / / /

晓刚：

这条路我们再聊一聊，比如说想要实现这样一个黑箱，因为你给我的链接我也试了反应速度已经比当时b站里的视频已经慢很多，可能排队太长了，想要达到一定的复杂性，又有一定的清晰度，同时承载一定数量的人去体验去使用，就在我们家用的计算机上是可能的吗？还是说需要一个超强性能的一个云端的设备来去支持？

Simon：

家用计算机是可能的，但是它通常来说需要比较好的显卡，就简单来说3070、3080以上加12g显存以上的显卡，但是一个这样的节点可能只能支持一个人同时用，成本还是比较高的。

其实上次我给你看网页端的它的网页端的东西是开源的，你可以直接把它的代码连同它前端都扒下来，然后在你的服务器上运行都可以的，你只要配置好的服务器，你就可以自己创建这么多节点给大家去用，但是成本还是比较高。你一个3080，现在可能上万块差不多，然后你只能提供一个节点，只是个显卡而已，对它成本还是比较高一些，如果让很多人去用。但是我觉得如果是你做一个workshop，我就比如说二三十个人，那么你可能配置四五个这样的节点也就够了，就不需要所有人一起同时用，可能也还可以。

但是如果你要做成公开形式，所有人都能上去用，那就免不了会变成网站huggingface*，就变成跟那个一样，大家都要去排队，就可能免不了要变成那个情况。

https://huggingface.co/spaces/akhaliq/VQGAN_CLIP

晓刚：

好的问题已经问完了，其他人也可以随意的跟三位聊一聊。

17.

建筑工作流中不同工具配合使用：grasshopper、blender、AI……

/ / / / / /

听众B：

Simon说是希望AI之后变成一个像设计师或者建筑师的一个放大器，或者让他增强产出的这么一个帮手，我觉得这是很有道理的。您有没有设想过未来AI和建筑师如何合作，比如说像现在这种clip加上VQGAN的方式，算是设计师通过语言的输入，指导Ai来做一些设计，还有没有其他的方式来让AI和设计师合作呢？

Simon：

这一块我倒没有想那么细，但是你说这个提醒了我一点，不知道这样算不算回答了你的问题。我觉得现在很多人对AI创作会有一个误区，就是他把这个东西看得非常浅，有两种情况，一种包括在很多本科学生学参数化过程中也是一样，它因为用了AI或者说用了哪怕是grasshopper比较简单的工具，它创建出来了一个跟别人不大一样的东西，他就觉得自己特别厉害，这个肯定是个误区。

第二个误区就是，有些人看到你做的东西，然后他知道了你是用参数化或者是用AI的做出来了，他就会觉得，你这个不就是借助机器帮你画图吗？那不是你自己本事，这也是一个误区，所以我觉得就是说要纠正一种态度是什么呢？建筑师跟工具它怎么融合？我觉得不是由我或者说一些人去设想，他可能是需要设计师去探索的。

比如说一些乐器或者说一些画画的工具啊，它最早是没有固定的，它是在画家你怎么就是使用那个工具或者音乐家使用乐器的过程中慢慢把它固定下来的，所以我觉得现在缺乏一种设计师对这些新的工具进行一个严肃的审视，与真正投入很多精力对它进行试用和开发的这么一个习惯和氛围。

大家用了一下觉得很好玩，然后反正自己想做也做不了就丢那了。但比如说就拿一支铅笔，我们要学会怎么画素描，我们都要画好多天鸡蛋、好多天苹果，画好多天石膏体，之后才能画出一幅看得过去的素描，我们对一支笔都能够投入那么多精力。笔本来只能画一根线，你投入精力学习之后，你居然能够用它创造出一幅非常逼真的素描。

对于AI工具来说，如果你以一个同样严肃的态度去投入精力，它本身的能力就比一支笔要强大得多（虽然可能没那么灵活），它不应该创造出一个更激动人心的东西么？

我想说的是其实设计师就应该去拥抱这些工具，然后在不间断地使用中，要么你可能是完善它，要么你能更好地去掌握它，要么你能够更好地在一些不同的工具之间进行组合，让它变成一种新的工具。我觉得这是设计师自己要去用时间回答的问题。

听众A：

你觉得AI与我们自己做设计相比，AI最大的优势或者是什么？它有一个特定的美学特征呈现出来吗？还是说只有使用AI才会有一个新的风格或呈现去适合下一代的数字建筑？想知道你怎么看，因为如果我用了AI了，还跟以前一样，那就有点多余。

第二个问题，因为你跟晓刚都是爸爸，如果AI是一个不怎么聪明的孩子，我觉得它现在不那么聪明，是因为我教了它太多东西，如果用一个更简单的方式，深入强化学习去做一件单一的事情，可能更适合它一些？

Simon：

我觉得其实你这两个问题都很好回答，**首先你不要把AI看成一个单一的工具，你应该把它看成一种工具集。**打个比方，有些人喜欢用手绘进行创作，有些人喜欢直接建模，有些人喜欢用CAD先画图，你不会觉得他们有限制，为什么？因为手绘的人他可能一开始现在用铅笔打草稿，完了之后可能用马克笔上次画个速写，到时候要出渲染图的话，他就用水墨渲染，甚至有些高手用油画，反正他有不同的工具解决不同的任务。那么用电脑的人也是一样，快速的时候他可能是用SU去拉，或者用犀牛，到后期要真的施工，它可以用BIM，所以AI也是一样的。

你觉得他固定的某一种风格，或者说你觉得做出来就像AI或者说就不像AI，是因为你掌握的工具的数量可能还比较有限，当你掌握足够多的AI工具的时候就不会有这个问题。一方面是我说泛AI，不仅是深度学习模型叫AI，甚至可以把遗传算法，以及一些参数化的东西，所有算法类的东西都归为AI，你都了解一些，完之后，而且现在又不停会有新的算法涌现出来，我觉得就不会有这些限制，你就能够根据不同的任务去选择不同的方法。另外一个就是，他也没有什么大不了，你就不要把它看成AI，就是另外一个工具集，就是跟软件集一样，给了你拓展能力边界的可能性。

比如说我建模用grasshopper；之后我可能要做一些更流线型、更有机的东西我可能用blender；我如果要出概念图用AI给我灵感，我可能就用文字clip加VQGAN；之后我要讲故事的时候，可以用img2text；我要解答问题时，不用搞那么复杂模型，就直接用决策树；我可能要一些很固定的形态，我就用分形算法，它是一个大的工具集。

听众A：

我们没有你这种根据不同的内容或效果选择不同工具的概念，我知道这个东西很厉害，但不明确这个工具实际上会有什么效果。如果是个短期的工作营，你可以根据一些效果来引导学生，让学生建立不同任务选择不同工具的意识和能力。

Simon：