关于生成式人工智能的小故事:绘画挑战
Generating AI A Story of Artistic Challenges
理解生成式人工智能的工作原理

《关于生成式人工智能的小故事:绘画挑战》是一个旨在通过简单易懂的形式直观地解释生成式人工智能的工作原理的故事。在整个故事中,可能并不明显它与生成式人工智能的关系,但最后的部分“结束语”将解释它们的关系。阅读愉快,欢迎评论!
绘画挑战
引言
想象一下,你和你的一个好朋友刚刚在网上报名参加了一个挑战赛。虽然只写着“秘密挑战”,但你们还不知道具体是什么,但你们一起参加,肯定会很有趣!
挑战的日子到了,你和你的朋友刚刚和管理员在挑战举行的建筑物外面见面。管理员告诉你们跟着她走,她会带你们去挑战的地方。你们被带进了一个空房间,地板是橙色的,四面墙壁有颜色。房间里除了两个门,没有其他的挑战者、桌子、椅子或其他东西,只有即将发生的事情的期待。
管理员开始告诉你们规则:“规则非常简单:总共有三个房间,主房间和两个小房间。挑战分为六个回合。每一回合只能有一个人在主房间,但你们可以在每一回合中多次交换谁在房间里。这个规则意味着你们不能看到或听到对方。一个人被放在其中一个小房间里,有四块画布和绘画材料,另一个人被放在另一个小房间里,有四张纸。每张纸上都有一些东西,目标是尽可能接近纸上的内容进行绘画。你们可以通过彼此之间的对话了解是否有人在主房间。”

在进入各自的房间之前,管理员在主房间的地板上放了一个长方形的立方体。管理员解释说,在每一回合中,只有立方体和其中一个人可以同时在主房间中。这意味着你可以在你们之间轮流进入主房间时将立方体留在主房间里。你拿起立方体,注意到它有点粘,但由于挑战即将开始,你激动而又非常困惑,没有多想。
第一轮:一张白纸
由于你的朋友更擅长绘画,你们决定他将在带画布的房间里,而你将在带纸张的房间里。你们还约定,你们应该轮流进入房间,尝试一次只传达一张纸上的信息。
你走进房间,看到门上闪烁着绿色的灯光,地上放着四张纸,就像管理员说的一样。你拿起纸看到每张纸上都有一个图像:
- 一张猫的图像
- 一张厨房的图像
- 一张汉堡的图像
- 一张树的图像
你选择了第一张,一张猫的图像,然后走进主房间。
在主房间里,你再次看到了宽阔的地板和大墙,对面有一扇孤独的门,地板上还放着一个立方体。你对如何与朋友交流感到非常困惑,因为你们之前没有达成任何共识。没有其他事情可做,你回到自己的房间,思考该怎么办。
进入房间后不久,你看到灯光变红,表明你的朋友刚刚进入了主房间,对他现在一定很困惑感到有些好笑,就像你自己一样。不久后,灯光又变绿,表明你的朋友离开房间去猜测你的第一张纸上写了什么。你拿起第二张纸,上面是一个厨房的图像,再次走进房间,对这次的结果并不十分自信。
没错,一切都没有改变!有点恼火,你用鞋子踢了一下立方体,看它滚动了一下。至少你可以玩一会尴尬的立方体足球,即使没有其他事情可做,所以你再踢了几次后又回到了自己的房间。
这种情况一直持续到你们两个都进入房间四次,如果你自己说的话是正确的,你在立方体足球方面已经相当厉害了!但离赢得挑战还有很大的距离…
第一轮回顾
第一轮结束后,你和朋友再次见面,你感到有点沮丧,因为获胜的可能性很小,但你惊讶地发现你的朋友比你更有精神。你们都把房间里的东西拿出来,看看彼此的画面有多接近。毫无意外,没有任何匹配的东西!你不敢相信地看着你的朋友,不是因为画面看起来不像,而是因为朋友的积极能量与你的形成了鲜明的对比。
你问朋友为什么他情绪如此高涨。他告诉你,他已经想出了如何在没有交谈的情况下绘制你的纸上的内容!你迷惑地看着他,要求他详细解释。他告诉你,他第一次进入房间时感到非常困惑,因为没有任何指示应该绘制什么;他很快进入自己的房间,开始练习旋转。他预计第二次进入房间时会有同样的情况,但令他惊讶的是,房间并不相同!“不一样?你一定疯了,”你告诉你的朋友。“这是一个没有任何东西的大房间,怎么可能不一样?甚至连窗户都没有。”
事实证明,房间的差异并不显著,但它是至关重要的。每次他进入房间时,地板上的立方体都放在不同的位置。他了解你,知道你可能用它来踢足球,但这并不重要,因为这是沟通的关键!
“是的,就是这样!”你兴奋地喊道。你可以利用地板来指示你的朋友应该绘制什么。情绪高涨的你们再次看着纸上的内容,看他应该绘制什么。你们决定把地板分成四个相等的方块,一个是猫、厨房、汉堡和树。简单!
你告诉管理员你准备好进行下一轮了。
第二轮:简单组
第二轮开始了,你已经准备好了!你直接拿起纸,因为你现在知道该怎么做了。你拿起第一张纸,果然是一只猫,是上一轮的形状之一。你检查灯光是否是绿色的。是的。你跑进房间,把立方体放在你决定的猫的区域。你再次走进自己的房间,等待看到灯光变红。你对自己微笑,知道自己走在正确的道路上。
看了红灯几秒钟后,你转身去拿下一张纸。当你看着手中的纸时,一种不祥的感觉涌上心头。你拿下下一张纸,仍然对眼前的景象感到恐慌。你拿起最后一张纸,希望它会不同,但不幸的是并不是。你纸上看到的是:
- 一张老鼠的图片
- 一张狗的图片
- 一张马的图片
这不像你和你的朋友所约定的任何事情,你不知道该怎么办… 或者说其实只有一件事可做:立即结束这一轮。至少这次你答对了一个!
第二轮回顾
你再次与朋友见面。他看起来就像你第一次带着一张猫的图片进入房间时那样开心,这与你现在的感受形成了鲜明的对比。正如预料的那样,你的朋友展示了四幅描绘猫的画作。当你给他看不同动物的图片时,他的脸变得僵硬。你们一致认为这次你离正确还有一段距离,但比上一次更接近了。
经过一番思考,你想到将地板分成八个区域,其中七个区域分别用于之前见过的每种动物类型,另一个区域保留给当图片是全新物体时使用。朋友在空区域猜对的几率会很低,但至少还有一个区域是对的。
当你再次进入每个房间时,你非常自信;即使出现了新的东西,你现在知道该怎么做。
第三轮:更多分组
正如预料的那样,这次更加熟悉。你这次看了一开始的所有纸张,看看上面都有些什么:
- 一张老鼠的图片
- 一张汉堡包的图片
- 一张狼的图片
- 一张浣熊的图片
你记得老鼠应该在左下角,所以从那张开始。当你回来时,你取了下面这张汉堡包的图片。你已经很久没有拿到非动物的东西了,但记得它在地板的右上角!你再次进入房间,在空区域放置了最后两张纸。
第三轮回顾:更多分组
这次你并不像上次那样沮丧,因为你答对了两个,而且你知道不一定都是之前见过的东西。你们一致认为新的分布应该如下所示,希望这次能答对更多:
这次你已经把流程掌握得很好,可以快速进入每个房间。
第四轮:记不住太多
你再次进入你的房间… 这里开始感觉有点熟悉了。这到底过了多久?几天?几周?你看了一下手表… 45分钟…好吧,可能还没那么久…你停下来欣赏一下你的朋友制作所有那些画作的速度有多快。
但生活必须继续,所以你拿起第一张纸。你看到一棵树,你认识它,它在中间靠左。你进入房间,按照约定的地方放置方块。你离开房间,不再花时间看那盏灯,直接去拿下一张纸。一张马的图片,对了,那是中间的那个。
你再次进入房间,将方块放在地上。你站在房间中央,两手放在身旁,为自己取得的进展和兴奋感到自豪。这次你能答对两个以上吗?你再次离开主房间,看看这次会出现什么。一张斑马和一只老虎的图片,运气不佳;看来你必须再次改变事物。
第四轮回顾
你再次与朋友见面;确实,你答对了四个中的两个。你看着他画的画作,看到了一棵树和一只猫的图片,你对自己点了点头。正如预料的那样,有一张树和一匹马的图片…等等?一只猫?不是马吗?你感到困惑,问朋友为什么画了一只猫而不是一匹马?他看起来和你一样困惑,回答说你把方块放在了猫的区域!你们讨论了马和猫区域的正确位置,发现你的朋友是正确的。你忘记了马的正确位置。
你甚至无法记住九个不同类别的地方,现在你有11个…?你向朋友表达了你的担忧,并且同意这不是一个可变的策略,因为引入了更多的类型。你看着你迄今为止收到的例子,发现大部分都是动物。你的朋友有了一个想法,如果我们把相互相似的东西放在一起会怎样?你同意这是一个好主意,因为这样可以更容易记住东西的位置!
你把地板的下半部分作为动物区域。但这还不够,所以你把看起来相似的动物放在亚组里,比如斑马和马,或者老虎和猫。这样会更容易记住东西的位置。你还意识到汉堡是在厨房里制作的,所以你把它们放在一起。
你相信现在你记住所有不同类别的机会要好得多!下一轮开始了。
第五轮:简单
你看到了一个熟悉的场景,房间中央有一小堆纸张。从上方的光线透过门照亮纸张,发出微弱的绿色光芒。你拿起下一张纸,兴奋地看看这一轮可能面临的挑战。第一张图片是一只孟加拉虎,一只看起来像迷你版老虎的猫。它是一只猫,但是…你知道地板上的两个区域在哪里,但不确定你的朋友会画出正确的东西。你决定最好把它放在老虎和猫之间的中间位置,希望你的朋友能理解这不仅仅是一只猫,而是一只看起来像老虎的猫。
完成一个,剩下三个!你在等待朋友在主房间里完成工作时,心里默默为自己打气。看到剩下的纸张上的内容,你感到惊讶和有点困惑,不是因为绝望,而是因为你松了一口气,因为这一轮比前四轮要容易。剩下的纸上分别是三只狗,一只美国无毛犬,一只胡须牧羊犬,还有一只博尔多犬。灯光变成了绿色,你走进房间,把方块放在为狗预留的区域。
第五轮回顾
第五轮结束后,你再次和朋友碰面,看看你猜对了多少幅画。你的朋友展示了第一幅画,一只猞猁的画。该死!离成功很近了,但公平地说,孟加拉虎更像美洲豹,猞猁则处于两者之间…但至少当你把方块放在两个区域之间时,你的朋友明白了你的意思!你催促着朋友展示剩下的三幅画,期待着剩下的画是否正确。幸运的是,它们都是狗的图片!
相当满意,你叫管理员过来,夸赞你这次猜对了3/4。相当令人印象深刻,对吧?管理员只是摇了摇头,指出这些画看起来确实像狗,但与纸上的图片完全不同。该死,她说得对!这些画都是拉布拉多犬的画,是最常见的狗品种之一,而不是纸上显示的三个品种。她再次离开,给你更多时间,最后一轮开始之前。
你应该把所有狗品种都加到地板上吗?之前你已经记不住所有东西的位置了,所以这似乎有点夸张…你和朋友看着纸张,注意到这些狗不仅仅是狗。每只狗在大小和毛发长度上都不同。你能把狗区域分成更小的区域,以定义狗的毛发长度和身高,而不是为每个狗品种都创建新的区域吗?
这是一个好主意,因为它将区域的数量保持在最低限度,但你意识到有一个问题。你刚刚学到,通过把方块放在两个区域之间,可以让朋友画新的东西;这个问题在猞猁那里就发生了。新主意的问题是,很难猜测方块是夹在两个区域之间,是因为它们结合在一起,还是因为一个区域的毛发真的很长。你决定暂时放弃这个想法…
过了一段时间,你还是没有找到一个好的解决方案或者新的想法…啊哈!你拿起这个长方体玩玩,一边思考如何解决问题。它还是有些黏手,感觉不太好,但总比什么都没有好。当你仔细看这个长方体的时候,你意识到有四条线绕着它,就像是由五个小立方体拼凑在一起形成的长方体。而且现在你想想,这个长方体比一开始的时候变形了吧?你叫上你的朋友一起仔细检查这个长方体。原来你以为是一个单独的长方体实际上是由五个立方体用一个松动的螺丝拧在一起的!但每个立方体还是黏黏的…
你的朋友总是充满好奇心,所以他开始玩这些立方体并不让人惊讶。坦白说,从思考中休息一下是最好的,所以你坐下来观察你的朋友玩这些立方体。他试图把其中两个立方体挤在一起,看看它们是否足够强大,能够在没有螺丝的情况下黏在一起。他慢慢地把一只手拿开,兴奋地看着它们是否能够成功,并准备接住一个立方体如果它们分开。结构保持住了。他点点头,满意地继续他的计划 —— 看看这两个立方体能否黏在墙上。
当你的朋友慢慢把手从黏在墙上的两个立方体上拿开时,一股激动之情涌上你心头。“我想到了!”你对你的朋友喊道,他因为惊讶而跳了一下,撞到了立方体,它们分开并掉在地上。你的朋友对你有点生气,但对你有什么想法很好奇。“如果地板不够的话,为什么不用墙壁呢?!”你的朋友要求你详细解释。“早些时候,我们讨论过将狗区分成不同的部分,根据毛发长度和大小,但我们都同意这不是一个好主意,因为这样做不可能创造出新的事物,比如猞猁。但如果我们把一个立方体放在地板上表示动物的种类,另一个立方体放在墙上表示动物的毛发长度和大小呢?”你们都认为这是一个好方法,并决定不只用一面墙,而是用所有的墙!你们还决定不再在地板上放动物和其他东西,而是进行以下重组:
- 橙色地板被分成了大陆,以便更容易指示事物来自哪个地理区域。如果将立方体放在欧洲的顶部,它将代表挪威,如果将其放在非洲的底部,它将代表南非。你决定中间保留给那些不属于任何特定国家的事物。
- 蓝色墙决定了事物的大小和毛发长度。他们决定最大的尺寸是一个行星,VoAGI尺寸是一头大象,最小的尺寸是没有尺寸。与此同时,最长的毛发长度是2米,VoAGI尺寸是半米,最小的尺寸是没有毛发。
- 绿色墙遵循相同的概念:一个方向决定了圆圈的主导程度,另一个方向决定了条纹的主导程度。中间的一个点可能是一个椭圆形,一个长的圆圈,可以看作是圆圈和条纹的结合。
- 紫色墙决定了事物的危险程度和它看起来像动物的程度。
- 黄色墙代表食物和树木。食物定义了我们将事物视为应该被吃掉的程度。一个汉堡包将处于这个尺度的顶部,因为它可以立即吃掉,而一罐豆子将处于中间,因为我们需要先把豆子弄出来。最低的部分将是像石头这样的东西,(希望)没有人会吃掉。树木定义了事物是多像一棵树,左边靠近一个花朵,中间是一个灌木丛,右边是一棵树。
就在你决定如何分割地板和墙壁的时候,管理员告诉你第六轮也即最后一轮即将开始。你(再一次)准备好了,对你的新策略感到非常兴奋!
决赛-第6轮:太空大师
这是最后一轮,再来一次,然后你就完成了(希望能够获胜)!你拿起第一张纸,准备应对这个挑战。你在第一张纸上看到了一头牛,很简单。你走进房间,像18岁回到舞池一样征服地板。你在地板中央放置一个立方体,告诉你的朋友它无处不在世界上,然后在中央左侧的蓝色墙上放置另一个立方体,因为它是一种毛短的大型动物。你看了看绿色墙壁,是圆圈还是条纹?当然,是两者兼有,但主要是圆圈,并且不太多,将它放在上半部分略微靠左的位置。危险吗?它不完全无害,但绝对不被认为是危险的,并且肯定是一种动物:你将它放在紫色墙壁的右下角。食物?很多人吃牛,所以你将立方体放在中部高度,因为它是一种动物,而不是一块肉。牛看起来一点也不像植物,所以立方体被放在最左边。天才。
你像风一样完成了前两张纸,接着迅速完成了接下来的两张,其中一张展示了长颈鹿,另一张展示了太阳。当你完成第三张纸时,你觉得自己开始掌握了技巧。你拿起最后一张纸,准备迎接最终的挑战。尽管之前充满自信,但此刻你充满了怀疑。纸上没有任何图像…并不是说纸上“什么都没有”…只是…没有图像…那么纸上有什么,你可能会问?文字…上面写着“香菇”。你花了一些时间让这个视图沉淀下来…你记得没有人告诉你图画应该看起来像纸一样,而是像纸上的内容一样。所以…即使我在纸上有文字,我朋友仍然可以画一个香菇?让我们试试吧。”你试着运气,按照纸上展示的香菇的样子放置立方体。你将立方体放在地板上,靠近日本。它是一种可以食用的小植物,所以你将它放在黄色墙壁的中上位置。它既不是动物也不危险,但它是圆的,有一个茎,所以你将它放在绿色墙壁的中央,紫色墙壁的左下角。它很小,没有毛发,所以你将它放在蓝色墙壁的左侧稍微上方。
你最后一次离开房间。令人兴奋。
结束思考
生成式人工智能的目标是生成事物,就像你朋友的目标是“生成/创作”绘画一样。但就像你的朋友也可以写文本一样,只要生成式人工智能知道如何生成,它就可以生成我们要求的任何内容(你的朋友可能无法制作音乐,因为他还没有学会)。我们通常希望人工智能在小任务上表现得非常出色,而不是在许多事情上表现平均,所以我们通常将其限制在只生成一种类型的内容,比如图像。但就像综合人才和专业人才在工作场所有不同的角色一样,专门和通用的人工智能可以用于不同的任务,并且各自都有其优点和缺点。
生成式人工智能在我们没有告诉它要生成什么时仍然可以生成一幅画,就像在第一轮中,当你们彼此不知道如何沟通时,朋友所做的一样。但仅仅生成随机的东西通常并不实用,所以你希望有一种方法来影响生成/绘画的内容。问题是你不能直接告诉生成式人工智能要生成什么,就像你不能直接与朋友交谈一样。因此,你需要达成另一种方法来做到这一点。你之前的做法和生成式人工智能的做法是一样的,你将立方体放在一个房间里,不同的区域专门用于不同的事物。对于生成式人工智能来说,这被称为“潜在空间”,它只是一个花哨的词,指的是一个你和朋友不能同时存在的特殊房间。
如果你想应对挑战,你的朋友/生成式人工智能需要擅长两件事:
- 尽可能生成多种不同的东西
- 生成以前未见过的新事物
这就是问题开始出现的地方。随着引入越来越多的事物,记住事物的位置变得越来越困难。解决这个问题有两种方法:
- 将相似的事物放在一起
- 如果地板空间不够,还可以使用墙壁
首先要做的是将相似的事物放在一起。这将提高生成各种不同事物和新事物的能力。
- 生成很多事物将更容易,因为你不需要记住事物放置的位置,只需要记住不同区域的事物长什么样子,即使你没有画对正确的事物,你离正确的事物也不会太远,因为它看起来就像该区域里的事物。
- 生成新事物也会更容易,因为重点不在于事物的位置,而在于事物的外观。这意味着你的朋友会知道当你将立方体放在没有毛发和长毛的事物之间时,他应该绘制带有一点毛发的东西。
第二件事是不仅使用地板,还要使用墙壁。在故事中,你和你的朋友讨论了如何将所有东西都放在地板上,但这不是一个好的解决方案,因为这会破坏你绘制尚未见过的事物的选择。你无法为尚未见过的事物上色,因为现在你需要,比如说,一个适合长毛和无毛狗的地方。如果你将它们添加到你的狗区域,结果将是当立方体被放置在狗和狼之间时,你不知道它是两者的组合还是只是一只长毛狗。
这就是为什么不仅要使用地板,还要使用墙壁的关键所在。它可以让你生成更多的事物,因为你可以在每面墙上表达不同的概念,比如地板上的动物样子,墙上的毛发长度和大小。墙越多,可以生成/绘制的事物就越多,但现在“只画一只狗”会更困难,因为你现在有更多的选择。所以你使用的墙的数量将取决于你想要多少控制。
最后一张纸上写的不是图片,而是文字。生成式人工智能不关心纸上写了什么,只关心立方体在房间里的放置位置。像OpenAI的Dall-e 2这样的生成式人工智能可以根据你给出的文本创建一幅画。博客文章开头的图片是通过给它提供文本“两个人站在一个明亮宽敞的白色房间中央”的结果。

后记
这就是《关于生成式人工智能的小故事:绘画挑战》,一个关于两个朋友以及他们不用说话而是仅仅用一个房间和几个粘性立方体进行交流的故事的结尾。
感谢阅读;希望你喜欢这个故事,现在对生成式人工智能的定义和工作原理有更好的理解。查看我的个人资料以获取更多博客文章,并在有问题、想法或未来博客文章的评论中发表评论。
我目前正在撰写多篇将于今年发布的博客文章,所以如果你想在有新文章发布时收到通知,请订阅!
祝好,
Mathias
如果你喜欢这本书并对机器学习和数据科学的新见解感兴趣,请注册VoAGI会员以完全访问我的内容。关注我,以在我发布新章节或文章时收到电子邮件通知。
Mathias Grønne — VoAGI
图像嵌入和自动编码器的详细介绍 书籍及其章节的介绍 — 他们说一个…
VoAGI.com