思想，技术，性情爱个人网站：https://www.xiahua.me

AI 时代的创作｜正被抹平的审美和创造的鸿沟

2023 年 4 月 16 日（编辑过）

我认为，AI 生成模型带来的一个重要改变，是抹平了审美力和创造力之间的巨大鸿沟。本篇文章将详细讨论，这究竟意味着什么。

本文首发于我的个人公众号 TheLandsBetween

ChatGPT 横空出世，相信很多朋友都已经试用过了。最初的震惊已经逐渐消退，但整个人类的科技史，无疑正在发生一次真正的革命。在这个所有科技巨头都在训练自己的大模型，而风投和创业者们雨点般跳入风口的当下，我想来讨论一些 ChatGPT 和类似的生成类模型，对创作和教育的影响。

我认为，AI 生成模型带来的一个重要改变，是抹平了审美力和创造力之间的巨大鸿沟。本篇文章将详细讨论，这究竟意味着什么。

1：ChatGPT 抹平了审美和创造之间的鸿沟

ChatGPT（和 New Bing），已经是我日常工作学习中不可或缺的一环。前不久听了一个很有洞察的说法，即真正的科技革命，对于用户的使用习惯来说应该是「不可逆」的。例如智能手机是一个不可逆的发明，一旦用过之后，几乎没有人会真正愿意放弃使用手机。而 VR 头盔则是一个可逆的发明，即便我试用过它几次，有一些有趣的体验，我仍然不会将其当作必需品。

ChatGPT，尤其是基于 GPT-4，可以联网查询信息的 New Bing，已经完全改变了我获取信息和思考问题的方式：我几乎不再使用 Google 搜索了。更有趣的是，在学习 AI 的过程中，我有时候会想到一些学术或商业的问题去请教朋友，但刚发完微信，就意识到这些问题完全可以问 New Bing，然后通常会获得一个不错的回答。现在，这类大模型工具对我来说已经是不可逆的技术了。

诚然，ChatGPT 还有许多让人诟病的问题，其中最严重的当属所谓的幻觉（Hallucination）现象，即它会胡编乱造一段乍看上去非常符合语境的内容。例如你问它某个教授的简介，它可能会瞎编许多这个教授根本没有发表过的论文题目（但却很像那么回事）。这个问题被不少人文学者拿来作为「ChatGPT 不过是在预测下一个词，它并不理解自己到底在说什么」的佐证，which is wrong。ChatGPT 的确在很大程度上理解了语言（但这个关于「理解」的问题留在未来的文章仔细讨论）。

但这个 Hallucination 的确是要命的问题。OpenAI 的首席科学家 Ilya Sutskerver 和 CEO Sam Altman 多次在采访中表示，目前 OpenAI 团队的工作重点，是让 GPT-4 变得可信赖（Reliable)，可操作(Controllable)。如果无法确保大语言模型能输出可靠的，用户真正想要的内容，它在许多关键领域，例如医疗，法律，教育，政策等，就很难发挥关键作用。我自己就被 New Bing 胡编的但又很像那么回事的数学解题步骤和结果迷惑过，结果花了更长时间来验算自己原本就算对的答案。所以还是老话说得好：「知之为知之，不知为不知，是知也」。解决不了这个问题，就称不上真正的智能。

OpenAI 正在全力解决 ChatGPT 「胡说」的问题，Ilya 似乎相信，解决这个问题的关键就藏在 RLHF，即人类反馈的强化学习过程中。对此我们可以拭目以待。但我更想说的是，即便大语言模型，以及其他文生图模型如 DALL·E，Stable Diffusion 仍然不准确，不完全可控，它们现在展现的能力在一类情景中也完全构成颠覆性的影响了。

我是在今年2月份开始使用 ChatGPT 的。那时，我在泰国准备着雅思考试。我立即发现，ChatGPT 是一个很好的雅思作文老师。我可以给它一篇我的作文，让其评分，润色。它的评分有时很离谱，但润色的工作，经过一些调教之后（过了一阵我才知道，这就是所谓的提示词工程（Prompt Engineering）），它却做得非常好。例如，在要求它润色我输入的文章之外，我还要求它「用合适的连接词，让段落过渡更自然；添加更多的例子和细节；使用英语习语；第一段只用两句话…」等等。这些要求，部分来自雅思官方的作文评分标准，部分来自网络和我自己的经验。除了直接润色，我还让它指出我所犯的各种语法错误和用词不当的情况并改正。ChatGPT 表现得极好，立即让我对从在线平台上找外教做100元一篇的作文批改需求不存在了。

我想指出的是，改雅思作文的需求，和法律咨询，或者解决数学问题的需求有一个本质区别：对于雅思作文，我不需要更多的知识，就可以判断文章的好坏（当然这建立在我的阅读水平比写作水平高，但相信这也是多数人的情况）。当 ChatGPT 指出我的用词不当和中式英语，并用非常简练和适当的词句重写我的文章，且不改变我的论点和论据，我可以完全理解它的好，并由衷地叹服。但对于法律问题，或者数学问题，我无法在不了解法律条文，或者具体数学知识的情况下，直接判断它生成的那些似是而非的内容是否可用。也就是说，在写作文的这种情况下，我的判断力大于创造力，而 ChatGPT 帮我抹平了创造力和判断力之间的鸿沟。

仔细想想，这种创造力 > 判断力的情形，非常广泛的存在着。尽管「品味」无疑也是一个人与人之间差异极大的能力，但除非是专业艺术评论，在一定的基准线上，多数人都可以对一首歌是不是好听，一幅画是不是好看，达成一定的共识（哪怕只是某个群体或者阶层里的共识）。

从另一个角度来说，如果某人要装修自己的房子，显然他对于房子要如何装修，怎么布置才好看，是有相当的信心的（毕竟他是甲方）。固然他无法靠自己的能力画出效果图来，却也不会把设计师当成权威，从而忽视自己的审美。

也许在纯艺术的领域情形并非如此，艺术家为自己创作，不存在「甲方-乙方」的关系。但想想看，这个社会大多数从事创意和内容生产的人，其实都是在做着抹平甲方自信的审美和孱弱的创造力之间的鸿沟。这一点，ChatGPT 和最新的文生图模型，做得都相当好。所以或许可以夸张的说一句：「乙方不存在了」。

可以说，用一种合适的方式，让 AI 明白我们的创作意图，成为了一种新的创造力。而这将带来的影响，我想不是「努力学习提示词工程，学会和 AI 沟通」那么简单。接下来我们就讨论这个问题。

2：一种新的创作方式：人人都是甲方（爸爸）

我们先来看看传统的创作过程是怎样的。以我粗浅的理解，我把传统的创作方式，按照「想法成形度」和「创作时间长短」，分为「胸有成竹」，「逐渐成形」和「喷薄而出」，外加电影，游戏工业中高度分工创造的艺术，姑且称之为「团队创作」四类。

在「胸有成竹」的创作方式下，创作者已经在心中提前完成了清晰的构思，而实际的创作只是落实这个构思的过程。这个过程可以理解为从设计图到施工的过程，只不过有时这个「设计图」是存在于创作者心中的。许多熟练的设计师，特定工具性文章的写作者（例如一些商业记者），差不多是以这样的创作方式为主。我们用上技术行业的黑话，称这种创作方式是「端到端（end-to-end）」的，因为它更像是把想法从一种成形的形式翻译为另一种成形的形式的过程。

而在「逐渐成形」的创作方式下，创作者通过和媒介的交互中，不断涂涂抹抹，修剪删改，以捕捉自己内心想要表达的感觉。当然，创作者内心的感觉，也在这个涂涂抹抹的过程中不断变化，不断成形。在更长的时间尺度上，创作者还可能遭遇灵感枯竭的情况，需要中断创作，去旅行，去冥想，去酒吧和人聊天。显然，这是大多数我们熟悉的原创性作品，例如小说，剧本，大部分的绘画的产生方式。这种方式不是「端到端」的，因为我们并不是把一个成形的东西变换成另一个成形的东西。记得王小波说过，他能看出杜拉斯的《情人》，是在完成后又不断调整了不同章节段落的顺序，可以打乱以造成一种自由的阅读体验。这些尝试对于作品至关重要，我们甚至可以说，创作者是在和媒介的交互和对话中，才让作品真正存在出来。

在「喷薄而出」的创作中，创作者往往用很短的时间，就在一种激情状态下完成了作品。据说亨利·米勒写作《北回归线》的时候即是如此，更著名的例子当属杰克·凯鲁亚克写作《在路上》的过程，据说作品是由作者爆发的艺术冲动在一卷30米长的电传打字纸上一气呵成。后来原稿于2001年以二百四十万美元的价格被拍卖。除此之外，许多音乐家在作曲的时候，也会首先在这种状态下即兴完成作品最核心的主题。这种创作状态是许多艺术家追求的，也是可遇不可求的。在这种状态下，创作者当然有一个非常强烈的想法和感受要「生出来」，但和「胸有成竹」的冷静，清晰和可控不同，这种创作状态中那个要出生的想法，恐怕是很难用其他方式先形成蓝图或者草图的，而是要立即变为成品。

而在诸如 3A 游戏和好莱坞电影的「团队创作」中，因为是团队行动，限于人力和沟通的成本，并没有非常多的试错空间，而是有少数人完成的初期的策划和架构，然后自上而下，把这些想法逐渐传递给美术，音乐，开发等具体人士。而由于艺术创作无法被消除的内在不确定性，可以想象要把这种不确定过程变成可控的「工业生产」，会出多少问题。因此，即便是好莱坞电影，「导演」也非常重要，其他人相当于是他实现想法的左膀右臂。在游戏行业，玩家常乐道于日本的制作人负责制，因为这种制度下能出现非常有个人特色的，极致的作品（如小岛秀夫的《死亡搁浅》，宫崎英高的《艾尔登环》）。而即便如此，大型游戏的「跳票」仍然是很常见的事情。但不论如何，对于团队创作来说，最初的构思都必须在一层一层向具体执行者的传递过程中，不断变得清晰。

想法成形度低想法成形度高创作过程短喷涌而出胸有成竹创作过程长逐渐成形团队创作

显然，这种分类会产生不少 edge case，同时属于几类，或者难以被清晰归类。但希望这是一个能用来分析 AI 对创作领域影响的初步框架。

目前看来，生成式 AI 的创作模式，是一种「端到端」的，自上而下的创作。即，它需要创作者用非常明确的语言来提示（告诉）AI，自己想要的内容。虽然提示词也可以是图片或文章的示例，但这种创作方式，显然和一笔一画地构建作品是完全不同的。在创作过程中，创作者没有介入到每一个细部的生成过程中，而是对完成度更高的作品进行挑选。

可以说，在AI 的加持下，人人都成了「甲方爸爸」

显然，对于「想法成形度」高的「胸有成竹」和「团队创作」，AI 的介入是顺理成章的。在这些创作模式下，创作的 Idea 本身就要求且能够被清晰的表达，然后向执行的层面传递。既然担任具体执行的人可以理解，AI 也可以去理解。如果我们关心的是「AI是否能替代艺术家」，那这两个领域的从业者就很危险了。而对于「喷涌而出」和「逐渐成形」的创作方式，表面看上去，则不会受到巨大冲击。

但我更想讨论的是，这种创作模式的改变会带来什么。过去的甲方毕竟不是艺术家，而当艺术家自己成为「甲方」，他应该如何工作？由于现在诸如 Adobe 旗下的各款创作工具还在开发中，我们现在还很难在操作层面讨论，只能做一些猜想和推测。

首先，创作者可能会前所未有地需要一种「反思性」的视角。可以类比中学语文的古诗鉴赏，或者艺术批评家的评论。些许讽刺的是，在过去，创作者和评论家总是充满张力的，许多创作者对评论者会有一种「不屑」的态度。但很可能未来的创作模式，要求创作者变成对 AI 的艺术评论家，通过对 AI 指指点点，来使其生成更好的作品。

而从积极的一面看，和甲方乙方广为人知的冲突和张力不同，现在我们有一个任劳任怨的机器人乙方，可以输出几百个作品版本供挑选。不同于通常「不懂艺术」的甲方，现在艺术家可以自己做甲方，可以用更精确和有意义的语言去和 AI 乙方沟通。

更进一步来看，AI 作为乙方的价值在于，它可以不知疲倦地生成数百个作品，而量变可能会带来产生质变。在过去，甲方其实也受制于乙方的生产力，往往要过早地将自己的想法收敛到有限的几个方案里。而如果 AI 乙方的生产力近乎无限，作为创作者的甲方其实可以探索远比过去多得多的方向。这会为世界带来怎样的作品呢？

3: 未解的问题：判断力是从哪里来的？

前文的探讨集中在创意领域，但大家显然能感觉到，大语言模型的工作方式，无论在回答问题，还是创作小说，都有某种一致性：用户可以用很 high-level 的语言告诉 AI 自己想要什么，而 AI 会去完成那些 low-level 的实操工作。所以我所谓的「AI 抹平了审美和创作之间的鸿沟，让每个人都成为了甲方」，也可以重述为 AI 让每个人都成了老板，有自己的研究生，实习生或者秘书。

那么，判断力，提问的能力，是从哪里来的呢？

已经有很多文章，教育者在呼吁改变，顺便再次嘲讽中国这种强调基础训练，旨在培养任劳任怨乙方的教育模式，尽管我们并不需要等到 AI 的出现才发现中国教育的问题。但 AI 的出现或许反而让这些训练多了一层价值。

为了获得判断力，审美力，或者提问的能力，我们究竟需要多少「打木桩人」式的训练？这种训练可以是美术生花在练习素描上的时间，可以是琴童花在练习曲上的时间，或者所有应试教育下的学生花在解题，推公式上的时间。在互联网职业发展讨论中也常有一个问题，即产品经理需要懂多少技术。

从保守的一面来看，我会担心 AI 创作方式让我们过度忽视「肌肉训练」的价值。我们关于绘画的知识，是在头脑层面吗？还是其实在学习素描的过程中，以身体记忆的方式存在着？要感受到贝多芬的月光奏鸣曲的美，显然不需要你真的会用钢琴演奏。但我想大家也多少都能直觉地认同，倘若能学会弹奏这首曲子，对它的音乐之美的理解是会加强的。

更让人觉得不安的地方在于，我们第二节讨论的「喷涌而出」和「逐渐成形」的创作方式，暗示着艺术的创意在很多时候无法首先用别的方式描述出来，形成策划或者草图。很可能，真正的艺术突破，存在于身体和媒介交互的过程中。而正因为身体感受的无法言喻，艺术被广泛认为具备某种「神秘性」。

在照相机发明并普及之后，本雅明在《迎向灵光消逝的时代》和《机械复制时代的艺术》中，已经揭示了那个时代的艺术境况。照相机可能是最早的「端到端」艺术的代表，艺术家只能在有限的意义是介入到作品的生成过程中。按照本雅明的提法，在 AI 的时代，文字，绘画，音乐…所有领域，都将迎向某种「灵光消逝」。

但从积极的一面来看，其实摄影艺术已经得到了广泛承认，也没有人认真觉得优秀的摄影师应该首先去学习绘画。我觉得，和绘画相比，摄影的确是一种更 high-level 的创作。比起究竟画什么这个问题，摄影更重要的是「在正确的时刻拿起相机」，从而捕捉到生活中更丰富的信息。在 AI 时代，这个问题会变成「在正确的时刻用合适的方式呼叫 AI」。一个例子是，有了 AI 绘画工具，我们可以很容易地将自己的梦转变为一幅画。梦很快就会被忘记，可能等不急画家拿起画笔。

我猜想，未来的艺术家，一方面可能会因为在底层训练的一手经验的缺乏，而逐渐失去在技法层面创新的冲动。另一方面，则会因不同媒介形式创作门槛的降低，而获得将更多的生活位面艺术化的能力。

判断力从哪里来？我暂时的回答是，从生活本身来。毕竟，除非 AI 能替我们生活，否则我们对生活本身永远拥有一手经验，有基本的判断力。

从 AI 发展的态势来看，未来社会不再那么需要专家，或者那种作为人力资源，从原来嵌入的社会生活中脱离，每天被地铁这样的管道系统从居住地输送到工位上的，面目模糊，生活方式雷同的职业白领。那些有不可替代的独特生活经验的人，会相互形成生态系统，并利用 AI 的能力来让自己的生活经验发光。这个图景非常很吸引人。

当然，这不是本文能探讨的内容了，留待下一篇吧。