connect the dots.

用户界面：个人视角（艾伦·凯）

2020 年 2 月 6 日

20世纪60年代末，当艾伦·凯（Alan Kay）还在犹他大学读研究生时，他和伊凡·苏泽兰（Ivan Sutherland）一起学习，这位开拓性的科学家开创了交互式计算机图形学的领域。1968年，他参加了道格拉斯·恩格尔巴特（Douglas Engelbart）关于在线系统（oNLine System）的历史性演讲，该系统将鼠标引入了计算领域，首次提出了“导航”（navigating）信息空间的可能性。20世纪70年代初，在新成立的施乐帕洛阿尔托研究中心（Xerox PARC）成立了学习研究小组之后，凯将这些影响综合到被认为是人机交互最重要的进步——图形用户界面（GUI）中。凯在研究学习和创造的直觉过程的基础上，提出了计算机功能的图标化（iconic）、图形化表示——基于桌面的文件夹、菜单和重叠窗口。

GUI是一种全新的交互式计算方法。自从25年前第一台数字计算机ENIAC诞生以来，计算机界面的基本原理就很少受到关注。当时，计算机几乎完全由科学家编程和操作。凯很早就意识到，设计一个直观、易用的界面需要对人类感知的动态有一个微妙的理解。诺伯特·维纳（Norbert Wiener）的数字计算机概念是模仿大脑的，由复杂的信息传递和概要信息传递网络构成。凯朝这个方向走得更深了。他借鉴了心理学家让·皮亚杰（Jean Piaget）、西摩尔·派普特（Seymour Papert）和杰罗姆·布鲁纳（Jerome Bruner）的理论，他们研究了儿童头脑中存在的学习直觉能力，以及图像和符号在构建复杂概念中的作用。用凯的话说，他逐渐明白了“使用图像创造象征”（doing with images makes symbols）。这是GUI背后的前提，它使计算机用户能够通过操作计算机屏幕上的图标来实时地表达想法。

凯的方法让非专业人士也可以使用电脑。更重要的是，它把电脑变成了大众创造性表达的工具。在这篇文章中，凯描述了他的认识，即计算机不仅是一个计算设备，而且本身也是一种媒介。凯认识到，电脑也许有一天会取代书籍。这促使他为个人电脑建立了一个原型——Dynabook，它能够动态地表现图像和概念。这个笔记本大小的电脑，能够提供前所未有的信息，图像，声音和动画，是一个革命性的开始：不仅摆脱了书本的静态，也摆脱了电视的被动性。虽然Dynabook从未被制造出来，但它带来了第一台真正的多媒体机器——施乐Alto。

当我被要求写这一章时，我的第一反应是“一本关于用户界面设计的书——这是否意味着它现在是一个真正的主题？” 到1989年，答案仍然是“是”和“不是”。自从麦金塔电脑问世以来，用户界面一直是人们热议的话题。

当然，至少从人类发明工具以来，用户界面设计的实践就已经存在了。第一个将手柄安装在手斧上的人，不仅是为了增加杠杆作用，还试图延伸手臂，而不仅仅是拳头。被理查德·道金斯（Richard Dawkins）称为“盲人钟表匠”（Blind Watchmaker）的进化设计师，从事这项工作已经很久了；生活中所有令人吃惊的相互适应都是工作的结果。工业革命的一个最新副产品是欧洲的人体工程学（美国称人因工程学），它研究了人体如何利用感官和四肢来使用工具。从20世纪50年代最早使用交互式计算——主要用于空中交通管制和防御，就有人试图进行用户界面设计和应用人机工程学原理。现代用户界面设计的许多常见组件出现在20世纪50年代和60年代初，包括指向设备、窗口、菜单、图标、手势识别、超媒体、第一台个人电脑等等。JOSS甚至还为终端用户系统设计了一个漂亮的用户界面，但它的重要性只有设计者和用户才能理解。

因此，我认为用户界面设计的真正曙光是在计算机设计师最终注意到这一点的时候出现的，不仅仅是终端用户有正常的思维，更好地理解这些思维是如何工作的将会完全改变交互的模式。

这种观点的巨大变化发生在20世纪60年代末的许多计算机专家身上，尤其是在ARPA研究界。每个人都有自己的催化剂。对我来说，这个催化剂是一台20世纪60年代末由埃德·钱德尔（Ed Cheadle）和我自己设计的早期台式个人电脑——FLEX机器。

基于其他人以前的许多工作，它有一个写字板作为指向设备，一个高分辨率的文本和动画显示，和多窗口，它直接执行高级面向对象的最终用户仿真语言。当然，它有一个“用户界面”，但它排斥终端用户，而不是吸引他们。我最近重新审视了FLEX机器的设计，惊讶地发现它的组件是多么的现代化——甚至使用图标式的结构来访问以前的工作。

然后，从1968年夏天开始，我被一些非常漂亮的作品吸引。第一个只是伊利诺伊大学的一小块玻璃。玻璃上有发光的小点，显示文字。这是第一台平板显示器。我和其他几个研究生想知道什么时候这种平板可以变得足够大和便宜，成为一个有用的显示器。我们还想知道FLEX机器的硅何时能变得足够小，可以安装在显示器的背面。答案似乎要到七十年代末或八十年代初。那时我们都可以拥有一台便宜、功能强大的笔记本电脑——我当时叫它“个人电脑”，但我想的是亲密性。

我读了麦克卢汉的《理解媒介》[1964]，了解到任何通信媒介最重要的一点是，消息接收实际上是消息恢复：任何希望接收嵌入到媒介中的消息的人必须首先将该媒介内在化，这样它才能被“减去”而留下信息。当他说“媒介即信息”时，他的意思是如果你使用它，你必须成为媒介。

这太可怕了。这意味着，尽管人类是塑造工具的动物，正是在工具和人的本性中，学习使用工具重塑了我们。因此，印刷书籍的“信息”是，首先，它对个人的可用性，因此，它与现存社会进程的潜在分离；第二，非标志性的一致性，甚至是冷漠，把读者从生动的现在和奴役的常识思想中分离出来，把他们推进一个更加抽象的领域，在这个领域里，那些不容易被视觉化的想法是可以被处理的。

麦克卢汉认为，印刷机是把解释学的中世纪转变为我们的科学社会的主导力量，这一论断不应被轻视——尤其是因为主要的一点是，印刷机不仅仅是通过让人们更容易获得书籍来做到这一点，它通过改变那些学习阅读的人的思维模式来实现。

尽管麦克卢汉所写的大部分内容晦涩而有争议，对我来说，这是一个至今仍在回响的冲击。电脑是一种媒介！我一直认为它是一种工具，也许是一种运载工具（一个更弱的概念）。麦克卢汉的意思是，如果个人电脑是一种真正的新媒介，那么它的使用将会改变整个文明的思维模式。关于电视的影响，他当然是对的——这充其量是一种弥补部落影响的方式。个人电脑强烈的交互性和参与性似乎是一种反粒子，可以消除电视带来的被动无聊感。但它也承诺超越书本，带来一种新的复兴，从静态表现到动态模拟。如果你在一个活跃的模拟器中长大，不仅与一个观点相连，还连接着各个时代的观点，这样它们就可以被动态地测试和比较，你会成为一个什么样的思考者？

读完麦克卢汉后不久。在一所最早进行LOGO测试的学校中，我拜访了沃利·费尔泽格（Wally Feurzeig）、西摩尔·派普特（Seymour Papert）和辛西娅·索洛蒙（Cynthia Solomon）。我惊讶地看到孩子们编写程序（通常是递归的），生成诗歌，创建运算环境，并将英语翻译成拉丁语。

我被印刷文字和LOGO之间的类比所吸引。在设计FLEX机器的时候，我曾认为最终用户需要能够编程，然后计算机才能真正成为他们的! “阅读”媒介的能力意味着你可以获取他人创造的材料和工具。在媒介中“书写”的能力意味着你可以为他人创造材料和工具。你必须同时具备读写能力。在书面写作中，你产生的工具是修辞的；他们证明和说服。在计算机写作中，生成的工具是过程；他们模拟并决定。

如果电脑只是一种运载工具，也许你可以等到高中才有 “驾驶执照”——但如果它是一种媒介，那么它必须一直延伸到儿童的世界。怎么做？当然，这必须在笔记本大小的Dynabook上完成！但是谁会在Dynabook 上“阅读”，更不用说在上面“书写”了？

LOGO表明，一种考虑到最终用户特征的特殊语言可能比随机语言更成功。派普特是如何知道儿童思维的本质的？来自欧洲认知心理学老前辈让·皮亚杰（Jean Piaget）。他最重要的贡献之一是，他认为儿童在从出生到成熟的过程中会经历几个不同的智力阶段。如果注意这些阶段的性质，就能取得很大的成就，如果忽视这些阶段，就会给孩子带来很大的伤害。皮亚杰注意到了动觉（kinesthetic）阶段、视觉（visual）阶段和象征（symbolic）阶段。

派普特运用皮亚杰思想的方法之一是意识到儿童在11岁或12岁之前还不能很好地掌握“标准”符号数学，但即使是很小的孩子也能做其他类型的数学，甚至是高级数学，如拓扑学和微分几何，当它以一种与他们当前的思维过程很好的匹配的形式呈现时。LOGO海龟及其本地坐标系成为探索微分几何思想的一个非常成功的“微观世界”。

这种方法给我留下了深刻的印象，让我阅读了更多的心理学书籍。大多数（包括皮亚杰的）都不是很有用，但后来我发现了杰罗姆·布鲁纳（Jerome Bruner）的《教学理论探讨》（Towards a Theory of Instruction）[1966]。他重复并验证了皮亚杰的许多结论，并在此过程中提出了一种不同的、更有力的方式来解释皮亚杰的观点。

布鲁纳对这类实验的解释是人类相关设计最重要的基础之一。我们的心智似乎是由许多不同的心智组成，它们有着非常不同的特性。它们的推理方式不同，拥有不同的技能，而且经常发生冲突。布鲁纳认为皮亚杰的每个阶段都有不同的心智：他称其为生成的（enactive），图像的（iconic），象征化（symbolic）。他并没有忽视其他心智的存在，而是专注于这三种心智，提出了一些关于创造丰富学习环境的最强有力的想法。

派普特的工作让我确信，无论用户界面设计是什么，它都与学习紧密地交织在一起。布鲁纳让我相信，学习最好在环境中进行，大致按照阶段顺序进行——最好是先从感性的角度（kinesthetically）来学习，然后再从图像的角度（iconically）来学习，最后，直观的知识就会到位，让那些更强大但不那么生动的象征过程发挥出最大的作用。这些年来，这让我接触到了环境学习的先驱：蒙特梭利教学法、铃木小提琴和添·高威的网球的内在诀窍（Tim Gallwey Inner Game of Tennis），仅举几例。

我想说的是，当我准备好深入观察人的因素时，尤其是在确信问题的核心在于布鲁纳的多元心智模型之后，我发现知识领域正被已经完成的有用工作所包围。我突然想起了麦克卢汉：“我不知道谁发现了水，但不是鱼。”因为在某种程度上，意识有责任尽可能简单地用自己来代表自己，所以我们应该强烈地怀疑自己的常识自我观。很可能正是这个镜中之镜的问题，在这个问题中，我们经常会遇到一个关于我们自身的误导性常识概念，这迫使心理学成为最新的科学之一——如果它确实是这样的话。

现在，如果我们同意人类的认知能力是由行为（doing）心智、图像（image）心智和象征（symbolic）心智构成的证据，那么我们构建的任何用户界面都应该至少符合似乎存在的机制。但是怎么做呢？一种方法是认识到，没有一种单一的心智能对所有的思考和解决问题的方法提供一个完整的答案。用户界面设计应该至少像布鲁纳在螺旋式课程（spiral curriculum）理念中所做的那样整合它们。

皮亚杰-布鲁纳（Piaget-Bruner）分解的一个含义是，心智起源于非常不同的进化时期，除了以最基本的方式，它们几乎不可能相互沟通和协同。事实上，在争夺控制权时，心智之间更有可能相互干扰。哈达玛（Hadamard）对数学和科学的创造力[1945]以及其他对音乐和艺术的研究表明，这些领域的创造力与象征性心智完全没有联系（正如大多数教学理论所假设的那样），但是在创造性领域的重要工作是在最初的两种心智中完成的——大多数是在图像的（或具像的）和相当多的在活动中。添·高威关于“内在诀窍”（inner game）的开创性工作（1974年）表明，如果干扰被消除（与学习无关的心智被分散），注意力被促进（实际上能够进行学习的心智更强烈地集中在环境上），那么可以做什么呢？

最后，在20世纪60年代，大量的研究表明了一种“控制欲”（seized control）的心智状态是多么的现代——尤其是分析解决问题的心智（这种心智与布鲁纳的象征性心智最为一致）。当你考虑到三种心智的主要工作是：

生成的（enactive）——知道你在哪里，操纵

图像的（iconic）——识别、比较、配置、具体

象征化（symbolic）——把长链的推理、抽象联系在一起

视觉系统（visual system）的主要工作是对场景中的一切感兴趣，快速浏览它，就像浏览公告板一样，改变上下文。符号系统（symbolic system）的主要工作是与上下文保持联系，并建立间接的联系。想象一下，如果颠倒过来会是什么样子。

显而易见，具像的系统（figurative system）如此有创意的主要原因之一是，它不会因为不断的想来想去而受阻。找到一个有趣模式的几率非常高。这也不奇怪，许多具有“具像”的人很难完成任何事情——总是会有一些新鲜有趣的事情出现来分散注意力。相反，具有“象征化（symbolic）”的人擅长把事情做好，因为他们长期专注于单一的环境，但是很难有创造力，甚至很难成为一个好的问题解决者，因为他们有被阻碍的极端倾向。换句话说，因为没有一种心智是非常有用的，所以最好的策略是在用户界面设计中尝试温和地强制它们之间的协同作用。

在这一切当中，我创造了表达这一目标的口号：

使用图像创造象征（Doing with Images makes Symbols）

这个口号和布鲁纳一样，也暗示着一个人应该以具体的“使用图像”为出发点，并被带入更抽象的“创造象征”。

所有的材料都已经准备好了。我们已经准备好注意布鲁纳其他领域的理论框架。高威和其他人试图告诉我们。令我惊讶的是，这一切竟然花了这么长的时间。在施乐帕洛阿尔托研究中心（Xerox PARC）为我们提供了将这些想法转化为现实的机会之后，我们的团队花了大约5年的时间，与数百名用户进行了实验，才设计出了第一个符合布鲁纳模型的实用设计，并取得了成功。

使用（Doing）——鼠标——生成的（enactive）——知道你在哪里，操纵

图像（with Images）——图标、窗口——图像的（iconic）——识别、比较、配置、具体

创造象征（makes Symbols）——Smalltalk——象征化（symbolic）——把长链的推理、抽象联系在一起

部分原因可能是该理论在确认一个想法是好的方面比实际产生想法要好得多。事实上，在某些领域，如“图符程序设计”（iconic programming），它实际上阻碍了进展。

一些较小的领域是显而易见的，并立即在框架中找到了自己的位置。可能最直观的想法是多个重叠的窗口。NLS有多个窗格，FLEX有多个窗口，而位图显示我们认为太小了，但它是由单个像素构成的，这很快导致了窗口可能重叠的想法。布鲁纳的对比思想表明，总应该有一种比较的方法。这种图像的（iconic）心智反复无常暗示了这一点，在屏幕上显示尽可能多的资源是鼓励创造力和解决问题并防止堵塞的好方法。使用窗口的一种直观方法是激活鼠标所在的窗口并将其带到“顶部”。这种交互在某种特殊意义上是“无模式”（modeless）的。活动窗口构成了一种模式——一个窗口可以保存绘画工具，另一个窗口可以保存文本——但是你可以到下一个窗口去做一些事情，而不需要任何特殊的终止。这就是“无模式”（modeless）对我的意义——用户总是可以得到下一个想要的东西，而不需要任何退出。窗口良好的“无模式”（modeless）交互与大多数以前系统笨拙的命令语法形成对比，这直接表明一切都应该是“无模式”（modeless）。于是开始了一场“摆脱模式”（get rid of modes）的运动。

Smalltalk的面向对象特性非常具有启发性。例如，面向对象意味着对象知道它可以做什么。在抽象“象征化（symbolic）”领域中，这意味着我们应该先写对象的名字（或者获取它的任何东西），然后在后面加上一条它可以理解的信息，请求它执行某些操作。在具体的用户界面领域，它建议我们首先选择对象。然后，它可以为我们提供一份它愿意做什么的菜单。在这两种情况下，我们都是先有目标，后有欲望。这以一种非常令人满意的方式将具体和抽象统一起来。

实现“无模式”（modeless）最困难的领域是一个非常小的领域，即基本的文本编辑。如何摆脱困扰编辑十年的“插入”和“替换”模式？几个人同时想出了解决办法。我的想法来自于几个刚开始编程的成年人，他们在Smalltalk中构建段落编辑器时遇到了麻烦，我认为这个问题应该很简单。在一个周末的时间里，我构建了一个示例段落编辑器，它的主要简化之处在于允许扩展字符之间的选择，从而消除了插入、替换和删除之间的区别。因此，可以有一个零宽度的选择，因此每个操作都可以替换。“插入”意味着替换零宽度选择。“删除”意味着用一个零宽度的字符串替换所选内容。我在Smalltalk上运行了一个只有一页纸的小程序，然后为胜利而欢呼。拉里·特斯勒（Larry Tesler）认为这个想法很好，并向我展示了这个想法，他已经在他的新Gypsy编辑器中工作了（他是根据彼得·多伊奇[Peter Deutsch]的建议实现的）。当创意在空中飞舞时，创意和发明就到此为止了。

对于这个奔涌而来的勇敢的新世界来说，唯一的障碍是它所有的奇迹都将很难与之沟通，因为，一如既往，用户界面的设计可以让一切变得简单，远远落后。如果交流是我们的口号，那么我们用什么来交流呢？我们与以下进行交流：

我们自己
我们的工具
我们的同事和其他人
我们的代理人

到目前为止，个人电脑主要集中在前两方面。现在，让我们扩展我们所做的每一件事，成为一个伟大协作的一部分——与一个人的自我、一个人的工具、其他人，以及越来越多的与代理人：充当向导、教练和助手的计算机程序。用户界面的设计将是这种新的工作和游戏方式在计算机上成功的关键因素。其中的一个含义是，“网络”将不会被看到，而是“感觉”，从通过自己的硬盘体验的容量和范围的变化…

当然，还有更多的新问题需要探索。我为此谢天谢地。我们如何在这片未知的海域航行？我一直相信，在所有接近未来的方式中，让你去最有趣的地方的工具是浪漫。对人类来说，工具的概念一直是一个浪漫的想法——从刀剑到乐器到个人电脑，说起来容易：“预测未来最好的方法就是发明它！”“如果……该多好啊”的浪漫梦想往往能将这一愿景变成现实。尽管管理复杂过程的概念不如独自挥剑的英雄那样有威望，管理的真正浪漫之处在于创造文明本身。这是一个多么奇怪而有趣的研究领域啊。

编译自：《The Art of Human-Computer Interface Design》书中的一篇"User interface, a personal view" by 艾伦·凯（Alan Kay）

喜欢我的文章吗？
别忘了给点支持与赞赏，让我知道创作的路上有你陪伴。

加载中…

用户界面：个人视角（艾伦·凯）

推荐阅读

我的草稿

Deepin设置键盘布局时看到了一件奇怪的事

三年過去，回顧以 Crowdsourcing 進行界面翻譯工作的利弊

UI UX如何幫助你的網店生意？網購時代必學3招增客術

艾伦·凯：预测未来（Predicting The Future）