专业的区块链科技衍生博客

OpenAI 模型对峙：GPT-4 与 GPT-3

2023 年 3 月 29 日

新版 GPT 模型 GPT-4 的发布引起了对已经著名的 OpenAI 语言模型的额外关注。难怪！

GPT-4 是 OpenAI 最先进的系统，由于其更广泛的常识和解决问题的能力，它可以更准确地解决复杂问题。

在本文中，我比较了GPT-3与 GPT-4 以及介于两组模型之间的 GPT-3.5。

准备好？

什么是 OpenAI GPT-3？

GPT-3 是 OpenAI 开发的一种语言模型。它于 2020 年 6 月发布，并以其卓越的语言生成能力迅速获得关注。

GPT-3 有多个基本模型，具有不同数量的参数和所需的计算资源。最受认可的是艾达、巴贝奇、居里和达芬奇。

2022 年 3 月 15 日，OpenAI 发布了名为“text-davinci-003”的新版 GPT-3。该模型被描述为比以前版本的 GPT 更强大。此外，它接受了截至 2021 年 6 月的数据训练，使其比以前版本的模型（接受截至 2019 年 10 月的数据训练）更新。八个月后，即 2022 年 11 月，OpenAI 开始将此模型称为“GPT-3.5”系列。但是让我们跳过时间线。

什么是 GPT-3.5？

至于今天，我们有 5 个属于 GPT-3.5 系列的不同模型变体。其中四个针对文本完成任务进行了优化，一个针对代码完成任务进行了优化。

最新版本的 GPT-3.5 模型gpt-3.5-turbo于 2023 年 3 月 1 日发布——它立即引起了人们对 GPT-3.5 的兴趣激增。只是为了在 GPT-4 发布之前让观众热身。

什么是 OpenAI GPT-4？

GPT-4 是最新且最先进的 OpenAI 语言模型版本。它于 2023 年 3 月 14 日推出，据说是深度学习发展的新里程碑。

据说 GPT-4 能够生成比 GPT-3 和 GPT-3.5 更符合事实的准确陈述，确保更高的可靠性和可信度。它也是多模式的，这意味着它可以接受图像作为输入并生成说明、分类和分析。

最后但同样重要的是，它获得了一些创造力。正如我们在官方产品更新中所读到的那样，“它可以生成、编辑并与用户一起迭代创意和技术写作任务，例如创作歌曲、编写剧本或学习用户的写作风格。”

OpenAI GPT-4 的创意示例：GPT-4 在句子中解释灰姑娘的情节，其中每个单词都以字母表中从 A 到 Z 的下一个字母开头。来源：OpenAI

目前，在 2023 年 3 月，GPT-4 有两种型号：

gpt-4-8K
gpt-4-32K

它们的上下文窗口大小不同。尽管 GPT-4 已经投入商业使用，但大多数用户仍需要等待一段时间才能访问 GPT-4 API 并构建自己的 GPT-4 支持的应用程序和服务。

值得等待吗？让我们来看看！

GPT-4 与 GPT-3 和 GPT-3.5——主要区别

当被问及将 GPT-4 与 GPT-3 进行比较时，OpenAI 的联合创始人之一兼总裁 Greg Brockman 说了一个词：不同。正如他告诉 Techcrunch 的那样：

[模型] 仍然存在很多问题和错误……但你可以真正看到微积分或法律等技能的飞跃，它从在某些领域非常糟糕到相对于人类来说实际上非常好。

让我们进一步详细说明这一点。特别是因为OpenAI发布的 GPT-4 研究揭示了关于新模型的许多细节。

GPT-4 与 GPT-3 模型的功能

GPT-3 和 GPT-4 之间最大的区别之一是它们的功能。据说 GPT-4 比 GPT-3.5 更可靠、更有创意、更具协作性，并且能够处理更细微的指令。

为了了解这两种模型之间的区别，OpenAI 开发人员在不同的基准测试中对它们进行了测试，包括模拟最初为人类设计的考试。

我们通过使用最新的公开测试（在奥林匹克竞赛和 AP 自由回答问题的情况下）或购买 2022-2023 年版本的模拟考试来继续进行。我们没有针对这些考试进行专门培训。模型在训练期间看到了考试中的一小部分问题，但我们认为结果具有代表性。

（来源：OpenAI）

结果令人震惊！

虽然 GPT-3 在 AP 微积分 BC 考试中仅获得 1 分（满分 5 分），但 GPT-4 获得了 4 分。在模拟律师考试中，GPT-4 以大约前 10% 的考生分数通过，而 GPT-3.5 – GPT-3 系列的最先进版本——处于底部 10%。

此外，GPT-4 是……真正的多语言。GPT 的英语水平在 GPT-3 和 GPT-3.5 版本中已经很高（射击准确率为 70.1%），而在最新版本中其准确率提高到 85% 以上。事实上，它比它的祖先说的英语还好 25 种语言——包括普通话、波兰语和斯瓦希里语。考虑到大多数现有的 ML 基准测试都是用英语编写的，这真是令人印象深刻。

如果这还不够，GPT-4 可以在单个请求中处理更长的文本——这都要归功于更高的上下文长度。

GPT-3 与 GPT-4 中的代币限制

上下文长度是一个参数，用于描述在单个 API 请求中可以使用多少个令牌。2020 年发布的原始 GPT-3 模型将最大请求值设置为 2,049 个令牌。在 GPT-3.5 中，此限制增加到 4,096 个标记（约 3 页单行英文文本）。GPT-4 有两种变体。其中一个 (GPT-4-8K) 的上下文长度为 8,192 个令牌，第二个 (GPT-4-32K) 可以处理多达 32,768 个令牌，大约 50 页文本。

话虽如此，我们可以考虑 GPT-4 的所有新用例。凭借其处理 50 页文本的能力，将有可能使用新的 OpenAI 模型来创建更长的文本、分析和总结更大的文档或报告，或者在不丢失上下文的情况下处理对话。正如 Greg Brockman 在接受Techcrunch采访时所说：

以前，该模型不知道您是谁、您对什么感兴趣等等。拥有那种历史 [具有更大的上下文窗口] 肯定会使它更有能力……它会增强人们的能力。

但这还没有结束，因为除了处理文本输入外，GPT-4 还可以解释其他输入类型。

GPT-4 和 GPT-3 中的输入类型

虽然 GPT-3 和 GPT-3.5 模型仅限于一种类型的输入（文本；准确地说是代码），但 GPT-4 接受额外的输入类型：图像。具体来说，它根据由文本和图像组成的输入生成文本输出。

根据您要求 GPT-4 模型执行的操作，它可以生成说明文字、对可见元素进行分类或分析图像。在 GPT-4 研究文档中提供的示例中，我们可以看到模型分析图表、解释模因，甚至总结由文本和图像组成的论文。我们必须承认，GPT-4 的图像理解能力令人印象深刻。

看看吧！

处理图像的能力与更高的令牌限制相结合，为使用 GPT-4 开辟了新的可能性——从学术研究到个人培训或购物助理。不过不要太兴奋，因为可能需要一些时间才能使用 GPT-4 的这项新技能。

正如我们在 OpenAI 网站上看到的那样，图像输入仍然是研究预览，并不公开。

定义 GPT-4 与 GPT-3 对话的上下文

GPT-3 和 GPT-4 之间的另一个巨大区别是我们如何确定模型的基调、风格和行为。

在最新版本的 GPT 中，可以通过包含所谓的“系统”消息（在 OpenAI 的使用政策中详细描述的范围内）为模型提供 API 级别的指令。这些说明设定了消息的基调，并描述了模型应该如何表现（例如，“你从不给学生答案，但总是试着问正确的问题，以帮助他们学会自己思考”）。

此外，它们还为 GPT-4 的交互建立了边界，能够充当“护栏”以防止 GPT-4 根据用户请求更改其行为——就像以下示例所示：

正如您所看到的，尽管有用户的请求，GPT-4 仍然在其角色范围内——在系统消息中定义。

在某种程度上，我们已经可以在最近发布的 GPT-3.5-Turbo中体验到类似模型的能力。通过在系统提示中定义模型的角色，我们可以获得不同的响应。根据 GPT 模型假装的身份，查看消息有何不同：

直到 2023 年 3 月，GPT-3.5-Turbo 发布时，无法为模型提供系统消息。上下文信息需要在提示中给出，并且可以在整个对话过程中轻松更改。

新的 GPT-4 的能力使其行为更加一致，并且更能适应外部规范（例如，您的品牌传播指南）。

使用 GPT-4 与 GPT-3 的成本

当然，这一切都是有代价的。虽然 GPT-3 模型的成本从每 1K 代币 0.0004 美元到 0.02 美元不等，而最新的 GPT-3.5-Turbo 比最强大的 GPT davinci 模型便宜 10 倍（每 1K 代币 0.002 美元），但使用 GPT-4 的成本没有幻想：如果你想使用最先进的模型，你需要额外付费。

具有 8K 上下文窗口的 GPT-4 每 1K 提示令牌的成本为 0.03 美元，每 1K 完成令牌的成本为 0.06 美元。另一方面，具有 32K 上下文窗口的 GPT-4 每 1K 提示令牌的成本为 0.06 美元，每 1K 完成令牌的成本为 0.12 美元。

如果使用 GPT-4 处理平均长度为 1500 个提示令牌和 500 个完成令牌的 100k 请求花费 4,000 美元， text-davinci-003使用 GPT-4 花费400 美元gpt-3.5-turbo，那么使用 8K 上下文窗口将花费 7,500 美元，使用 32K 上下文窗口将花费 15,000 美元。

不仅价格昂贵，而且计算起来也比较复杂。这是因为提示（输入）令牌的成本不同于完成（输出）令牌的成本。如果您还记得我们的GPT-3 定价实验，您已经知道估计代币使用量很困难，因为输入和输出长度之间的相关性非常低。由于输出（完成）令牌的成本更高，使用 GPT-4 模型的成本将更不可预测。

OpenAI 模型的微调

还记得我们如何在 GPT-4 和 GPT-3.5-Turbo 的系统消息中定义上下文吗？微调基本上是一种变通方法，用于定义模型的基调、风格和行为，并针对特定应用程序自定义 GPT 模型。

要微调模型，您可以在比提示适合的更多示例上对其进行训练。对模型进行微调后，您无需在提示中提供示例。这样可以节省成本（每 1K 个令牌都很重要！）并支持更低延迟的请求。听起来不错，不是吗？遗憾的是，目前唯一可以微调的 OpenAI 模型是原始的 GPT-3 基础模型（davinci、curie、ada 和 cabbage）。

错误和限制

当关于 GPT-4 的不同传言出现时（例如，关于它使用的参数数量的传言），OpenAI 的首席执行官评论说：

GPT-4 谣言工厂是一件荒谬的事情。我不知道这一切是从哪里来的。人们乞求失望，他们将会失望。(…) 我们没有真正的 AGI，而这正是对我们的期望。

虽然很难说 GPT-4 令人失望，但考虑到它的创造力和惊人的能力，了解它的局限性很重要。正如我们在产品研究文档中所读到的那样：与模型的先前版本相比，它们并没有太大变化。

就像它的前辈一样，GPT-4 缺乏对 2021 年 9 月之后发生的事件的了解。此外，无论 ChatGPT 看起来多么聪明，它仍然不完全可靠——即使在使用 GPT-4 的情况下也是如此。尽管它声称相对于以前的模型可以显着减少幻觉（在其内部评估中得分比 GPT-3.5 高 40%），但它仍然会“幻觉”事实并出现推理错误。它仍然会产生有害的建议（尽管它更有可能拒绝回答）、错误代码或不准确的信息，因此，它不应该用于错误成本高的区域。

GPT-3 与 GPT-4——要点

作为 OpenAI 最先进的系统，GPT-4 几乎在所有比较领域都超越了旧版本的模型。它比 GPT-3 更具创造性和连贯性。它可以处理更长的文本甚至图像。它更准确，也不太可能编造“事实”。由于其功能，它为生成式 AI创造了许多新的可能用例。

这是否意味着 GPT-4 将取代 GPT-3 和 GPT-3.5？可能不会。尽管 GPT 比以前版本的 OpenAI 模型更强大，但使用起来也更昂贵。在许多不需要模型来处理多页文档或“记住”长对话的用例中，GPT-3 和 GPT-3.5 的功能就足够了。

-END-

我的文章不為圖利設限，全部開放閱讀。如你喜歡本文，請收藏它的 Writing NFT，支持寫作，保育新聞。

喜欢我的文章吗？
别忘了给点支持与赞赏，让我知道创作的路上有你陪伴。

加载中…