ChatGPT实际上在做什么？

当我第一次见到ChatGPT时，我确信它是魔法。

最后，我们拥有了一个工具，您可以问任何问题，它会用一种真实的方式给出令人信服的答案。与将我们指向文档并使我们费劲寻找答案的搜索引擎不同，这里是一个愿意用相对简单、易于理解的语言给我们提供一个答案的工具。

用户很快意识到这个工具不仅可以用于回答问题，还可以用于语言生成。突然间，一大批人开始使用ChatGPT和其他LLM来创作故事并向世界传播。尽管在某些领域存在争议，但不可否认的是，ChatGPT的工作方式已经导致人类在互联网上处理信息的方式发生了巨大变化。

虽然它们可能看起来像是神奇的，甚至有时候显得很智能，但实际上LLM（大型语言模型）是相对简单的！秘密就藏在它们如何训练和保存信息以及如何利用信息来生成答案的方式中。让我们来看一看。

要了解LLM的工作原理，我们首先需要了解它们实际上是如何工作的。归根结底，LLM只是一个概率机器。给定一系列单词，它们试图预测句子中的下一个单词。然后再重复。

让我们来看一个例子。

假设我们希望我们的LLM完成以下句子：

迈克尔·乔丹是____。

你要怎样完成它？你会选择哪些专门的词汇？

我知道一些我个人会选择使用的话语。 “最伟大的”，“传奇”，和“篮球运动员”都很有可能被选中。但是我们如何决定这些词是正确的呢？这都基于我们在阅读有关迈克尔·乔丹的文章时遇到这些术语的频率。

LLMs工作方式基本相同。当他们完成类似于上述的句子时，他们并不真正思考其中的词语含义。相反，他们是在查看到目前为止见过的词语，并根据句子与它们所见到的其他句子的相似程度来决定接下来最有可能出现的词语是什么。

对于上面的例子，我们可以看到训练集是如何影响预测词的。让我们假设我们在类似维基百科条目的内容上训练了模型。

根据该示例，看起来我们可能要么制作“一个美国商人”，或者“一个前职业篮球运动员”。

如果我们只在Reddit帖子上进行训练，讨论谁更擅长篮球，迈克尔·乔丹还是勒布朗·詹姆斯，我们很可能会看到更多的实例声称他是“篮球之神”。

这一切都很好，如果例子非常普遍。但是，当涉及较不常见的句子或更常见的名字时，它是如何工作的呢？这就是事情开始变得有趣的地方。如果我们用“约翰·多伊是...”来替换上面的例子，我们的LLM很可能会感到困惑。

约翰·杜是那些不了解的人，是在许多样本表格上用作占位符的极其常见的填充名称。在这种情况下，约翰杜不是一个人，也不太可能有一个清晰的答案。

相反，我们的训练数据可能会包含许多句子，如“约翰·杜是一位科学家”，“约翰·杜是一个农民”，“约翰·杜是一个银行家”等。

在这种情况下，我们的LLM将猜测每个单词出现的概率并选择最可能的。如果我们有20个样本句子如上所述，并且每个句子都出现1次，我们的LLM可能大约每次选择每个答案的概率为5%。

严格来讲，这些选项都没有更正确或更错误的。毕竟，20个“John Doe”中就有1个可能拥有这份工作！但是，因为每个句子的可能性都是相同的，我们的LLM必须选择一个作为答案。

所以这就是LLM的全部操作！其实它所做的就是查看所有已经见过的训练数据，并将输入的模式与已经见过的文本进行比较，然后选择最有可能的下一个结果。

准备好在技术面试中脱颖而出吗？拥有在亚马逊，DoorDash，Bird和Brex等顶级公司进行面试超过十年的经验，以及自己在Meta和Google通过面试的经历，我提供个性化辅导来帮助您成功。让我们将您的职业抱负变成成就 — 加入我的通讯！

用简单的英语 🚀

感谢您成为普通话社区的一员！在您离开之前：