主页 / 博客 / 引擎揭秘：ChatGPT 如何实际工作（无术语，仅事实）

引擎揭秘：ChatGPT 如何实际工作（无术语，仅事实）

Q: ChatGPT 出错的地方

以下是保障更安全结果的快速清单：

Isometric diagram of ChatGPT workflow—prompt tokens pass through transformer layers and tool calls to output an answer.

作者

达里娅·奥利斯科

发表于

12 8 月 2025

阅读时间

3 - 5 分钟阅读

如果你曾使用AI编写过电子邮件、翻译信息或总结报告，那么你已经遇到过ChatGPT。本指南用简单易懂的英语解释了它的工作原理。没有魔法，没有炒作。只是机制：模型如何训练，如何将你的文字变成答案，为什么有时会出错，以及如何获得更好的结果。在这篇文章中，我们将展示你今天可以尝试的实用例子，以及让你避免麻烦的简单规则。每当我们使用ChatGPT这个词时，请假设我们指的是现代基于转换器的语言模型家族，它们为您在应用程序或通过API使用的产品提供动力。

是什么让 ChatGPT 运作

把系统想象成一个巨大的模式识别器。它读取你的提示，把它分解成称为标记的小块，并预测下一个应该是什么。它一次又一次地做到这一点，一步一步，直到形成一个完整的响应。在幕后，一个具有数十亿参数的深度神经网络权衡所有可能性，并选择一个可能的序列。在这里，“智能”仅仅意味着：从训练中学到的极快模式预测。当人们说ChatGPT“理解”你时，他们的意思是它学习到的模式与您的文字足够一致以产生有用的文本。因为同样的机制也适用于代码、表格和markdown，所以你可以要求ChatGPT编写SQL、清理CSV文件或绘制JSON架构，这就像它写诗或计划一样容易。

浅显易懂的总结

在我们深入细节之前，以下是简要说明。现代AI模型在大量文本和其他数据上进行训练。在预训练期间，模型学习预测序列中的下一个标记。在微调过程中，它被调整得更有帮助、更诚实和更安全。在运行时，你的提示通过标记器流程，流经转换器网络，并作为标记输出回到单词。其他一切——工具、图像、语音和浏览——都叠加在这个基础循环之上。如果你只记住一件事，那就是：整个堆栈是一个快速的循环，预测一个标记，然后预测下一个。

训练101：数据、标记和模式

数据来源。 模型从由许可数据、人类训练师创建的数据和公开可用的内容中学习。目标不是记住页面，而是学习跨越多种风格和领域的统计模式。

标记。 计算机不会像我们一样“看到”单词。它们使用标记——短字符串。“Apple”“apples”和“applet” 映射到重叠的标记模式。模型预测标记，而不是字母或完整的单词。这就是为什么有时会产生奇怪的短语：数学作用于标记。

规模。 训练使用专门硬件上的大批量数据。更多的数据和计算让模型捕捉更广泛的模式（语法、事实、写作风格、代码结构）。但仅靠规模不能保证质量；数据如何策划和训练的形状与原始大小同样重要。

泛化。 关键结果是泛化。模型从数百万个例子中学习，然后将这些模式应用到全新的提示中。除非你将一个私人数据库连接到模型中，否则它不能“查找”私人数据库；除非在当前会话或通过集成工具提供，否则它没有用户的个人记忆。

安全。 内容过滤器和安全政策围绕模型分层，以便有害的提示被拒绝，敏感话题被小心处理。

转换器，简单解释

转换器是核心架构。早期的网络从左到右读取文本。转换器并行读取所有内容并使用 自注意 来衡量标记如何相互关联。如果一个句子末尾的单词依赖于句子开头的单词，注意力可以帮助模型跟踪这种远距离链接。堆叠的注意力层和前馈块构建了更丰富的表示，使得模型能够流利地处理长提示、代码和混合样式。因为模型同时查看整个序列，所以它可以从提示中相隔很远的部分连接线索，这就是为什么更长的上下文窗口非常有用。在堆栈的末尾，模型为每个可能的下一个标记输出一个分数。softmax函数将这些分数转换为概率。解码器然后使用你的设置采样一个标记。

从预训练到微调

预训练。 基础模型学习的一项技能是预测下一个标记。给定“巴黎是...的首都”，最好的下一个标记通常是“法国”。这并不意味着模型像人一样“知道”地理，它是学到的与现实相符的强统计模式。

监督微调。 训练人员向模型提供高质量答案的示例提示。这教导了语气、格式和任务执行（写电子邮件、起草计划、代码转换）。

基于人类反馈的强化学习（RLHF）。 人们比较相同提示的多个模型答案。奖励模型学习哪个答案更好。然后对基础模型进行优化，以产生人类偏好的答案——礼貌、主题明确且风险较小。还添加了安全规则以减少有害输出。

工具使用。 在语言骨干的基础上，一些版本可以调用工具：网页搜索、代码解析器、图像分析器或自定义API。模型决定（基于你的提示和系统设置）何时调用工具，阅读结果，然后继续响应。将工具视为额外的感官和手，不是大脑本身的一部分。

推理和多步工作

大模型擅长表层答案。困难问题需要深思熟虑的步骤。通过精心提示，模型可以进行规划：列出任务、按顺序解决部分问题，并检查结果。这被称为 结构化推理。它用可靠性交换速度，这就是为什么复杂任务可能运行较慢或使用更多计算资源。最好的提示让步骤明确：“列出假设，计算数字，然后解释选择。”另一种方法是给出示例（“少量提示”），在你要求自己的解决方案之前展示给模型一个好解决方案的样子。在正确的约束下，模型可以将要求转换为检查清单，将模糊请求转换为可测试的步骤，并用简单的语言解释权衡。

多模态输入

许多现代系统可以处理图像、音频，有时还有视频。核心理念是相同的：一切都转换为标记（或嵌入），经过转换器处理，并转换回单词、标签或数字。这就是模型如何描述图像、读取图表或撰写替代文字的方式。语音模式在输入时加入语音转文本，在输出时加入文本转语音。即使在处理图片或声音时，最终的输出仍然由语言模型通过预测下一个标记产生。因为界面一致，你可以要求ChatGPT叙述一个图表，概述你的幻灯片内容，然后在不更改工具的情况下撰写演讲者笔记。

限制和失效模式

幻觉。 模型有时会说出听起来正确但其实不正确的东西。它并不是在撒谎；它是在预测可能的文本。通过要求引用来源、用计算器检查或调用工具来降低风险。

陈旧。 模型的内置知识有截止日期。如果启用了浏览或连通的数据功能，它可以访问；否则，它不会知道上周的新闻。

模糊性。 如果你的提示含糊不清，你会得到一个含糊的答案。提供上下文、约束和示例。说明目标、受众、格式和限制。

数学和单位。 原始模型可能在算术或单位转换上出错。要求逐步计算或启用计算器工具。

偏见。 训练数据反映了世界，包括其偏见。安全系统旨在减少伤害，但它们并不完美。在高风险领域（医学、法律、金融），将输出视为需要合格人员审核的草稿。

ChatGPT 出错的地方

以下是保障更安全结果的快速清单：

当事实重要时，要求提供来源。
对于计算，要求步骤和最终数字。
对于政策或法律，要求确切的段落并承诺验证。
对于编码，请运行单元测试和代码规范检查。
对于创意工作，提供风格指南和示例。
使用连通工具时，确认工具返回的内容再进行操作。
保持提示简短、具体、可测试。

提示手册（青少年友好版）

设置角色和目标。 “你是一名人力资源协调员。撰写一份200字的换班政策。”
提供上下文。 “我们的团队全天候工作。加班必须预先批准。使用项目符号。”
列出约束。 “避免法律建议。使用中立语气。包含简短的免责声明。”
请求结构。 “给出一个H2标题、项目符号和一个结尾提示。”
要求检查。 “列出缺失信息和有风险的假设在最后。”
反复修改。 粘贴反馈并要求修订，而不是从头开始。
使用示例。 展示一个好的答案和一个不好的答案，从而让模型学习你的品味。
停止范围蔓延。 如果回复偏离主题，请回复“仅关注X”，它将重新校准。
请求替代方案。 两到三个版本可以帮助你选择最佳的行或布局。
保留一个库。 保存你最好的提示，并将它们重新用作模板。

改变输出的设置

温度。 较高的值增加多样性；较低的值保持较为安全、可预测的措辞。对于大多数商业文本，保持低到中等。
Top-p（核采样）。 限制选择到最可能的标记，直到它们的总概率达到阈值。
最大标记数。 限制答案的长度。如果输出中止在中途，请提高此限制。
系统提示。 一段简短的隐藏指令，定义助手的角色。好的系统提示在用户输入之前设置边界和风格。
停止序列。 告知模型何时停止生成的字符串——当您只想要标记之前的部分时很有用。
种子。 当可用时，固定种子编号使结果更具可重复性以进行测试。

示例：从提示到答案

你输入一个提示。例如：“写出三个子弹点，解释时间钟的作用。”
文本被标记化。
转换器读取所有标记，使用注意力权衡关系，并预测下一个标记。
解码器根据您的设置采样一个标记。
步骤3–4重复，直到遇到停止符号或长度限制。
标记转换回文本。你看到答案。

如果允许使用工具，模型可能会在中间插入一个工具调用（例如，一个计算器）。工具返回一个结果，模型将其视为更多标记，然后继续回答。如果启用了检索，系统可以从文档中提取段落，将它们作为额外的上下文提供给模型，并要求其使用该上下文回答问题。这种方法通常被称为检索增强生成（RAG）。

RAG：带上你自己的知识

RAG将您的内容与模型连接，而无需重新训练。步骤很简单：

将文档分块为小段落。
为每个段落创建嵌入（向量），并将其存储在数据库中。
当用户提问时，嵌入问题并获取最相似的段落。
将那些段落和问题一起提供给模型作为额外的上下文。
要求提供引用段落的答案。

这可以使答案牢固基于您的数据。如果您在工作中使用RAG，请添加质量检查：过滤最新的日期、去重几乎相同的块，并显示来源以便审阅者进行验证。这也减少了ChatGPT发明细节的可能性，因为它被要求坚持提供的上下文。

微调：教会一种风格

微调使基础模型偏好你的语气和格式。你收集提示和你想要的输出配对。保持数据集小、干净和一致。十个好的例子胜过一千个杂乱的例子。当你每次都需要相同的结构时使用它（例如，合规信函或表单填充）。微调本身并不会给模型私人知识；当事实必须精确时，与RAG或API配对使用。当你评估微调模型时，将其与强提示基线相比，以确保额外的成本是值得的。

神话与事实

神话： 模型每次都浏览网络。 事实： 除非启用了浏览工具并被调用，否则不会。
神话： 它存储你输入的所有信息。 事实： 保留取决于产品设置和政策；许多商业计划将训练与使用分开。
神话： 更多的参数总是意味着更聪明的表现。 事实： 数据质量、训练方法和对齐通常更为重要。
神话： 它可以取代专家。 事实： 它加快了草稿和检查，但做出决定仍然需要专家审阅。
神话： 聊天输出是随机的。 事实： 它们是概率性的，有控制（温度、top-p、种子）可以调整。

企业检查表

定义批准的使用案例和风险级别。
设置红线（无医疗建议、无法律裁决、无PII提示中）。
提供标准提示和风格指南。
将高风险任务通过工具验证事实或计算。
监控结果并收集反馈。
培训团队关于隐私、偏见和引证规则。
让人类对最终决策负责。

成本和性能基础

语言模型按标记收费，而不是单词。一个典型的英语单词约为1.3个标记。长提示和长答案成本更高。流式回复看起来更快，因为标记在解码时显示。缓存可以在重用类似提示时降低成本。批处理和结构化提示减少重试。对于大量使用，绘制每个工作流：预期长度、所需工具和可接受的延迟。如果你依赖ChatGPT为客户提供内容，请建立后备方案，以便在速率限制触发时系统能优雅地降级。

衡量价值

不要追求演示。追踪结果。好的基准指标：

每项任务节省的分钟数（写作、总结、格式化）。
之前和之后的错误率（遗漏的步骤、错误的数字、损坏的链接）。
吞吐量（处理的票据、生成的草稿、生成的测试）。
用户和审阅者的满意度得分。
审核后的返工百分比。

运行A/B测试，有和没有AI辅助。保持版本、提示和设置一致，同时测量。如果ChatGPT用于初稿，请测量审阅时间和达到可发布质量所需的编辑次数。

它在运营中的帮助

支持。 分诊消息、草拟回复并建议知识库链接。在语气和特殊情况方面保持人为参与。
HR. 将政策转化为清单，将规则转化为入职步骤，并草拟公告。
排班。 生成模板，解释覆盖规则，并用简单语言组织班次请求。
财务。 将购买记录转化为分类条目；草拟差异总结，并包含清晰的原因和后续行动。
工程。 编写测试、描述 API 并查看日志模式。在所有这些情况下，ChatGPT 像一个快速助手，将杂乱无章的输入转换为您可以审核的清晰输出。

Shifton 示例流程

将杂乱的班次请求线程转化为一个包含姓名、日期和原因的结构化表格。
将原始的时间记录导出转化为包含加班标记和审批备注的摘要。
起草发送给团队的关于调度变更的消息，然后为各地区团队翻译。
请求经理用于审核出勤异常的检查清单。
为新的排班规则生成测试用例——周末上限、加班触发和交接时间。

这些流程之所以有效，是因为模型善于重新格式化、总结和遵循简单规则。当您请求 ChatGPT 帮忙时，请明确目标格式、受众和限制。

故障排除指南

太笼统？ 添加示例并禁止使用流行语。请求数字、步骤或代码。
太长？ 设定严格限制，然后在需要时请求扩展版本。
错过重点？ 用一句话重新描述任务并列出成功的标准。
事实错误？ 要求引用资料，或在提示中输入正确数据。
敏感话题？ 请求中立总结，并加入您自己的判断。
卡住了？ 请求模型写第一段和一个要点大纲，然后自行继续。
监管内容？ 保持人为审核者参与，并记录最终决定。

简单术语的治理

写一页政策。涵盖：允许的使用案例、禁用主题、数据处理、人为审查以及问询的联系人。为新用例添加轻量的审批表。保留日志。每季度重新审核政策。向全公司解释规则，以免有人无意中触犯规则。明确谁拥有在您组织中使用 ChatGPT 创建的提示和输出的所有权。

开发者笔记（适合非开发者）

API 公开的是您聊天时使用的核心模型。您发送一系列消息和设置；您会得到返回的标记。默认情况下，护栏不在您的代码中生效——请在 API 调用时添加验证器、检查器和单元测试。在版本控制中存储小而清晰的提示。监控生产中的延迟和标记数量。如果您的产品依赖于 API，请跟踪 API 版本更改，以免您的提示默默失效。

底线

这些系统是快速的模式引擎。提供明确的输入，要求可验证的输出，并让人负责决策。用得好，它们消除繁琐的工作并呈现您可能错过的选项。用得不好，它们创造自信的噪音。区别在于过程，而不是魔法。将 ChatGPT 视为一名熟练的助手：擅长起草、转换和解释；而不是判断或责任的替代品。

更深入地了解标记和概率

这是一个小而简化的示例。假设您的提示是“天空是”。模型查看训练模式，并为许多可能的下一个标记分配概率。它可能给“蓝色”赋予 0.60 的概率，“晴朗”赋予 0.08，“明亮”赋予 0.05，以及几十个其他小的概率。然后解码器根据您的设置选择一个标记。如果温度较低，它几乎总是会选择“蓝色”。如果温度较高，您可能会看到“晴朗”或“明亮”。选择后，短语变成“天空是蓝色”，过程重复进行。正因为此，两次运行可以生成不同的有效措辞。ChatGPT 是从分布中抽样，而不是重复单个记忆的句子。

标记化也解释了为什么长名称有时会被奇怪地打断。系统处理的是字符块，而不是完整的单词。当您粘贴长列表或代码时，ChatGPT 能很好地处理，因为逗号、括号和换行符的标记模式在训练数据中极为常见。

上下文窗口和记忆

模型一次只能查看一定数量的标记，称为上下文窗口。您的提示、内部推理步骤、工具调用和答案都共享此窗口。如果对话时间过长，较早的部分可能会被遗忘。为防止这种情况，概括或重述关键点。对于文件，将它们拆分为部分，仅提供相关部分。有些工具增加了检索功能，以便在需要时可以重新提取重要段落。若要 ChatGPT 记住跨会话的偏好，那需要显式功能；默认情况下，除非您的计划启用，否则它不会在当前聊天之外记住。

您可以借鉴的提示模板

以下是简短、可重复使用的模式。粘贴，然后自定义括号。

分析师： “您是一名清晰、细致的分析师。根据下表计算 [KPI]。展示公式和数字。列出任何缺失的输入。不超过 150 字。” 使用小的 CSV 片段运行，ChatGPT 将把它们转化为整齐的摘要。

招聘人员： “为招聘经理撰写 120 字的候选人更新。职位：[职位]。阶段：[阶段]。优势：[列表]。风险：[列表]。下一步：[列表]。保持中立。” 这让 ChatGPT 专注于结构并保持专业语气。

工程师： “给定错误日志，提出三个根本原因假设。然后为每个假设提出单个测试。输出一个表格，包含列：假设、测试、信号、风险。” 由于格式明确，ChatGPT 返回一些您可以采取行动的内容。

经理： “为 [政策] 起草一页的推出计划。包括目的、范围、步骤、负责人、日期、风险和员工信息。” 添加您的约束，ChatGPT 将概述一个您可以剪裁并最终确定的计划。

市场营销人员： “将这些要点转换为 90 秒的产品演示脚本。两个场景。明确的利益。无流行语。以具体的 CTA 结尾。” 护栏帮助 ChatGPT 跳过冗余，命中目标运行时。

学生： “向一位九年级学生解释 [话题]。使用简单的例子和他们可以遵循的四步过程。” 面向直接受众和步骤，ChatGPT 生成简短的有用指南。

实践中有效的护栏

要求编号步骤和验收标准。ChatGPT 在列清单方面非常擅长。
对于事实，要求引用并检查它们。当来源缺失时，请让它说明。
对于电子表格，提供小样本并请求公式。然后将公式复制粘贴到您的表格中。
对于代码，要求测试和错误信息。ChatGPT 可以编写二者。
对于敏感话题，请设定中立语气，并由审核者签字。
对于性能，设定长度上限，先请求简短的 TL;DR，以便如有偏差可提前终止。
对于翻译，包含词汇表和风格说明。ChatGPT 会紧密遵循。

案例研究：从混乱邮件到行动计划

假设一位经理转发了一封关于周末覆盖的杂乱邮件线程。时间不一致，任务模糊，且两人使用不同的时区。以下是解决的简单方法：

粘贴线程并说：“提取姓名、班次和地点。规范化时间为 [时区]。显示表格。”
请求：“列出缺失的细节和风险假设。”
请求：“撰写一封简短、中立的消息，提出一个时间表并询问三个澄清问题。”

在三个环节中，模型将杂音转化为一张表格、一份检查清单和一份您可以发送的草稿。由于结构明确，您可以快速验证。如果细节有误，调整提示或粘贴修正的数据并请求修订。

不含敷衍的伦理

坦诚对待他人。如果 AI 帮助撰写了影响工作的消息，请说明。不要将私人数据输入您未审核的工具。对提示使用版本控制，以便知道谁改动了什么。依赖 ChatGPT 进行面向客户的内容时，增加人为审核并保留最终批准的记录。这些是优秀团队使用的任何强大工具的规则。

未来方向（可能且有用）

预期更长的上下文窗口，使模型能一次读取完整项目；更好的工具使用，使其能自行获取数据并运行检查；以及更便宜的标记，使常规使用经济划算。小型设备内模型将处理快速、私人的任务，而大型云模型则解决复杂工作。不要指望通用人工智能一夜之间出现。但是，确实可以期待 ChatGPT 将更加快速、安全和实用于日常任务的逐步改进。

快速参考：做和不做

给出角色、目标和受众。
提供示例和约束。
请求结构和验收标准。
保留工作提示记录。
从小处着手，衡量并扩展。

不要

在未经批准的情况下粘贴秘密或受监管的数据。
假定输出是正确的。务必验证。
让提示蔓延。保持紧凑。
依赖一次通过。迭代一到两次。
使用 ChatGPT 作出决策。它是助手。

它与搜索的区别

网络搜索引擎查找页面。语言模型写出文本。当您询问搜索引擎时，它返回基于如受欢迎度和最新度等信号排序的链接。当您询问模型时，它直接生成句子。两者都很有用；它们仅是回答不同类型的问题。

当您需要原始资料、突发新闻或官方文档时使用搜索引擎。当您需要基于学得的模式的草稿、重新格式化片段或快速解释时使用模型。实际上，最好的工作流程是混合：向 ChatGPT 询问计划或摘要，然后单击来源验证细节。如果可用浏览工具，您可以在编写时请求 ChatGPT 搜寻和引用，但在行动前仍需自己阅读链接。

另一个区别在于语气。搜索引擎不关心您的风格指南。如果您展示例子，ChatGPT 可以模仿语气。为其提供简短的语音规则——“简单、直接，无营销用语”——它将在您的草稿中保持该风格。这使得 ChatGPT 成为内部工作中的强大伴侣，更注重速度和清晰度而非完美散文。对于公共工作，将 ChatGPT 与人为审核结合以保持品牌质量。

有效的示例对话

将一个粗略的想法转化为计划。
提示：“我经营一家小咖啡馆。我想推出预付饮料卡。起草测试此需求一个月的步骤。包含风险和跟踪销售的简单电子表格布局。”
为什么有效：角色、目标和约束明确。ChatGPT 将提议步骤、测试窗口和您可以复制的简单表格。

总结而不丢失要点。
提示：“将以下三个客户电子邮件总结为五个要点。标记任何看起来像是错误与功能请求。”
为什么有效：它确定了输出和标签。当您请求明确标签时，ChatGPT 在分离类别方面很出色。

用简单英语解释代码。
提示：“用一个段落解释这个函数的作用，然后列出两个潜在的失败案例。”
为什么有效：它强迫简短的解释和风险检查。对于大多数日常代码，ChatGPT 处理得很好。

草拟一封敏感的信息。
提示：“写一封中立、尊重的通知给承包商，解释由于预算原因他们的夜班即将结束。提供两个替代班次并询问他们的可用性。”
为什么有效：明确的语气和选项。ChatGPT 将产生一份平静的草案供您在发送前编辑。

按风格指南翻译。
提示：“将这份公告译为西班牙语，供仓库员工使用。保持句子简短，避免俚语，并保持阅读水平在 7 年级左右。”
为什么有效：语气规则和受众明确。ChatGPT 紧密遵循样式限制。

这些模式是可重复的。保存那些能带来好结果的提示，然后建立一个小型库。当您的团队分享该库时，人人受益。随着时间的推移，您的提示变得与模板一样重要。如果您替换堆栈中的工具，您的提示库仍然有效，因为 ChatGPT 理解意图而不是特定的菜单路径。

在受监管工作中的风险和缓解措施

有些团队担心 AI 会泄露数据或生成越界的建议。这些是有效的风险。应对的办法是过程，而不是恐惧。除非您的计划允许且政策批准，否则将敏感数据排除在外。使用检索让 ChatGPT 指向批准的文档，而非开放网络。将模型输出包装在检查中：限制谁可以发布，要求风险标记草稿的第二审阅，并保留日志。教员工在事实重要时请求引用，并用计算器或电子表格重新检查数学。在具备这些基本条件情况下，ChatGPT 可成为可靠助手，减少繁琐工作，而不使您陷入风险。

为什么这对日常工作很重要

大多数团队都被小任务淹没：重写这段便条，格式化那张表，起草政策的第一版本，为合作伙伴翻译信息，或从长 PDF 中提取清单。这些正是 ChatGPT 发挥优势的点。它能在几秒钟内将混乱输入转化为清晰草案，您保持掌控，因为您仍然审核和批准。在一周内将其乘以倍数，时间节省显而易见。更好的是，ChatGPT 使好习惯变得更容易：您开始要求明确结构，添加验收标准，并留下审核追踪，因为提示和输出都易于存档。回报很简单：文件更清晰，交接更快，错误更少。

这不需要新职位或大预算。您可以从今天已有的工具开始。选择一个流程，在三个步骤中添加 ChatGPT，衡量节省的时间，并记录您更改的内容。下周重复。那些在小竞争中复利的团队将悄然击败那些等待完美计划的团队。