引言 |本栏目特邀腾讯知名语言文本项目算法工程师冉昱、薛晨，用专业视野带你由浅入深了解chatgpt技术全貌。它经历了什么训练过程？成功关键技术是什么？将如何带动行业的变革？开发者如何借鉴chatgpt思路和技术，投入到日常工作中？期望本文能给你新的灵感。

chatgpt主要特点

chatgpt本质是一个对话模型，它可以回答日常问题、进行多轮闲聊，也可以承认错误回复、挑战不正确的问题，甚至会拒绝不适当的请求。在上周公布博文和试用接口后，chatgpt很快以令人惊叹的对话能力“引爆”网络。

1）chatgpt的技术背景

chatgpt目前未释出论文文献，仅释出了介绍博文和试用api。从博文中提供的技术点和示意图来看，它与今年初公布的instructgpt 核心思想一致。其关键能力来自三个方面：强大的基座大模型能力（instructgpt），高质量的真实数据（干净且丰富），强化学习（ppo算法）。以上chatgpt成功的三个要素，具体将在文中第2部分详细展开。

2）chatgpt的主要特点

让用户印象最深刻的是它有强大的语言理解和生成系统。其对话能力、文本生成能力、对不同语言表述的理解均很出色。它以对话为载体，可以回答多种多样的日常问题，对于多轮对话历史的记忆能力和篇幅增强。其次，与gpt3等大模型相比，chatgpt回答更全面，可以多角度全方位进行回答和阐述，相较以往的大模型，知识被“挖掘”得更充分。它能降低了人类学习成本和节省时间成本，可以满足人类大部分日常需求，比如快速为人类改写确定目标的文字、大篇幅续写和生成小说、快速定位代码的bug等。

值得一提的事，它具有安全机制和去除偏见能力。下图这类问题在以前的大模型中时常出现，然而chatgpt在这两点上增加了过滤处理机制。针对不适当的提问和请求，它可以做出拒绝和“圆滑”的回复。例如对于违法行为的提问：

对于未知事物的“拒绝”：

当然chatgpt并非十全十美，其缺点也比较明显。首先，其简单的逻辑问题错误依旧明显存在，发挥不够稳定（但总体比gpt3好很多）。特别在有对话历史时，它容易因被用户误导而动摇。

其次，chatgpt有时会给出看似合理、但并不正确或甚至荒谬的答案。部分答案需要自行甄别才能判断正误，特别当本身用户处于未知状态来咨询模型时，更加无法判断真伪。chatgpt使得生产者可以用较低成本增加错误信息，而这一固有缺点已经造成了一些实际影响。编程问答网站 stackoverflow 宣布暂时禁止用户发布来自 chatgpt 生成的内容，网站 mods 表示：看似合理但实际上错误的回复数量太多，已经超过了网站的承受能力。

此外，它抵抗不安全的prompt能力较差，还存在过分猜测用户意图的问题。这主要体现在当用户提问意图不明确时，chatgpt会猜测用户意图，理想情况应为要求用户澄清；当用户意图不明确时，很大概率给出不合适的回复。大批量的用户反馈，chatgpt部分回复废话较多、句式固定。它通常过度使用一些常见的短语和句式。这与构造训练数据时，用户倾向于选择更长的回复有关。

chatgpt的工作原理

1）chatgpt的训练过程

chatgpt训练过程很清晰，主要分为三个步骤，示意如图所示：

第一步，使用有监督学习方式，基于gpt3.5微调训练一个初始模型，训练数据约为2w~3w量级（此处为推测量级，我们根据兄弟模型instructgpt的训练数据量级估算）。由标注师分别扮演用户和聊天机器人，产生人工精标的多轮对话数据。值得注意的是，在人类扮演聊天机器人时，会得到机器生成的一些建议来帮助人类撰写自己的回复，以此提高撰写标注效率。

以上精标的训练数据虽然数据量不大，但质量和多样性非常高，且来自真实世界数据，这是很关键的一点。

第二步，收集相同上文下，根据回复质量进行排序的数据：即随机抽取一大批prompt，使用第一阶段微调模型，产生多个不同回答：

…

，之后标注人员对k个结果排序，形成

组训练数据对。之后使用pairwise loss来训练奖励模型，可以预测出标注者更喜欢哪个输出。“从比较中”学习可以给出相对精确的奖励值。

这一步使得chatgpt从命令驱动转向了意图驱动。关于这一点，李宏毅老师的原话称，“它会不断引导gpt说人类要他说的”。另外，训练数据不需过多，维持在万量级即可。因为它不需要穷尽所有的问题，只要告诉模型人类的喜好，强化模型意图驱动的能力就行。

第三步，使用ppo强化学习策略来微调第一阶段的模型。这里的核心思想是随机抽取新的prompt，用第二阶段的reward model给产生的回答打分。这个分数即回答的整体reward，进而将此reward回传，由此产生的策略梯度可以更新ppo模型参数。整个过程迭代数次直到模型收敛。

强化学习算法可以简单理解为通过调整模型参数，使模型得到最大的奖励（reward），最大奖励意味着此时的回复最符合人工的选择取向。而对于ppo，我们知道它是2017年openai提出的一种新型的强化学习策略优化的算法即可。它提出了新的目标函数，可以在多个训练步骤实现小批量的更新，其实现简单、易于理解、性能稳定、能同时处理离散/连续动作空间问题、利于大规模训练。

以上三个步骤即chatgpt的训练过程，合称为文献中提到的rlhf技术。

2）chatgpt为何成功？

为何三段式的训练方法就可以让chatgpt如此强大？其实，以上的训练过程蕴含了上文我们提到的关键点，而这些关键点正是chatgpt成功的原因：

强大的基座模型能力（instructgpt）
大参数语言模型（gpt3.5）
高质量的真实数据（精标的多轮对话数据和比较排序数据）
性能稳定的强化学习算法（ppo算法）

我们需要注意的是，chatgpt的成功，是在前期大量工作基础上实现的，非凭空产生的“惊雷”。下面我们将针对性阐述：

instructgpt

chatgpt是instructgpt的兄弟模型(sibling model)，后者经过训练以遵循prompt中的指令，从而提供详细的响应。instructgpt是openai在今年3月在文献 training language models to follow instructions with human feedback 中提出的工作。其整体流程和以上的chatgpt流程基本相同，但是在数据收集、基座模型（gpt3 vs gpt 3.5）以及第三步初始化ppo模型时略有不同。

此篇可以视为rlhf 1.0的收官之作。一方面，从官网来看，这篇文章之后暂时没有发布rlhf的新研究，另一方面这篇文章也佐证了instruction tuning的有效性。

instuctgpt的工作与chatgpt类似：给定instruction且需要人工写回答。首先工作人员训练了一个instructgpt的早期版本，使用完全人工标注的数据，分3类：instruction+answer、instruction+多个examples 和用户在使用api过程中提出的需求。从第二类数据的标注，推测chatgpt可能用检索来提供多个in context learning的示例，供人工标注。剩余步骤与以上chatgpt相同。

尤其需要重视但往往容易被忽视的是，openai对于数据质量和数据泛化性的把控。这也是openai的一大优势：寻找高质量标注者——寻找在识别和回应敏感提示的能力筛选测试中，表现良好的labeler；使用集外标注者保证泛化性——即用未经历以上1）步骤的更广大群体的标注者对训练数据进行验证，保证训练数据与更广泛群体的偏好一致。

在完成以上工作后，我们可以来看看instuctgpt与gpt3的区别：

gpt3的回答简短，回复过于通俗毫无亮点。而instructgpt“侃侃而谈”，解释自由主义为何愚蠢，显然模型学到了对于此类问题人们更想要的长篇大论的回答。

gpt3只是个语言模型，它被用来预测下一个单词，丝毫没有考虑用户想要的答案；当使用代表用户喜好的三类人工标注为微调数据后，1.3b参数的instructgpt在多场景下的效果超越175b的gpt3：

instuctgpt的工作也很有开创性：它在“解锁”（unlock）和挖掘gpt3学到的海量数据中的知识和能力，但这些仅通过快速的in-context的方式较难获得。instuctgpt找到了一种面向主观任务来挖掘gpt3强大语言能力的方式。

openai博文中有这样一段原话：当我们要解决的安全和对齐问题是复杂和主观，它的好坏无法完全被自动指标衡量的时候，此时需要用人类的偏好来作为奖励信号来微调我们的模型。

instuctgpt的前序工作:gpt与强化学习的结合

其实在2019年gpt2出世后，openai就有尝试结合gpt-2和强化学习。neurips 2020的 learning to summarize with human feedback 工作中写道，openai在摘要生成时，利用了从人类反馈中的强化学习来训练。可以从这篇工作的整体流程图中，看出三步走的核心思想：收集反馈数据 -> 训练奖励模型 -> ppo强化学习。

rlhf第一阶段是针对多个候选摘要人工排序（这里就体现出openai的钞能力，按标注时间计费，标注过快的会被开除）；第二阶段是训练排序模型（依旧使用gpt模型)；第三阶段是利用ppo算法学习policy（在摘要任务上微调过的gpt）。

文中模型可以产生比10倍更大模型容量更好的摘要效果。但文中也同样指出，模型的成功部分归功于增大了奖励模型的规模。但这需要很大量级的计算资源——训练6.7b的强化学习模型需要320 gpu-days的成本。

2020年初的openai的fine-tuning gpt-2 from human preferences可看出，它同样首先利用预训练模型来训练reward模型，进而使用ppo策略进行强化学习。整体步骤初见chatgpt的雏形！

而rlhf（reinforcement learning from human feedback ）的思想，是在2017年6月的openai deep reinforcement learning from human preferences工作提出的。其核心思想是利用人类的反馈判断最接近视频行为目标的片段；通过训练来找到最能解释人类判断的奖励函数，然后使用rl来学习如何实现这个目标。

可以说，chatgpt是站在instructgpt以及以上理论的肩膀上完成的一项出色的工作，它们将llm（large language model）/ptm(pretrain language model)与rl（reinforcement learning)出色结合证明这条方向可行。当然，这也是未来还将持续发展的nlp甚至通用智能体的方向。

ppo

ppo(proximal policy optimization)一种新型的policy gradient算法（policy gradient是一种强化学习算法，通过优化智能体的行为策略来解决在环境中实现目标的问题）。我们只需了解普通的policy gradient算法对步长十分敏感，但是又难以选择合适的步长。在训练过程中新旧策略的的变化差异如果过大则不利于学习。

而ppo提出了新的目标函数可以在多个训练步骤实现小批量的更新，解决了policy gradient算法中步长难以确定的问题。由于其实现简单、性能稳定、能同时处理离散/连续动作空间问题、利于大规模训练等优势，近年来受到广泛关注，成为openai默认强化学习算法。

webgpt和cicero

近两年，利用llm+rl以及对强化学习和nlp训练的研究，各大巨头在这个领域做了非常多扎实的工作，而这些成果和chatgpt一样都有可圈可点之处。这里以openai的webgpt和meta的cicero为例。

webgpt是2021年底openai的工作。其核心思想是使用gpt3模型强大的生成能力，学习人类使用搜索引擎的一系列行为，通过训练奖励模型来预测人类的偏好，使webgpt可以自己搜索网页来回答开放域的问题，而产生的答案尽可能满足人类的喜好。

cicero是meta ai上个月发布的可以以人类水平玩文字策略游戏的ai系统，。其同样可以与人类互动，可以使用战略推理和自然语言与人类在游戏玩法中进行互动和竞争。cicero的核心是由一个对话引擎和一个战略推理引擎共同驱动的，而战略推理引擎集中使用了rl，对话引擎与gpt3类似。

算法工程师深度解构ChatGPT技术

chatgpt主要特点

chatgpt本质是一个对话模型，它可以回答日常问题、进行多轮闲聊，也可以承认错误回复、挑战不正确的问题，甚至会拒绝不适当的请求。在上周公布博文和试用接口后，chatgpt很快以令人惊叹的对话能力“引爆”网络。

1）chatgpt的技术背景

chatgpt的工作原理

1）chatgpt的训练过程

instuctgpt的前序工作:gpt与强化学习的结合

ppo

webgpt和cicero

1）chatgpt应用

2）关于chatgpt的思考

3）如何借鉴和使用chatgpt

相关推荐

热门标签

随机推荐

切换注册登录

切换登录注册