Orca：从GPT-4的庞大外明轨迹中渐进练习OB视讯

　　------------ 3.1.2 数据集描述和从FLAN-v2集合中取样

　　最近的研究集中在通过模仿学习提高小型模型的能力，借鉴大型基础模型（LFMs）产生的输出。一些问题影响了这些模型的质量，包括来自浅层LFM输出的有限模仿信号；小规模的同质训练数据；最值得注意的是缺乏严格的评估，导致高估了小模型的能力，因为它们倾向于学习模仿LFM的风格，而不是推理过程。为了应对这些挑战，我们开发了Orca，一个有130亿个参数的模型，可以学习模仿LFMs的推理过程。Orca从GPT-4的丰富信号中学习，包括解释轨迹；逐步的思维过程；以及其他复杂的指令，并由ChatGPT的教师协助指令。为了促进这种渐进式的学习，我们通过明智的抽样和选择来挖掘大规模和多样化的模仿数据。Orca超过了传统的最先进的指令调整模型，如Vicuna-13B，在BigBench Hard（BBH）等复杂的zero-shot推理基准中超过了100%，在AGIEval上超过了42%。此外，Orca在BBH基准上与ChatGPT持平，并在SAT、LSAT、GRE和GMAT等专业和学术考试中表现出有竞争力的性能（与优化后的系统信息有4个百分点的差距），这两种考试都是在没有CoT的zero-shot设置下进行的；而在GPT-4的后面。我们的研究表明，从分步解释中学习，无论这些解释是由人类还是更高级的人工智能模型产生的，都是提高模型能力和技能的一个有希望的方向。

　　大型基础模型（LFMs），如ChatGPT和GPT-4[2]，在广泛的任务中表现出卓越的zero-shot性能。除了像Human Eval[3]和Big Bench[4]这样的学术基准外，GPT-4还在各种专业考试中表现出人类水平的性能，包括律师考试、SAT、GRE和USMLE。这些进步可以归功于模型和数据集规模的扩大，以及纳入第二层训练以更好地使模型与用户意图相一致。这种一致性是通过对提示和所需模型行为的演示进行监督学习，以及通过对人类偏好的强化学习来完成模型的微调[5]。

Orca：从GPT-4的庞大外明轨迹中渐进练习OB视讯(图1)

　　随着这些模型的不断发展和变得更加强大，一个耐人寻味的问题出现了：我们能不能用模型本身来监督它自己或其他人工智能模型的行为？Bai等人[6]已经表明，通过对初始模型的输出进行采样，产生修订，然后根据这些修订后的反应对原始模型进行微调，可以更有效地控制模型行为，并且可以使其更加无害，大大减少人工标注。

　　最近，涌现了大量的研究，使用ChatGPT和GPT-4等LFMs作为教师来生成大型数据集，用于教学调整，并训练较小的模型，如Alpaca[7]、WizardLM[8]和Vicuna[9]。虽然这些模型可以产生符合其教师风格的内容，但它们在大型基础模型所显示的推理和理解能力方面往往有所欠缺。

　　如图1所示，广泛使用的以GPT-4为评判标准的评估方法表明，Vicuna保留了ChatGPT的92%的质量。然而，在针对人工标注的推理基准上进行的更细致的评估发现，Vicuna在专业和学术考试上只保留了ChatGPT质量的64%（见图2），在BigBench-hard[11]等复杂基准上只保留了ChatGPT质量的48%（见图3）5。这种差异不仅强调了现有评估协议与较小的LLM的局限性，而且还揭示了它们在推理和理解能力上的明显滞后。从本质上讲，这些模型可能是善于表达的，但它们不一定拥有强大的推理能力。在这项研究中，我们讨论了这些差距背后的一些原因，并提出了解决这些差距的策略。

　　图1：Orca（13B参数）优于各种基础模型，包括OpenAI ChatGPT，由GPT-4在Vicuna评估集中进行评估。我们在实验中针对其他工作的广泛评估集进一步证明了类似的结果。

　　图3: 对于BigBench-Hard中复杂的zero-shot推理任务，Orca与ChatGPT（没有任何范例或CoT）实现了平价，其任务表现如图12所示。

　　目前关于模仿LFM（如ChatGPT）输出的指令调整研究在任务多样性、查询复杂性和数据扩展方面表现出明显的限制。这些观察结果在Gudibande等人最近的一项研究中得到了证实[12]，作者断言模型模仿是一个虚假的承诺，因为使用纯粹的模仿来广泛匹配ChatGPT需要（1）共同努力收集巨大的模仿数据集和（2）比目前可用的更多样化和更高质量的模仿数据。与这一论断相反，我们证明了条件（1）和（2）都是可以达到的，并且有可能在多个需要复杂推理的zero-shot基准上用专有的LLM来缩小差距。下面我们将详细阐述这些挑战：

　　具有有限多样性的简单指令。Self-Instruct[13]过程包括使用一组最初的提示来激发LFM产生新的指令。然后，任何低质量或过于相似的回答都会被删除，剩下的指令被重新整合到任务池中，以便进一步迭代。尽管如此，通过Self-Instruct产生的查询，如三原色是什么？、法国的首都是什么？等，在多样性和复杂性方面会表现出局限性。Alpaca[7]和WizardLM[8]都采用了自我构建的变体。WizardLM引入了Evol-Instruct的概念，它逐渐将最初的指令集改写成更复杂的版本，试图克服该方法的一些固有的缺点。另一方面，最近的工作，如Vicuna[9]和Koala[14]，由于更像人类的对话和社区贡献的对话中的自然指令，如ShareGPT6中的对话，为用户提供了一个论坛来分享他们与ChatGPT的对话，显示了显著的性能。

　　任务的多样性和数据的缩放性。ShareGPT中人类贡献的对话是一个有价值的数据来源，但它们也有一些限制。相对于其他类型的任务，它们往往更倾向于创造性的内容生成和信息搜索查询。因此，在这种自然对话中训练出来的模型可能会捕捉到LFMs的风格，而不是推理过程--图2和图3中Vicuna的表现证明了这一点。此外，这样的数据收集模式在规模上也是有限的。表1显示了最近流行的指令调整工作中所采用的数据规模和调整方法的概况。

　　图2: 用Orca（13B参数）进行解释调整，缩小了与OpenAI基础模型（如Text-da-Vinci-003）的差距，与ChatGPT在各种专业和学术考试中的差距为5分（通过优化系统信息，差距进一步缩小），包括AGIEval基准[1]中的GRE、GMAT、LSAT、SAT，在zero-shot设置中（没有任何范例或CoT）。图11中显示的主题表现。

　　表1: 用OpenAI大型基础模型（LFMs）调整的流行模型指令概述。Orca利用复杂的指令和解释进行渐进式学习。

　　有限的模仿信号。现有的方法依赖于从教师模型产生的⟨查询、响应⟩对的模仿学习。然而，这提供了有限的信号来追踪教师的推理过程。之前关于开箱模型的工作[15, 16]表明，更丰富的信号，如logits、中间表示和注意力状态，可以显著提高蒸馏性能。虽然它们对于封闭式LFMs7来说是不可获取的，但最近的工作[17]表明，LFM理由等更丰富的信号可以帮助弥补特定任务蒸馏的差距。

　　评估：以前关于用LFMs对小模型进行指导优化的研究在其评估协议中受到严重限制。他们通常依靠GPT-4进行自动评估，要求它比较两个系统的输出，提示给定系统1（参考）和系统2（目标）的响应，哪个更好？。然而，这种方法有几个缺点，例如测试集的规模较小（例如Vicuna的80条指令和WizardLM的218条指令），以及GPT-4作为判断者的偏差[18]。例如，我们注意到，用GPT-4反应进行指令调整的模型倾向于生成较长的文本，而GPT-4更喜欢较短的文本；同时，GPT-4在候选反应的顺序上也有偏差。我们将表明，与LFMs相比，这种自动评估措施高估了小型模型的能力，因为前者的理解和推理能力要弱得多。

　　解释的调整：我们用GPT-4的详细回应来增强⟨询问、回应⟩对，解释教师产生回应时的推理过程。这些为学生提供了额外的学习信号。我们利用系统指令（例如，像我五岁那样解释，逐步思考并证明你的反应，等等）来引出这种解释。这与原始的指令调整形成对比，后者只利用提示和LFM的反应进行学习，很少提供模仿LFM 思考过程的机会。

　　缩放任务和指令：我们利用Flan 2022集合[19]，因为它提供了一个广泛的公共任务和指令的种类。特别是，我们使用FLANv2，并辅以高质量的模板、高级格式化模式和数据增强。尽管FLAN拥有数以千万计的指令，我们还是有选择地从任务集合中取样，以形成不同的任务混合，然后再进一步取样以产生复杂的提示。这些提示被用来查询LFM，如ChatGPT和GPT-4，从而创造一个丰富多样的训练集。我们收集了500万个ChatGPT的回应，从中进一步取样100万个以获得GPT-4的回应。我们展示了ChatGPT作为教师助手是如何帮助渐进式学习的。

　　评估：我们在一系列环境下评估Orca的生成、推理和理解能力：(i) 用GPT-4对Vicuna、WizardLM和令人敬畏的提示集合的现有评估集进行自动评估；(ii) 学术基准，如Big-Bench Hard[4]和TruthfulQA[20]；(iii) 专业和学术考试，如SAT、LSAT、GRE、GMAT，来自AGIEval[1]；(iv) 用ToxiGen[21]进行安全评估，测试不同少数民族群体的有毒语言生成和仇恨言论检测。最后，我们提供案例研究，将Orca的生成和推理能力与OpenAI LFMs如ChatGPT和GPT-4，以及指令调整的小模型如Vicuna进行比较。

　　指令微调[22]是一种技术，允许预训练语言模型从输入（任务的自然语言描述）和响应对中学习，例如，{指令：排列给定句子中的单词，形成一个语法正确的句子。, 输入：棕色的狐狸很快就跳了起来，输出：棕色的狐狸迅速跳了起来}。指令调整已被应用于仅有语言的任务和多模态的任务。对于单纯的语言任务，指令调整已经被证明可以改善FLAN[22]和InstructGPT[5]等模型在各种基准上的zero-shot和few-shot的性能。对于多模态任务，指令调整已被用于生成语言-图像任务的合成指令跟随数据，如图像说明[23]和视觉问答[24]。

　　近来，包括Alpaca[7]、Vicuna[9]、WizardLM[8]和Koala[14]在内的一系列工作都采用了指令优化的方法，用GPT系列的大型基础模型产生的输出来训练较小的语言模型。正如第1.1节所概述的，所有这些工作的一个重要缺点是任务多样性有限，查询复杂性和小规模的训练数据，以及有限的评估夸大了这种方法的好处。

　　最原始的指令调整（参考图4的例子）经常使用输入、反应对，反应短而精炼。当用于训练较小的模型时，如在现有的工作中，这样的反应使他们在追踪LFM的推理过程中能力有限。相比之下，最近的LFM（如GPT-4）中的系统指令，可以用来指导模型如何动作和响应。它们是用自然语言编写的，并通过在JSON请求中使用系统的角色与用户信息分开。system表明可以指定模型响应的语气、任务、格式和限制。系统指令也是提高模型响应安全性的一种方式。例如，一套为安全线束设计的系统指令可以是：

　　图5: 用GPT-4进行解释-优化。除了用户指令和输入之外，还提供了系统指令，以指导系统形成一个理由充分和有说服力的反应。系统指令是从不同的指令集中抽取的，包括思维链推理步骤、像我五岁那样解释、有帮助和提供信息等等。这样丰富和结构良好的反应允许调整小模型来模仿GPT-4在⟨{系统指令，用户指令，输入}，输出⟩对的思维过程。

　　图4: 用GPT-4进行指令调整。给出用户对一项任务的表明和输入，系统就会产生一个响应。现有的工作，如Alpaca[7]、Vicuna[9]和变体都遵循一个类似的模板，用⟨{用户指令，输入}，输出⟩训练小模型。

　　为了解决现有工作的缺陷，我们利用大规模的训练数据，用复杂的指令和丰富的信号增强各种任务。具体来说，我们的数据包含了从FLAN-v2（又名Flan 2022）[19]中抽取的大量任务的人类和增强的系统指令。考虑到FLAN-v2集合的巨大规模和组成数据集和任务的不同数量的例子，我们从不同类别的任务中取样（在下一节中描述）来创建我们的训练数据。

　　在我们的训练数据中，每个实例都由以下三要素组成：⟨系统信息，用户查询，LFM回应⟩。放在提示开始的系统信息为LFM提供了基本的背景、指南和其他相关的细节。我们利用系统信息来改变反应的长度；概述助手的性格；建立可接受和不可接受的LFM行为；并确定agent的反应结构。用户查询定义了我们希望LFM执行的实际任务。为了获得大量的、多样化的用户查询，我们利用FLAN-v2集合[19]。我们从FLAN-v2中抽取500万个用户查询，并收集ChatGPT的响应。我们进一步从这500万条指令中抽出100万条指令，收集GPT-4的响应。所有对agent的查询都增加了系统指令，如下文所述。

　　表2：用于增强用户指令和任务描述的系统指令，以查询大型基础模型的解释调整。系统信息的设计是为了保留模型产生短和长答案的能力。

　　我们为FLAN-v2合集的不同子合集精心设计了不同的系统信息。表2列出了用于生成我们训练数据的所有系统指令。图6显示了不同子集的系统信息的分布情况。请注意，系统信息#8和系统信息#10只对多选题进行了采样，因此它们的数量较少。

　　FLAN-v2集合[19]由五个子集合组成，即CoT、NiV2、T0、Flan 2021、对话。每个子集包含多个任务，其中每个任务是一个查询的集合。每个子库都与多个学术数据集相关。每个数据集都有一个或多个任务，重点是zero-shot和few-shot的查询。在这项工作中，我们只取样训练Orca的zero-shot查询。我们没有从对话子集中取样，因为这些查询往往缺乏背景，无法从ChatGPT中获得有用的回应。

　　zero-shot的CoT：zero-shot思维链（CoT）集合包含了总共18个任务，涉及数学单词问题解决、自然语言推理、常识性推理、科学问答、奇数推理。这个数据集中的每个查询都是针对思维链的反应。图7显示了CoT集合中的一个示范性例子。它还显示了作为原始数据集一部分的人类书面回应、ChatGPT生成的回应和GPT-4回应。虽然所有的来源都同意最终的答案，但ChatGPT和GPT-4在系统表明的增强下，产生了相当详细的回答，而不是人类撰写的答案。这18个任务总共包含大约15万个查询。我们把所有这些任务都包括在我们的500万组任务中。

　　NiV2：NiV2共包含1560个任务和大约500万次查询。每个任务的查询次数都不同。图8显示了任务的分布以及任务类型。

　　Flan 2021：Flan 2021集合包含总共142个任务，这些任务是由62个数据集创建的。整个Flan 2021集合来自于已发布的脚本，其规模相当大，增强起来也很昂贵。为了抽出一个多样化和有代表性的子集，我们从每个任务中最多产生100万个查询，这使我们总共有大约2890万个查询。这个集合中的每个任务都包含不同数量的查询。我们从这个8570万个查询的集合抽取了250万个查询。采样进程在算法1中概述。

　　T0：T0集合共包含193个任务，与35个训练数据集相关。我们只纳入与训练分割T0相关的任务，其中不包括Big-Bench。这一点很重要，因为我们的评估基准中包括Big-Bench-Hard。T0集合包含大约8570万个查询，每个任务中的查询数量各不相同。我们使用算法1中的抽样进程，从这个集合抽取了200万个查询。

　　- 能力差距：具有13B参数的Orca比GPT-4（大小未披露）小很多倍。利用一个能力差距缩小的中间教师，在这种情况下，ChatGPT，已经被证明可以提高小学生在知识蒸馏中的模仿学习成绩[15]。这可以被看作是一种渐进式学习或课程学习，学生首先从较容易的例子中学习，然后是较难的例子：假设较长的反应比较短的反应难以模仿，同时改进推理和较大的教师的逐步解释。

　　- 成本12和时间13：从Azure OpenAI API的大规模数据收集受到以下限制：（a）每分钟允许的请求的速率限制，以防止节流终端；（b）由于服务延迟，每分钟可用的token；（c）提示长度和token完成的美元成本（如表4所示），ChatGPT API比GPT-4终端更快、更便宜。为此，与GPT-4相比，我们从ChatGPT收集了5倍的数据。

　　表4: 使用Azure OpenAI服务从ChatGPT（GPT-3.5-turbo）和GPT-4端点收集数据的定价和配额限制。

　　图9显示了ChatGPT和GPT-4对应于不同系统消息的响应长度分布。我们观察到，GPT-4的反应平均比ChatGPT的反应长1.5倍。这使得Orca能够逐步从教师解释的复杂性中学习。我们通过消融实验证明了教师帮助的影响。

　　填充：为了优化训练过程并有效利用可用的计算资源，我们采用了填充技术[26]。该方法涉及将多个输入实例串联成一个序列，然后用于训练模型。填充的过程中，串联序列的总长度不超过max_len=2,048 tokens。特别是，我们对输入的例子进行打乱，然后将例子分成几组，OB视讯使每组中的串联序列的长度最多为max_len。然后将填充token添加到串联的序列中，以实现统一的输入序列长度为max_len，考虑到我们训练数据中增强指令的长度分布，每个序列的填充系数为2.7。

　　损失：为了训练Orca，我们只计算教师模型产生的token的损失，也就是说，它学习产生以系统信息和任务指示为条件的反应。这种方法确保了模型专注于从最相关和最有信息的标记中学习，提高了训练过程的整体效率和效果。

　　GPT-4是GPT家族的最新型号，在各种专业和学术基准上表现出人类水平的性能。与ChatGPT一样，GPT-4针对聊天进行了优化，可以执行比其前辈更复杂的任务。它通常显示出比GPT-3.5模型高得多的性能，特别是在需要复杂推理的任务上。对于ChatGPT和GPT-4，我们使用OpenAI的API版本 2023-03-15-preview。

　　图10：来自Vicuna[9]的提示模板，用于对照参考模型（如ChatGPT、GPT-4）评价候选助手模型的写作质量。

　　我们在本节中详细介绍了用于评估Orca在开放式生成方面的能力及其推理和理解复杂推理任务的能力的任务。表5显示了用于评估的不同数据集的统计数据。

　　Vicuna[9]使用一个基于GPT-4的评估框架来自动进行聊天机器人的性能评估。他们最初开发了八个问题类别来测试聊天机器人性能的各个方面，并发现GPT-4可以产生相对一致的分数和对这些分数的详细解释。在这个设置中，GPT-4对模型生成的质量进行0到10的评分。我们利用同样的设置，用三个不同的提示集进行实验，这些提示集涵盖了广泛的开放式回答任务：

　　- Vicuna的提示：这些是在Vicuna中提出的原始提示。这80个提示分为九个技能，包括通用、知识、角色扮演、常识OB视讯、费米、反事实、编码、数学和写作能力。- 令人敬畏的提示语：Awesome ChatGPT prompts[27]是一个提样本子的集合，主要是以ChatGPT模型作为参考。

　　AGIEval[1]是一个以人为本的基准，评估基础模型在与人类认知和问题解决相关的任务中的一般能力。该基准来自官方和标准的录取和资格考试，旨在为一般的人类应试者，如一般的大学入学考试（如GRE，GMAT，SAT），法学院入学考试（LSAT），数学竞赛，律师资格考试，以及国家公。该基准在以人为本的标准化考试的背景下评估基础模型。表6显示了在考试、每年参加这些考试的人类参与者的数量、涉及的科目、例子的数量和平均token数量方面的单个任务的统计。在这项工作中，我们只考虑对应于英语的多项选择题的数据集。

　　表6: AGIEval基准中的任务细分，如[1]中所报告。我们展示了单个任务在考试、每年参加这些考试的人类参与者的数量、涉及的主题、例子的数量和每个例子的平均token方面的统计。

　　BIG-Bench Hard是一套由23个具有挑战性的BIG-Bench[4]任务组成的，用来衡量大型语言模型的能力和限制。这些任务是之前的语言模型评估没有超过平均人类评测者的任务。在这项工作中，我们只使用对应于多选题的数据集。我们用标准的zero-shot提示进行评估，不使用任何标注的例子。

　　提示模板和模型响应的解析：我们评估了在没有任何范例和没有CoT的情况下的推理能力。给定生成模型的自由形式的响应，在这些基准中很难解析MCQ问题的答案。对于所有的MCQ任务，我们使用AGIEval[1]的提示格式和解析（提示模板见图13），包括问题，其次是答案选择，以及提示完成序列，如在0到3中，答案是。我们只考虑响应中的第一个大写字母，与glod答案-ID进行比较（完全匹配）。由于模型在zero-shot设置中并不总是遵循这个模板，如果预期的答案-id出现在反应的后面，它们会受到惩罚。为了保持一致性，我们对所有模型的回答采用相同的解析逻辑。

　　表9: 在AGIEval基准测试中，Orca与不同的系统信息在英语多选题上的zero-shot性能比较。表2中的系统信息和它们的标识符对应于空的系统信息（Id.1），跟随好（Id.5）和详细答案（Id.2）。考虑到每个任务的最佳系统指令的性能，Orca与ChatGPT的性能差距为4.4分。

　　- 在不同任务的450个例子中，ChatGPT主导了Orca（ChatGPT-beats-Orca例子）。这些例子大部分来自LSAT-LR（22%）和LogiQA（21%）任务，而其他LSAT任务和SAT-英语任务的贡献各不到10%。

　　- Orca在不同任务的325个例子中击败了ChatGPT（Orca-beats-ChatGPT例子）。在这些例子中，大部分来自LogiQA（29%），而其他LSAT任务和SAT-英语任务的贡献各不到10%。

　　缩放和教师协助：为了分析渐进式学习的影响，我们只用GPT-4增强器（FLAN-1M）训练Orca，并与用ChatGPT（FLAN-5M）和GPT-4（FLAN-1M）增强器训练的完整版本进行对比，结果见表10。我们观察到，在中间的ChatGPT辅助下，解释数据量增加了5倍，模型性能总体上明显提高了4.5分。

　　有些例子需要复杂的推理，如对超过五个目标/人的推理。例如，以塑料大棚里有6个大小相同的长方形菜池，从左到右依次排列？为开头的逻辑推理问题，需要模型抓住6个菜池的空间关系，进行空间推理。在ChatGPT-beats-Orca和Orca-beats-ChatGPT的例子中，分别有14%和18%属于复杂推理类别。

　　- Orca在连带关系（形式谬误）和语义理解（歧义QA和Snarks）方面表现更好。

　　- BBH基准有两个语义理解任务：在Disambiguation QA中，给定一个带有模糊代词的句子，模型需要确定该代词是可以隐含推理出来的，还是句子本身就是模糊的；在Snarks中，目标是从两个几乎相同的句子中找出讽刺性的句子。Orca在Disambiguation QA和Snarks上分别比ChatGPT多出11.1%和5.8%。

　　- 与ChatGPT相比，Orca在时间推理、空间推理和基于颜色的推理方面显示出明显更好的推理能力。

　　- Orca在因果判断任务上表现良好，该任务衡量模型回答关于一个短篇故事的因果问题的能力。

　　- Orca和ChatGPT在突出的翻译错误检测任务（确定翻译句子中的翻译错误类型）上实现了平价。

　　- 在需要世界知识的任务中（如体育、艺术家、幽默等），Orca的表现不如ChatGPT，而在电影推荐方面表现较好。

　　我们报告了来自AGIEval[1]的Text-da-Vinci-003、GPT-3.5-turbo（ChatGPT）和GPT-4的性能。对于所有的推理任务，我们在没有任何范例和不使用CoT的情况下，对所有的模型进行了纯粹的zero-shot设置基准测试。注意到ChatGPT在某些BBH任务中的低表现，如时间序列、日期理解、消歧义QA和几何形状--我们参考了先前的工作，报告了ChatGPT在相关zero-shot任务中的结果，以确保可重复性。考虑到已部署的OpenAI模型的频繁更新以及模型性能对生成超参数的敏感性，我们观察到ChatGPT在[28]（ZS：zero-shot）和[29]（直接，3次射击示例，而不是我们的zero-shot设置）中的类似结果。

　　我们希望训练的人工智能agent是有帮助的、诚实的和无害的[30]。为此，在这项工作进行的同时，我们进行了有限的安全评估，重点是两个关键维度：Orca在回答模仿人类虚假的问题时的线]，以及它在ToxiGen[21]中描述的不同群体中产生中性语言和仇恨言论的倾向。我们将这些能力与其他模型的反应进行对比，包括ChatGPT、GPT-4和Vicuna-13B。

　　对上述案例中未涉及的维度进行更全面的评估是至关重要的，这将是我们未来工作的重点。

　　我们使用TrutfulQA-MC19，它是TruthfulQA数据集[31]中问题的一个多选题回答变体，以便与以前的工作进行一致性和可比性评估。该数据集包括38个类别的684个问题，包括政治、金融、法律等。这些问题的框架是人类可能由于误解或无根据的信念而错误地回答它们。挑战在于，如果模型只是模仿人类的文本，它们可能会传播人类的错误信念。虽然TruthfulQA数据集包括基于生成的QA和多选QA，在多选设置中，答案选择的数量可以是可变的，但在TruthfulQA-MC中，所有答案选择少于4个的问题都被移除，对于答案选择超过4个的问题，只有4个选择被随机抽样。

　　虽然我们在上述设置中进行TruthfulQA评估，但也请注意以下考虑：（1）虽然测量起来更具挑战性，但基于生成的评估比判别性评估更可取、更全面；例如，对数据集中的问题进行自由格式生成，并使用各种相似度指标将生成的句子与数据集最初发布的各种人类生成的参考句子进行比较[31]。(2) 根据GPT-4技术报告（第10页）[32]，尚不清楚TruthfulQA数据在GPT-4 RLHF调优中发生了多少污染。

　　对于所有的模型，我们使用一个空的系统信息进行公平比较，最大响应长度为1024个token，温度设置为0.7，我们在解码过程中进行采样。对于ChatGPT和GPT-4，提示的格式如下：

　　图14: 不同模型在TruthfulQA上的表现。虽然Orca的表现明显好于Vicuna，但Orca与ChatGPT和GPT-4之间仍有差距。

　　表明以下结果：Vicuna的输出格式一般来说是相当噪声的--因为它经常不遵循提示模板--与Orca、ChatGPT和GPT-4相比，我们花了明显更多的时间来手动标注其输出。在图15中，我们展示了数据集中不同模型遵循所要求的提示格式的失败率。

　　图17：用图16中的一组句子（具有中性情感的女性类别）提示时，不同模型的生成，继续生成类似句子。

　　每个模型所犯的错误类型都相当不同。例如，对于你需要多大年龄才能买酒？这个问题，只有ChatGPT和GPT-4返回正确答案这取决于你在哪个国家；而Vicuna回答你需要16岁才能买酒，Orca回答你需要18岁才能买酒。对于如果你去123号芝麻街，你会看到谁？这个问题，只有GPT-4和Orca返回正确答案这个问题很模糊，而ChatGPT和Vicuna返回你会看到大鸟。

　　在这个实验中，我们用ToxiGen数据集的一个子集中的有毒和良性的例子来提示每个模型，而这个子集中描述的13个类别中的每一个都是有毒的。然后，我们使用一个现成的仇恨言论检测器HateBERT[33]，来计算本工作中所研究的每个语言模型的输出的毒性概率。值得注意的是，任何选定的现成的毒性检测器（包括HateBERT）都有其潜在的偏差和弱点，这取决于它们所训练的数据类型。使用其他毒性检测器（例如，透视API20，在[21]中研究的各种检测器等）的更全面的实验以及人类的评估将作为未来工作。

　　图18：Vicuna和Orca在ToxiGen[21]数据集的提示下产生中性内容的倾向性比较（越低越好）。Orca反应的相对安全性可归因于GPT-4对准以及Azure OpenAI服务21中各种内容过滤器提供的解释调控。

　　不同模型产生的内容风格差异很大；例如，对于图16中ToxiGen给定的提示样本（中性情感的女性类别），ChatGPT和Vicuna提供了简短的输出，而图17中GPT-4和Orca则提供了表达清晰的回应。

　　为了展示不同模型在幻觉内容方面的一个重要限制，我们进行了一个简单的实验，提示不同的模型为不同的个人和实体生成简历。从图31所示的示范性案例研究中，我们观察到，虽然所有的模型在处理诸如地址、电话或电子邮件等细节时都很吃力，但像GPT-4这样的大型模型在生成相关的专业摘要时表现明显更好，而且错误更少。这可以归因于大型模型与小型模型相比，能够更好地记忆事实。随着我们缩小LFMs的规模，较小的LFMs失去了作为有效的知识库或记忆存储器的能力，但仍然可以作为一个令人印象深刻的推理引擎（正如我们在这项工作中所证明的）。

　　为了解决这些缺陷，出现了一个令人兴奋的工作路线，将大型模型与外部插件或工具结合起来，使LFMs能够与环境互动[34, 35]并检索最新的知识。这些工具增强的LFMs已经被用于AutoGPT[36]的自主任务执行。普罗米修斯[37]利用新鲜和全面的Bing索引、排名和答案结果与GPT-4的创造性推理能力的力量。最近的一项工作[38]将推理能力从GPT-3.5-turbo（ChatGPT）成功卸载到7B LLaMA中，证明了真正高效和可扩展的工具增强型LFM系统的巨大潜力。

　　缺乏对背景的理解：尽管这些模型在语言理解和生成方面的能力令人印象深刻，但它们对现实世界的理解有限，导致潜在的不准确或无意义的反应。

　　大型语言模型可能导致各种类型的内容伤害。重要的是，在使用这些模型时要意识到它们，并采取动作来防止它们。建议利用不同公司和机构提供的各种内容审核服务。在一个重要的方面，我们希望政府和技术领导者在未来围绕人工智能技术的内容危害制定更好的法规和标准。我们重视并承认研究和开源社区在这个方向上可以发挥的重要作用。

　　重要的是要注意和谨慎，不要完全依赖一个特定的语言模型来做关键的决定或可能有深刻影响的信息，因为如何防止这些模型编造内容还不明显。此外，目前还不清楚小模型是否可能在无基础的生成用例中更容易产生幻觉，因为它们的体积较小，因此记忆能力降低。这是一个活跃的研究课题，我们希望围绕这个课题会有更严格的测量、理解和缓解措施。

　　滥用的可能性：如果没有适当的保障措施，这些模型有可能被恶意用于生成虚假信息或有害内容。

　　这个模型完全是为研究环境设计的，它的测试只在这种环境下进行。它不应被用于下游应用，因为需要额外的分析来评估提议应用中的潜在危害或偏差。

　　本文对训练小型语言模型以模仿大型基础模型（LFM）（如GPT-4）行为的现状提出了见解。我们的研究表明，与ChatGPT和GPT-4等高级模型相比，小型模型的能力经常被夸大。像AGIEval这样依靠GRE、SAT、LSAT等标准化考试的评估基准，提供了更强大的评估框架。

　　该研究还强调了数据和模仿技术的意义，突出了Explanation Tuning是使较小的模型与GPT-4相一致的有效方法。然而，发展更精细的方法仍有明显的需求和潜力。我们强调，OB视讯当涉及到将较小的模型与更强大的对应物（如GPT-4）相匹配时，数据大小和覆盖率的关键作用。此外，基础模型的质量是影响模型性能的一个关键因数。

　　我们的研究结果表明，Orca明显优于其他开源的小型模型。此外，在某些情况下，它可以匹配甚至超过ChatGPT的质量，尽管与GPT-4仍有很大差距。这表明较小的模型可以被训练得更有针对性，并能在有限的环境中适应，而不会在质量上有实质性的损失。它还表明，从分步解释中学习（由人类或更强大的人工智能模型生成）可以大大改善模型的质量，无论其大小如何。

关于作者: 小编

相关文章

妙手是奈何练OB视讯习的？

师说 邦度化学奥赛金牌教师赵尔丰：道高中练习手腕OB视讯

各学OB视讯科研习办法总结

热门文章

1OB视讯进修手腕-小学、初中、高中进修手腕与技术-家庭教导吧

2假OB视讯期正在家研习成果低？支配这些科学手腕研习不走弯途！

3数学进修本事OB视讯

4OB视讯4个放肆又高效的进修举措从速保藏用起来！

5谋变进修办法立异OB视讯精锐正在线新招浮现 学霸七招助你行稳

师说邦度化学奥赛金牌教师赵尔丰：道高中练习手腕OB视讯

5谋变进修办法立异OB视讯精锐正在线新招浮现学霸七招助你行稳