研究人员最近开发出一种名为自然语言嵌入式程序(NLEPs)的技术。这项技术能通过生成Python程序来解决复杂问题,从而提升大型语言模型的性能表现。

这种新方法不仅提高了处理任务的准确性和效率,还增加了操作的透明度——用户可以直观地看到并修改生成的代码。NLEP技术使得像GPT-4这样的高级模型能够以更高的精度完成更广泛的任务,同时也有望在不进行大规模再培训的情况下改善数据隐私和小型模型的性能。

增强大型语言模型的推理能力

大型语言模型(LLM),比如那些支持ChatGPT运作的,已经展现出在草拟法律摘要、分析客户评论情绪或翻译文档等方面的出色表现。然而,这些模型通常仅使用自然语言处理信息和回答问题,这限制了它们执行涉及数字或符号推理任务的能力。

例如,虽然一个LLM可能记住并背诵近期美国总统及其生日的信息,但当被问及“1950年之后当选的美国总统中,哪些是在星期三出生的?”时(正确答案是吉米·卡特),同一模型可能就无法给出正确答案。

通过NLEP提升模型功能

来自麻省理工学院及其他机构的研究者提出了一种新技术,使大型语言模型通过生成程序来处理自然语言、数学、数据分析以及符号推理等任务。这一方法,被称为自然语言嵌入式程序(NLEPs),它引导语言模型创建并运行Python程序以解决用户查询,并将解决方案以自然语言形式输出。

准确性与透明度的提升

研究发现,采用NLEP可以使大型语言模型在广泛的推理任务中实现更高的准确性,并且这种方法具有通用性,意味着一个NLEP提示可以适用于多个任务。此外,由于提高了透明度,用户可以审查程序代码,理解模型是如何对查询进行推理的,并在模型提供错误答案时对程序进行修正。

“我们希望AI能以透明且可信赖的方式执行复杂推理。尽管还有很长的路要走,但将编程能力和自然语言能力结合到大型语言模型中,已经证明是朝着未来迈出的重要一步。人们可以完全了解和信任其AI模型内部发生的事情。” ——罗红音(音译)博士,麻省理工学院博士后,NLEP论文的共同主要作者如是说。

与罗教授一同撰写论文的还包括香港中文大学的研究生张天华(音译)、北京大学本科生葛佳欣;Yoon Kim,麻省理工学院电气工程与计算机科学系助理教授,计算机科学与人工智能实验室(CSAIL)成员;资深作者James>

NLEP的设计与运行机制

许多流行的大型语言模型通过预测给定一些自然语言输入后的下一个单词或标记来运行。尽管如GPT-4这类模型可以被用来编写程序,但它们将程序嵌入自然语言中,这可能导致程序推理或结果出错。

对于NLEP,麻省理工学院的研究团队采取了相反的策略。他们引导模型完全用Python代码生成一个详细的程序,然后将必要的自然语言嵌入程序中。

NLEP是一个解决问题的模板,包含四个步骤:首先,模型调用完成任务所需的包或函数;第二步,导入任务所需知识的自然语言表示(如美国总统的生日列表);第三步,模型实现计算答案的函数;最后一步,如有需要,将结果以带有自动数据可视化的自然语言形式输出。

“它就像个数字计算器,只要程序正确,总能给出正确的计算结果。”——罗教授说明。

用户可以很容易地检查程序并直接修复代码中的任何错误,而无需重新运行整个模型来排查故障。

此方法相比其他方法也显示出更高的效率。如果用户有多个类似问题,他们可以生成一个核心程序,然后替换某些变量,而无需重复运行模型。

为了促使模型生成NLEP,研究人员向它提供了一个编写Python程序的总体指令,提供了两个NLEP示例(一个涉及数学,另一个涉及自然语言处理),以及一个测试问题。

“通常情况下,人们在进行这种少数提示时仍需为每个任务设计提示。我们发现,我们可以用一个提示完成许多任务,因为它不是一个教LLM解决一个问题的提示,而是教LLM通过编写一个程序来解决众多问题的提示。”

麻省理工学院-IBM沃森人工智能实验室的首席科学家Leonid Karlinsky表示:“让语言模型进行代码推理,为工具使用、输出验证、对模型功能和思维模式的更结构化理解提供了诸多机会。”

“这里没有魔法”

在使用GPT-4解决一系列符号推理任务(如追踪打乱的物体或玩24点游戏)以及指令遵循和文本分类任务时,NLEPs的准确率超过了90%。与特定任务提示的方法相比,研究人员发现NLEP的准确率高出30%,与开源LLM相比也有显著改进。

除了提高大型语言模型的准确性外,NLEP还可以改善数据隐私。由于NLEP程序在本地运行,敏感的用户数据不需要发送给OpenAI或谷歌等公司进行处理。

此外,NLEP可以使小型语言模型更好地执行任务,无需为特定任务重新训练模型,这可能是一个非常昂贵的过程。

“这里没有魔法。我们并没有使用更昂贵或更花哨的语言模型。我们所做的就是使用程序生成而非自然语言生成,这使得模型的表现更佳。”——罗教授强调。

然而,NLEP依赖于模型的程序生成能力,因此该技术不适用于在有限数据集上训练的较小模型。在未来,研究人员计划探索可以使更小的语言模型产生更有效NLEP的方法。此外,他们希望研究提示变量对NLEP的影响,以增强模型推理过程的鲁棒性。

友情提示

本站部分转载文章,皆来自互联网,仅供参考及分享,并不用于任何商业用途;版权归原作者所有,如涉及作品内容、版权和其他问题,请与本网联系,我们将在第一时间删除内容!

联系邮箱:1042463605@qq.com