世界要闻：GPT-4等大模型迎来进化转折点：不只是使用，还会自己制作工具了

标题

您现在在的位置是：首页>商业资讯 > > 正文

世界要闻：GPT-4等大模型迎来进化转折点：不只是使用，还会自己制作工具了

商业新知网 2023-05-31 13:46:39

来源 | 机器之心

编辑| 杜伟、梓文

【导读】在人类的进化史中，制作和使用工具是关键的转折点。如今，在 Google Deepmind 等最新的研究中，大语言模型也具备了相似的能力，进化成了工具制作者。

我们知道，大语言模型（LLM）在广泛的 NLP 任务中已经表现出卓越的能力，甚至展现出能够实现通用人工智能某些方面的良好迹象。此外，与人类的智能进化类似，LLM 在最近的研究中被揭示出使用外部工具从而提升解决问题能力及效率的潜力。

(资料图片)

需要注意的是，这些工具使用方法的适用性很大程度程度上取决于是否有合适的工具。从人类进化的里程碑可以发现，人类进化的关键转折点是人类有能力制造工具来解决出现的困难。

受到制造工具对人类重要性的启发，在本文中，Google Deepmind、普林斯顿和斯坦福大学的研究者将这种「进化」的概念应用于 LLM 领域，进行了初步探索。他们提出了一个闭环框架，在这个框架中 LLM 作为工具制作者（LLMs As Tool Makers ，LATM），使其能够生成自己的可重新使用的工具来处理新任务。

论文地址：https://arxiv.org/pdf/2305.17126.pdf

该方法包括两个关键阶段:

工具制作：LLM 作为工具制作者，专门为给定的任务设计工具（作为 Python 函数实现）；

工具使用：另一个 LLM 作为工具使用者，它可以与工具制作者相同，应用工具来处理新的请求。

两阶段设计允许 LATM 在每个阶段将作业分配给最合适的 LLM。一方面，需要高度能力的工具制造过程可以分配给一个功能强大且资源密集型的模型 (例如 GPT-4)。另一方面，相对简单的使用工具过程，可以分配给轻量、经济高效的模型 (例如 GPT-3.5 Turbo)。这种方法不仅增强了 LLM 解决问题的能力，并能够显著降低处理一系列任务的平均计算成本。

LATM 的闭环框架。

由于工具制作过程只需要对给定的功能执行一次，因此生成的工具可以在不同的任务实例中反复使用。这种方法为处理复杂任务开拓了可扩展、成本高效的解决方案。例如，假定一个任务，用户要求 LLM 安排一个适合每个人的会议（例如在电子邮件对话中）。涉及复杂算术推理的任务对于像 GPT-3.5 Turbo 这样的轻量级模型来说是艰巨的挑战。相比之下，更强大的模型（例如 GPT-4）虽然推理成本要高得多，但是能够找到正确的解决方案。

LATM 能够克服这种困难，是因为它将强大但昂贵的模型当作工具制作者，并将工具传递给工具使用者 —— 经济型模型进行使用。工具制作完成后，轻量级工具使用者可以用它来高效、高性能地解决任务。

本文的实验能够验证这种方法在复杂的推理任务上（包括几个具有挑战性的 Big-Bench 任务）的有效性。结果表明，LATM 可以达到与资源密集型模型相当的性能，同时具有更高的成本效益。这种新颖的 LLM 方法，模仿了人类在创建和使用工具方面的进化飞跃，为开辟使用 LLM 生成的工具的社区提供了无限可能。

方法概览：LLM as Tool Maker (LATM)

制作新工具并重复使用

在 LATM 范式中，主要过程可以分为两个阶段：工具制作和工具使用。每个阶段都利用不同类型的大语言模型（LLM）来平衡性能和成本效率。

对于工具制作（Tool Making），该阶段采用强大但成本更高昂的模型（例如 GPT-4）作为工具制作者。工具制作者通过特定任务的一些演示来创建通用和可复用的工具（作为 Python 函数实现）。该阶段又可以进一步分为以下三个子阶段：

首先是工具提出（Tool Proposing）。在这一阶段，工具制作者尝试生成一个 Python 函数，用以解决给定任务的演示。该过程遵循「实例编程」（PbE）范式，其中提供了几个具体的演示，并且需要模型编写产生演示行为的程序。在实验中，研究者在该阶段使用了 3 个演示。如果提出的工具无法执行或者遇到错误，工具制作者会将错误信息附加到历史记录中并进行另一次尝试。

其次是工具验证（Tool Verification）。在这一阶段，工具制作者使用验证样本生成单元测试，然后在提出的工具中执行这些测试。研究者在实验中使用了 3 个验证样本。如果工具未能通过任何这些测试，工具制作者会在其历史记录中记录下错误，并尝试在单元测试中纠正问题（此过程只会纠正单元测试部分的函数调用，而不会纠正功能）。LLM 的自调试能力已在最近的研究中得到有效证明，然而在 LATM pipeline 中，验证阶段的用途稍有不同。该阶段有两个关键作用：一是提供示例来演示如何将自然语言问题转换为函数调用；二是验证工具的可靠性，使整个过程充分自动化。

最后是工具封装（Tool Wrapping）。如果执行或验证失败超过了预设阈值，则工具封装阶段被视为失败。相反，工具制作者准备好为工具使用者提供封装后的工具。该步骤涉及封装函数代码，并演示如何将一个任务转换为函数调用。这些演示从工具验证步骤中提取，从而将问题转换为单元测试。随后最终产品可供工具使用者使用。

完成了工具制作，接下来是工具使用（Tool Using）了。该阶段涉及一个轻量级且具有成本效益的模型（例如 GPT-3.5 Turbo），用作工具使用者。工具使用者的角色是利用验证后的工具来解决任务的不同实例。该阶段的 prompt 是封装工具，它包含了解决任务的函数和如何将任务查询转换为函数调用的演示。通过演示，工具使用者能够以一种上下文学习的方式来生成需要的函数调用，然后执行函数调用以解决任务。或者可以应用后处理来转换输出以匹配任务所需的格式，例如多项选择题的选项。

总的来说，工具制作阶段包括工具提出、验证和封装，每类任务只需执行一次，然后可以将生成的工具重复用于该任务的所有实例。与单独使用强大的模型相比，这使得 LATM 的效率和成本效益显著增加。此外，Python 函数时一种更通用的思维链，增强了整体效用和灵活性，因此可用于解决涉及算法推理能力的问题。

LATM 的 pipeline。

下图 3 展示了方法的具体示例，说明工具制作者如何通过生成工具（Python 函数）来解决 BigBench 的逻辑推导任务，以及工具使用者如何使用工具。

使用 Dispatcher 处理流数据

在真实世界场景中，任务实例通常按顺序出现。为了适应这种数据流，研究者引入了第三个 LLM 即 dispatcher，它确定是让工具使用者还是工具制作者参与每个传入的任务。dispatcher 模块与现有工作中的工具选择功能有相似之处，然后在识别现有工具无法解决的新任务以及让工具制作者为这些任务生成新工具方面具有独到的能力。

具体而言，dispatcher 保留了工具制作者产生的现有工具的记录。当接收到新的任务实例时，dispatcher 首先确定是否有适合手头任务的工具。如果有合适的工具，则将实例确定为新任务，并利用强大的模型解决该实例，甚至可以调用人工标注器。随后缓存新任务的实例，直到缓存实例足够工具制作者制作新工具。具体的工作流程如下图 4 所示。

实验结果

本文在来自不同领域的 6 个数据集上评估了所提出的方法，包括 Logical Deduction、Tracking Shuffled Objects、Dyck Language、Word Sorting、 Chinese Remainder Theorem 和 Scheduling Meeting。

在工具制作阶段，研究者将温度参数设置为 0.3，以在生成过程中引入随机性，并在必要时允许重试。在这个阶段，实验使用了带有 ChatCompletion API 的 GPT-4 和 GPT-3.5 Turbo 模型进行，并不断将响应附加进聊天记录当中，来创造交互体验。

在工具使用阶段，LLM API 调用仅进行一次，并使用标准完成 API 对 gpt -3 型模型进行消融研究。当使用工具时，温度参数始终为设置为 0.0。在工具提出和工具验证阶段的最大重试次数设置为 3。

工具制作的有效性

据实验观察，GPT-4 作为工具制作者时，常能设计出合适的算法来解决任务。例如下表 1 中，工具制作者搜索所有排列，并选择满足给定约束的正确排列来创建代码，解决逻辑演绎任务。在实验中，工具验证阶段主要用于演示如何将自然语言问题转换为函数调用。在 60 次试验中，只观察到 2 例工具制作者可以在错误消息的指导下纠正其错误。

LATM 提升轻量级 LLM 的性能

下表 2 比较了思维链提示与 LATM 的性能。实验使用 GPT-4 作为工具制作者为这六项任务生成工具，并评估 GPT-3.5 Turbo 和 GPT-4 作为工具使用者的性能。结果表明，在该工具的帮助下，像 GPT-3.5 Turbo 这样的轻量级模型可以达到与 GPT-4 相当的性能，显著优于 CoT 提示。此外与使用 GPT-4 相比，使用 GPT-3.5 Turbo 的平均成本要低得多。

这突出了 LATM 在增强轻量级模型的性能方面的有效性。因此，使用 LATM 相较于安规的模型来说，能够降低成本。

将 LATM 扩展为具有混合任务的流设置

将 LATM 扩展为流设置后，流设置中不同任务的实例可以实时到达。在这种情况下，需要另一个模型调度程序，来确定实例所属的任务。实验使用 GPT-3.5 Turbo 作为调度器，并评估其能力:

识别现有工具来解决传入实例；

为未知任务的实例请求工具制作。

结果表明，调度程序可以有效地识别现有的工具，并为未知任务请求工具制作，但它不会大幅降低性能。这表明 LATM 可以平滑地扩展到具有混合任务的流设置。

消融实验

首先是工具制作语言模型所需的能力。研究者调研了工具制作阶段所用语言模型的能力要求。一般来说，更强大且成本更高昂的模型越能达到目的，这是因为该阶段中每个任务只执行一次，高准确度对于有效地将工具传递给更小的模型至关重要。

其次是工具使用语言模型所需的能力。研究者调研了工具使用模型的能力要求，具体结果如下表 4 所示，GPT-3.5 Turbo 在所有测试的模型中实现了最佳的性能与成本平衡。

最后是思维链（CoT）作为工具没有帮助。除了 LATM 之外，研究者还调研了是否可以通过重用更大模型和更小模型（类似于 LATM pipeline）的思维链来提高性能。具体结果如下表 5 所示，使用大模型的 CoT 与人类编写的 CoT 具有相似甚至更差的性能，这要比 LATM 差得多。

标签：

上一篇
追梦：看到绿军球迷难受很开心，凯尔特人突然不会打球了_独家焦点

下一篇
追梦：看到绿军球迷难受很开心，凯尔特人突然不会打球了_独家焦点

最新更新

云南省创业担保贷款再加力鼓励地方加大支持力度

黄山提升政府采购透明度助力实体经济持续健康稳定发展

1-2月黄山新签“双招双引”项目103个总投资额139.7亿元

池州海关共签发RCEP原产地证书22份签证金额92.7万美元

宿州泗县深入推进文旅融合发展擦亮城市品牌

河北工业生产平稳开局固定资产投资较快增长

昆明西山区深入实施人才强区战略建立健全招商招才引资并轨新模式

2月唐山新建商品住宅销售价格与上月持平同比下降0.8%

去年河北电子信息产业实现主营业务收入2367.7亿元同比增长22.4%

绥化望奎以工业化思维为引领推动肉类加工制造产业腾飞

绥化市监局推出多项举措大力促进有机产品产业发展

半路出家无心插柳杭州西湖区“菌菇宝宝”变废为宝

温州鹿城区藤桥主打藤桥熏鸡近两年销售额年均增长20%以上

1-2月安徽限额以上消费品零售额1030.4亿元同比增长10.4%

2021年合肥市茶园面积13.6万亩产值176350万元

淡季不忘引流京郊民宿市场将很快迎来回暖

郴州安仁文旅项目集中开工总投资1000万元

江苏服务业继续保持发展强劲势头为高质量发展提供有力支撑

黄山休宁经开区摸排基础设施项目17个计划总投资29709万元

前两个月宣城出口31亿元增长34.4%

滁州凤阳2021年共接待游客225万人次旅游综合收入20.25亿元

1-2月宿州市民间投资同比增长19.2% 居全省第3位

宿州严格审核把关抢抓发行地方政府专项债券政策机遇

1-2月亳州市进出口总值5.5亿元同比下降17.4%

合肥：弘扬茶文化初步形成一条生态发展之路

合肥：建成“数字中国”领先城市推进城市数字化转型

甘肃再续“艾黎情”：探职业教育德技并修

【城市守望者】致敬抗“疫”一线的“拆弹专家”

浙江绍兴越城区核酸检测结果公布除1例阳性外其余均为阴性

内地首例奥密克戎变异株感染者身体状况如何？来自哪里？专家解读→

对变异病毒已有准备！关于中国新冠药物，钟南山发声→

江苏睢宁小网格大担当织就乡村振兴“幸福网”

改造老旧小区共享幸福生活

天津静海：群众在哪里，文明实践就延伸到哪里

齐齐哈尔：初步判断疫情感染来源为接触新冠病毒污染环境和物品

重庆大竹林派出所副所长因对群众态度简单粗暴被停职

黑龙江讷河病例感染源初步判断为新冠病毒污染的环境和物品

致敬2021

浙江瑞安民警捐献造血干细胞：14年前的心愿终将如愿

“考研房”涨价离谱律师:借机宰客有违市场伦理

广州白云机场：14天内有东莞旅居史的旅客须凭48小时核酸阴性证明乘机

浙江绍兴本轮疫情已报告确诊病例145例无症状感染者1例

福建龙岩一男子和前妻斗气扛着126斤硬币到法院“还钱”

重庆这座立交酷似“悟空” 走红设计师揭秘(图)

青海警方破获特大电诈案涉案流水高达1.7亿

云南新增境外输入确诊病例3例

黑龙江讷河市5名核酸阳性人员流调溯源：接触被新冠病毒污染的环境和物品

男子爱上女主播假扮女主播闺蜜教其他男粉丝刷单

广西三市警方联手破获毒品案全链条摧毁跨境贩毒团伙

广东东莞发现2例无症状感染者，部分镇今起全员筛查

从百二秦关到闻道凯旋一个殉职医生最后的朋友圈

浙江发补充说明：三地铁路出行政策随风险等级同步调整

内蒙古新增本土确诊病例5例均在呼伦贝尔满洲里市

陕西新增本土确诊病例1例系隔离酒店工作人员

31省份新增新冠肺炎确诊病例76例其中本土51例

浙江新增新冠肺炎确诊病例45例其中本土44例

技能就是财富技工也是人才

黑龙江新增本土确诊病例1例、本土无症状感染者4例

冷空气“调休”！我国大部陆续迎回暖中东部雨雪稀少

华北黄淮等地大气扩散条件转差冷空气将影响中东部

别误读了野猪或将不再是“三有”动物

您的ETC已到期？当心这个诈骗短信！

对回家的“宝贝”少一些关注，也是一种帮助

升温！北京今日阳光在线最高气温将升至8℃

那年今日 | 一张漫画涨知识之12月14日

40岁男子一觉醒来突然听不见了原因是……

本年度星空压轴大赏上演双子座流星雨观赏地图来了

广东东莞大朗镇报告2例新冠肺炎无症状感染者

商丘4885份被盗出生证去哪了？10年“悬案”引关注

浙江海宁警方通报国家公祭日女子穿和服逛街

厨艺不精调料凑？懒人调料：年轻人的“下厨神器”

“您的ETC已到期？”警方提醒：当心这个诈骗短信

“网红”局长的热度自述：走红后我就没有周末了

寻回被拐10年的儿子后又送走儿子：害我没家了

小城里的三张面孔和警号301137

倡导“就地过年”，需因地制宜科学防疫

别用“入乡随俗”为星巴克找借口

北京地铁14号线年底全线贯通运营

天津市从入境人员中检出奥密克戎变异株

“外滩活地图”黄俊：一个不想出圈的段子手交警

寻找一双儿女的25年

无锡市场监管部门责成星巴克涉事门店停业整改

海岛警事：为了一座岛和2900平方公里的海

北京民警宏福苑抗疫26天：“今夜我和雪花一起出发”

星巴克的“金标准”缘何败给了“潜规则”

患者被低价药“惊呆”的场面应该更多些

影视剧“超前点评”不止是“低级错误”

“南昌鹦鹉案”下发不起诉决定书网店上架费氏牡丹鹦鹉被拒

河南商丘4885份出生医学证明被盗始末追踪

绍兴市病例62-109活动轨迹公布

12月7日以来，杭州累计报告新冠肺炎确诊病例19例

浙江绍兴新增确诊病例37例上虞区占36例

河南高院对张成功案作出死刑判决

四川一滑雪场停电游客被困索道官方回应

浙江绍兴越城区新增1例新冠肺炎确诊病例当地对防控区域划分进行调整

中国内地首次检出新冠病毒奥密克戎变异株

知网除了涉及著作权纠纷，是否涉嫌违反《反垄断法》？

浙江绍兴越城区新增1例新冠肺炎确诊病例

四川眉山千箱柑橘送往呼和浩特市抗疫一线

两名青年男女探险三亚落笔洞遗址被困沼泽消防成功救援

广告

商场品牌

企业信息

今年惠州集中拍地再次成交29.9亿最新出让方式引来多方关注

长治潞城区共谋划重点项目159个总投资621.96亿元

2月山西工业生产者购进价格环比下降0.3% 同比上涨19.7%

山西：立足历史文化资源优势全面推动国家全域旅游示范区创建

来华留学生游梵净山感知贵州多彩文化

战“疫”时刻：浙江疫情下的“特殊”二三事

新疆北部有降雪湖北、湖南等地出现大雾

第三届国际白鹤论坛举办中外专家聚焦生物多样性保护

广告

商业资讯

世界要闻：GPT-4等大模型迎来进化转折点：不只是使用，还会自己制作工具了

追梦：看到绿军球迷难受很开心，凯尔特人突然不会打球了_独家焦点

郑州再次入选新一线城市商业魅力前十名

“创贷+”为山东青年创业者解除融资贵难题

全球焦点！交易性金融资产手续费_交易性金融资产的入账价值包括什么

环球时讯：一起打打黄金的主意

天天观速讯丨三年前的iPhone为何还能打今天的安卓旗舰？原因揭秘

关闭windows搜索功能的方法（如何关闭windows搜索）

哈尔滨北方森林动物园百只动物宝宝“六一”与游客见面环球快看点

爱来的刚好的演员是谁演的(爱来得刚好全部演员)-世界今热点

2023朝阳小升初一批次派位招生计划发布！多所学校发生变化！(含民办校)|全球观察

5月31日生意社丙酮基准价为5612.50元/吨|视讯

6月1日起海南婚姻登记可“跨省通办”

接地气！裕华法院将法庭“搬”到老百姓的家门口

当前通讯！多部门联动护航灵活就业举措上新

设计造型颇为激进福特发布Mustang RTR Spec 2官图

同事欠钱不还找公司拿员工个人信息起诉可以吗环球讯息

【全球时快讯】他们，生来顽强

“全家福”再上新_热消息

环球视讯！东方财富收警示函网络安全事件发生后未及时报告

世界要闻：GPT-4等大模型迎来进化转折点：不只是使用，还会自己制作工具了

【导读】 在人类的进化史中，制作和使用工具是关键的转折点。如今，在 Google Deepmind 等最新的研究中，大语言模型也具备了相似的能力，进化成了工具制作者。

追梦：看到绿军球迷难受很开心，凯尔特人突然不会打球了_独家焦点

追梦：看到绿军球迷难受很开心，凯尔特人突然不会打球了_独家焦点

【导读】在人类的进化史中，制作和使用工具是关键的转折点。如今，在 Google Deepmind 等最新的研究中，大语言模型也具备了相似的能力，进化成了工具制作者。