您所在的位置:首页 - 音乐 - 正文音乐
瓶颈,编程为什么这么强?新研究掏出秘密武器
镓烨
2024-09-12
【音乐】
931人已围观
摘要机器之心报道编辑:Panda、佳琪近段时间,AI编程工具Cursor的风头可说是一时无两,其表现卓越、性能强大。近日,Cursor一位重要研究者参与的一篇相关论文发布了,其中提出了一种方法,可通过搜索自然语言的规划来提升Claude3.5Sonnet等LLM的代码生成能力。具体来说,他们提出的方法名为PlanSearch(规划搜索)。主导团队是ScaleAI,本文一作为ScaleAI研究者EvanWang。二作FedericoCassano现已加入如今炙手可热的AI编程工具公司Cursor。他曾
机器之心报道
编辑:Panda、佳琪
近段时间,AI编程工具Cursor的风头可说是一时无两,其表现卓越、性能强大。近日,Cursor一位重要研究者参与的一篇相关论文发布了,其中提出了一种方法,可通过搜索自然语言的规划来提升Claude3.5Sonnet等LLM的代码生成能力。
具体来说,他们提出的方法名为PlanSearch(规划搜索)。主导团队是ScaleAI,本文一作为ScaleAI研究者EvanWang。二作FedericoCassano现已加入如今炙手可热的AI编程工具公司Cursor。他曾参与创立了GammaTauAI项目,该项目的目标是实现AI编程的民主化。此外,他也是BigCode项目的活跃贡献者,该项目负责开发用于AI编程的StarCoder系列大型语言模型。
论文开篇,该团队提到强化学习教父Sutton的经典文章《TheBitterLesson(苦涩的教训)》揭示的ScalingLaw的两大核心原则:学习和搜索。随着大型语言模型的迅猛发展,人们对于「学习」是否有效的疑虑已基本消除。然而,在传统机器学习领域中表现出色的「搜索」策略,将如何拓展大模型的能力,还是个未知数。
目前阻碍模型应用「搜索」的主要难题是模型给出的答案过于雷同,缺乏多样性。这可能是由于在预训练的基础上,模型会在特定的数据集上进行进一步的训练,以适应特定的应用场景或任务所导致的。
经过大量实证研究证明,许多大语言模型往往会被优化,以产生一个正确的答案。比如下图中所示,DeepSeek-Coder-V2-Lite-Base的表现不如其基础模型,但随着回答的多样性的减少,情况发生了逆转。多个模型都存在这种现象:经过特别指令调整的模型在只生成一个答案的情况下(pass@1)通常比基础模型表现得好很多,但当需要生成多个答案时,这种优势就不明显了——在某些情况下,甚至完全相反。
模型在生成答案时缺乏多样性,这对于搜索的效果非常不利。特别是在极端情况,比如采用「贪心解码」,模型给出的答案会非常相似,因为它们是从模型中重复抽取的。这种情况下,即使模型花费更多推理时间,也难以获得更好的搜索结果。
通行的大模型排行榜,例如例如LMSYSChatbotArena、LiveCodeBench、OpenLLMLeaderboard,很难反应模型在回答多样性方面的不足。这些排行榜主要关注模型在单一样本上的通过率,没有考虑到模型在更广泛场景下的表现。由于模型需要很快地响应用户的需求,单一样本的回答质量是衡量一个聊天机器人的关键指标,但这一指标并不足以全面评估模型在允许更充裕推理时间时的综合性能。
针对以上问题,研究人员对如何在大语言模型推理过程中提高回答的多样性进行了探索。对此,他们提出了假设,想让模型输出的答案更加丰富,需要在自然语言的概念或想法的空间内进行搜索。
为了验证这个假设,研究人员进行了一系列实验。首先,研究人员发现,如果给模型一些简单的草图(这些草图是从已经能解决问题的代码中「回译」而来),模型就能根据这些草图写出正确的最终程序。其次,研究人员还发现,如果让模型在尝试解决问题之前,先在LiveCodeBench上想出一些点子(这个过程叫做IdeaSearch/思路搜索),然后看看模型能不能用这些点子解决问题。
结果发现,模型要么完全解决不了问题(准确度为0%),要么就能完美解决问题(准确度为100%)。这表明当模型尝试解决一个问题时,成功与否主要取决于它最初的那个想法(草图)对不对。
根据这两个实验的结果,研究人员认为一种提升LLM代码搜索能力的自然方法是:搜索正确的思路,然后实现它!
于是,规划搜索(PlanSearch)方法诞生了。
不同于之前的搜索方法(通常是搜索单个token、代码行甚至整个程序)不一样,规划搜索是搜索解决当前问题的可能规划。这里,规划(plan)的定义是:有助于解决某个特定问题的高层级观察和草案的集合。
为了生成新规划,规划搜索会生成大量有关该问题的观察,然后再将这些观察组合成用于解决问题的候选规划。
这个操作需要对生成的观察的每个可能子集都执行,以最大化地鼓励在思路空间中进行探索,之后再将结果转译成最终的代码解决方案。
该团队的实验发现,在推理时有效使用计算方面,规划搜索方法优于标准的重复采样方法以及直接搜索思路的方法。
方法

在这项研究中,该团队探索了多种不同方法,包括重复采样(RepeatedSampling)、思路搜索(IdeaSearch)以及新提出的规划搜索(PlanSearch)。其中前两种方法顾名思义,比较直观,这里我们重点关注新提出的规划搜索。
该团队观察到,虽然重复采样和思路搜索能成功地提升基准评测的结果。但在很多案例中,多次提示(pass@k)(即使在温度设置很高)只会导致输出代码发生很小的变化,瓶颈,编程为什么这么强?新研究掏出秘密武器这些变化只会改变一些小方面,但无法改善思路中的缺陷。
下面来看具体的规划搜索过程:
1.通过提示来获取观察
首先假设有一个问题陈述P,通过向LLM发送提示词来获取对该问题的「观察」/提示。这里将这些观察记为O^1_i,其中i∈{1,...,n_1};这是因为它们是一阶观察。通常而言,n_1的数量级在3到6之间。具体数量取决于LLM输出。为了利用这些观察结果来启发未来的思路,该团队创建了O^1_i的集合S^1的且大小至多为2的所有子集。其中每个子集都是观察结果的一个组合。这里将每个子集记为C^1_i,其中i∈{1,...,l_1},而
2.推导新的观察
这样一来,所有观察结果的集合都可以定义为深度为1的有向树,其中根节点为P,并且每个C^1_i都有一条从P指向C^1_i的边。
然后,在每个叶节点C^1_i上重复上一步流程,从而生成一个二阶观察集S^2。为了得到二阶观察,该团队的做法是在给模型的提示词中包含原始问题P和C^1_i中包含的所有观察——这些观察被构造为解决P所必需的原始观察。然后再提示LLM,让其使用/合并在C^1_i中找到的观察来得出新的观察。
这个过程可以继续延伸,但由于计算限制,这里在深度为2时对该树进行了截断操作。
3.将观察变成代码
在得到了观察之后,必须先将它们实现成具体思路,然后再将它们转译成代码。
具体来说,对于每个叶节点,将所有观察以及原始问题P放入提示词来调用LLM,以便生成问题P的自然语言解决方案。为了提升多样性,对于每个生成的思路,该团队通过假设该思路是错误的来生成一个额外的思路,并要求LLM给出批评/反馈,从而将提议的思路翻倍了。
然后,再将这些自然语言解决方案转译成伪代码;再把这些伪代码转译成真正的Python代码。
实验
实验采用了三个评估基准:MBPP 、HumanEval 和LiveCodeBench。参数设置等细节请参阅原论文。
至于结果,该团队报告了三种方法的结果,包括重复采样、思路搜索和规划搜索,见表1、图1和图5。
可以看到,规划搜索和思路搜索的表现明显优于基础的采样方法,其中规划搜索方法在所有实验方法和模型上都取得了最佳分数。
图7、8、9展示了在每个数据集上的详细pass@k结果。
可以看到,在Claude3.5Sonnet上使用规划搜索方法时,在LiveCodeBench基准上得到了当前最佳的pass@200性能:77.0%。该表现优于不使用搜索时获得的最佳分数(pass@1=41.4%)以及标准的best-of-n采样方法的分数(pass@200=60.6%)。
此外,使用小型模型(GPT-4o-mini)执行规划搜索时,仅仅4次尝试后就能胜过未使用搜索增强的大型模型。这佐证了近期一些使用小模型进行搜索的有效性的研究成果。
在另外两个编程基准HumanEval 和MBPP 上,规划搜索也能带来类似的提升。
通过研究特定模型的差异,该团队注意到pass@k曲线所呈现的趋势在所有模型中并不统一;事实上,每条曲线看起都不一样。该团队猜想部分原因是思路多样性的变化。
该团队还得到了一个有趣的观察结果:规划搜索并不利于某些模型的pass@1指标,其中最明显的是Sonnet3.5在LiveCodeBench上的表现——这是实验中表现最好的组合。
该团队基于直觉给出了解释:提升思路多样性可能会降低生成任何特定思路的概率,同时增加在给定池中至少有一个正确思路的几率。因此,pass@1可能会略低于平常,但也正是由于这个原因,pass@k指标可能会优于缺乏多样性的思路池。
另外,表1和图1给出了在尝试/完成上经过归一化的主要结果。其中针对每个问题,每种搜索方法都可以尝试k次。
最后,该团队还发现,在思路空间中观察到的多样性可用于预测搜索性能,这可通过模型/方法的pass@1与其pass@200之间的相对改进计算得到,如图6所示。
虽然熵是最常见的多样性度量是,但由于种种原因,熵不足以精确衡量LLM的多样性。
因此,该团队测量多样性的做法是在所有生成的程序上使用简单的配对策略,将其置于思路空间中进行计算。具体算法请访问原论文。
Tags: 瓶颈编程为什么这么强?新研究掏出秘密武器
版权声明: 感谢您对【奚诗百科网】网站平台的认可,无特别说明,本站所有文章均归【奚诗百科网】平台所有,转载请说明文章出处“来源【奚诗百科网】”。 https://www.sptgyg.com/post/15490.html
上一篇: 小沈阳,舞台上的多面传奇
最近发表
- 探索北京,30个免费景点全攻略
- 开启你的学术之旅,研究生择校咨询的艺术与科学
- 探索北京,免费景点的宝藏之旅
- 华为云账号登录官网,一站式指南
- 三星Galaxy S7 Edge,2016年的旗舰手机及其历史价值
- 985工程大学排名名单,中国顶尖学府的荣耀与挑战
- 华为荣耀10青春版,青春的风采,一图尽览
- 考研路上的钱包指南,预算大揭秘
- 华为MatePad Pro,您的智能生活新伙伴
- 时光回响,一千首经典老歌曲大全
- 考研路上的灯塔,揭秘考研辅导机构的神奇力量
- 穿越时空的旋律,一千首经典老歌曲的不朽魅力
- 旋律中的世界,全球著名音乐剧的魅力与影响
- 三星手机图片大全,视觉盛宴,科技与美学的结晶
- 旋律中的世界,探索全球著名音乐剧的魅力
- 三星W系列手机,高端奢华与卓越性能的完美结合
- 函授硕士研究生报考条件,开启你的远程学习之旅
- 英文经典音乐剧,穿越时空的旋律与故事
- 福建省美术学院排名大揭秘,艺术殿堂的十座灯塔
- 探索京城,北京免费景点全攻略
- 四书五经,古典智慧的宝库
- 索尼摄像机使用指南,轻松掌握拍摄技巧
- 考研路上的灯塔,为何选择多样的考研课程至关重要
- 旋律与梦想,探索著名英语音乐剧的魅力与影响
- 电影中的音乐之旅,西方音乐电影的魅力与启示
- 深入了解考研课程班的费用,一个全面的指南
- 探索北京,揭秘免门票的宝藏景区
- 考研课程费用解析,如何判断合适的投资
- 艺术之门,揭秘美术公办二本最低分数线的秘密
- 探索北京,十大必去景点深度游
- 舞动经典,探索歌舞剧电影的魅力
- 戴尔最新款笔记本型号,性能、特点与购买指南
- 深入解析,考研课程费用大揭秘
- 揭秘考研课程费用,如何辨别正规课程,避免经济与时间的双重损失
- 荣耀Magic系统,智能生活的新篇章
- 电影之旅,探索英美经典电影的魅力
- 考研路上的金钥匙,揭秘考研课程的价值与成本
- 探索北京,十大免费景点排名及深度体验指南
- 探索云端世界,华为云账号登录官网的便捷之旅
- 舞动梦想,歌唱生活,美国歌舞剧电影的魅力与影响
- 2023年十大名牌手机,科技与设计的巅峰对决
- 苹果与富士康的舞步,全球供应链中的合作与挑战
- 三星GTS3850,智能生活,触手可及
- 艺术之门,2023年美术学院录取分数线排名解析
- 探索北京,免费景点的宝藏之旅
- 探索金沙三宝,揭开神秘面纱,发现生活的艺术
- 三星2016年的辉煌时刻,价格与价值的双重奏
- 音乐剧的璀璨明珠,三宝作品全解析
- 考研课程价格表,透明化选择,助力你的考研之路
- 探索文学的宝库,文学类书籍类型大全