PP电子的官方网站具体来说,大模型自己设计的提示词在 Big-Bench Hard 数据集上最高提升 50%。
并且不止提示词设计这一个任务,在论文中还测试了大模型在线性回归和旅行商问题这些经典优化任务上的能力。
优化问题无处不在,基于导数和梯度的算法是强大的工具,但现实应用中也经常遇到梯度不适用的情况。
为解决这个问题,团队开发了新方法 OPRO,也就是通过提示词优化(Optimization byPROmpting)。
不是形式化定义优化问题然后用程序求解,而是用自然语言描述优化问题,并要求大模型生成新的解决方案。
每一步优化中,以之前生成的解决方案和评分作为输入,大模型生成新的方案并评分,再将其添加到提示词中,供下一步优化使用。
但这次在谷歌系 PaLM 2 和 Bard 上,APE 版本作为基线就还不如人类版本。
OPRO 方法设计出来的新提示词中,“深呼吸”和“拆解这个问题”对 PaLM 来说效果最好。
对 text-bison 版的 Bard 大模型来说,则更倾向于详细的提示词。
仅仅通过提示,大模型就能找到不错的解决方案,有时甚至匹敌或超过手动设计的启发式算法。
但团队也认为大模型还无法替代传统基于梯度的优化算法,当问题规模较大(如节点数量较多的旅行商问题)时,OPRO 方法表现就不好。
对于未来改进方向,团队提出当前大模型还无法有效利错误案例,仅提供错误案例无法让大模型捕捉捕捉到错误的原因。
一个有前景的方向是结合关于错误案例的更丰富的反馈,并总结优化轨迹中高质量和低质量生成提示的关键特征差异。
这些信息可能帮助优化器模型更高效地改进过去生成的提示,并可能进一步减少提示优化所需的样本数量。
论文来自谷歌与 DeepMind 合并后的部门,但作者以原谷歌大脑团队为主,包括 Quoc Le、周登勇。
共同一作为康奈尔大学博士毕业的复旦校友 Chengrun Yang,和 UC 伯克利博士毕业的上交大校友陈昕昀。
团队还在论文中给出了大量实验中得到的最优提示词,包括电影推荐、恶搞电影名字等实用场景,有需要的小伙伴可自取。
广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。PP电子 游戏
Copyright © 2019-2023 PP电子「中国」平台网站 版权所有 备案号:鄂ICP备12015236号