北京欢迎你网站制作公司,深圳福田地址随便来一个,海外最开放的浏览器,商丘市建设本文是LLM系列的文章#xff0c;针对《Black-Box Tuning for Language-Model-as-a-Service》的翻译。 语义模型即服务的黑盒调整 摘要1 引言2 背景3 方法4 实验5 讨论与未来工作 摘要
GPT-3等超大的预训练语言模型#xff08;PTM#xff09;通常作为服务发布。它允许用户设…本文是LLM系列的文章针对《Black-Box Tuning for Language-Model-as-a-Service》的翻译。 语义模型即服务的黑盒调整 摘要1 引言2 背景3 方法4 实验5 讨论与未来工作 摘要
GPT-3等超大的预训练语言模型PTM通常作为服务发布。它允许用户设计特定于任务的提示通过一些黑盒API查询PTM。在我们称之为Language-Model-a-ServiceLMaaS的这种情况下PTM的梯度通常不可用。我们是否可以通过仅访问模型推理API来优化任务提示本文提出了黑盒调整框架通过无导数优化来优化输入文本前的连续提示。我们不是在原始的高维提示空间中进行优化这对于传统的无导数优化来说是难以解决的而是在随机生成的子空间中执行优化因为大型PTM的本征维数较低。实验结果表明在少数标记样本上使用RoBERTa的黑匣子调整不仅在上下文学习中显著优于手动提示和GPT3而且超过了基于梯度的对应方法即提示调整和全模型调整。
1 引言
2 背景
3 方法
4 实验
5 讨论与未来工作
在本节中我们分别在1无导数优化和2基于提示的学习的背景下讨论我们提出的方法。通过与这两条研究线进行比较我们强调了未来可以改进这项工作的一些方向。 与以前的无导数方法的比较。我们提出的方法与之前通过随机嵌入解决高维无导数优化问题的工作框架相同。相反我们通过从均匀分布而不是正态分布采样来设置随机嵌入A并使用CMA-ES在生成的子空间中执行优化。在以前的工作中目标黑盒函数通常是合成函数其中只有少数维度可以影响函数值因此大多数维度都是严格无效的。在我们的现实世界场景中内在维度可以是近似的。在PTM的背景下对术语内在维度的更合适的替代可以是 ϵ \epsilon ϵ-有效维度。考虑到PTM的内在维度的松弛在未来的工作中应该探索更合适的方法如顺序随机嵌入和其他更先进的构建随机投影矩阵的方法。此外由随机投影生成的子空间可以是次优的。如Qin等人所示用多任务监督训练投影A可以产生更好、更小的子空间。此外较大的PTM通常具有较低的内在维度因此我们可以在较大的PTMs上使用较小的子空间和更有效的DFO算法如贝叶斯优化。 与以前基于提示的学习方法的比较。从基于提示的学习的角度来看我们的方法类似于提示调整其中只调整输入文本前的连续提示因此我们的方法还保留了高效服务和混合任务推理的优点。除了连续提示外我们还在输入文本中插入一些硬提示标记例如“It was[MASK]”这在以前的工作中以混合提示调整的名义被证明是有效的。与以前的基于提示的学习方法不同我们的提示调整不需要反向传播和梯度下降。考虑到我们使用的模板和标签词是手工制作的没有试错本文报告的性能只是一个下限。更先进的技术如提示工程、标签词工程、提示预训练和提示组合与这项工作正交因此可以进一步提高性能。为了简单起见我们不集成这些方法留待将来工作。