OptFormer:基于Transformer的超参数优化框架

谷歌AI的研究人员最近推出了一个名为OptFormer的基于文本的Transformer超参数优化(HPO)框架,该框架提供了一个统一的端到端接口,用于在从野外收集的大量调优数据上联合学习策略和函数先验,例如谷歌Vizier数据库,这是世界上最大的HPO数据集之一。实验表明,OptFormer能够模仿至少七种不同的HPO算法,并且可以通过其函数不确定性估计进一步改进。与高斯过程相比,OptFormer还学习了一个稳健的超参数响应函数的先验分布,使其能够提供更准确和校准良好的预测。这项工作为未来扩展训练基于Transformer的模型作为广泛的HPO优化器铺平了道路。

谷歌AI的研究人员提出了一个基于文本的Transformer HPO框架,该框架提供了一个统一的端到端接口,用于在不同搜索空间的数据上联合学习策略和函数预测。OptFormer能够学习使用多样化方法的七种黑盒优化算法的行为(非自适应、进化和贝叶斯)。OptFormer还学习了目标函数的先验,并提供了准确且校准良好的预测,在许多情况下,其在对数预测似然和预测校准误差(ECE)方面优于高斯过程(GP)。通过模型基础优化增强的OptFormer策略,例如使用预期改进获取函数,是具有竞争力的HPO算法。

利用T5X代码库,OptFormer以典型的编码器-解码器风格进行训练,使用标准的生成预训练,涵盖了各种超参数优化目标,包括谷歌Vizier收集的真实世界数据,以及公共的超参数(HPO-B)和黑盒优化基准(BBOB)。OptFormer不仅使用数值数据,还采用了自然语言的概念。引入了一种序列化方案,将元数据和优化轨迹的组合转换为文本,表示为一系列标记。将HPO任务作为序列建模问题进行表述。它学习以监督学习的方式从离线调优数据中预测参数和超参数响应函数(见图1)。为了进一步提高优化性能,在推理期间通过其函数预测增强模型。

// 以下是一个简化的序列化方案示例,用于将元数据和优化轨迹转换为文本序列 function serializeMetadataAndTrajectory(metadata, trajectory) { // 序列化逻辑 return serializedText; }

图1:OptFormer模型在超参数优化(HPO)轨迹上的说明。它预测超参数建议(绿色)和响应函数值(红色)。

在下面的动画中,OptFormer最初观察基于文本的元数据(显示在灰色框中),包括标题、搜索空间参数名称和要优化的指标等详细信息,OptFormer利用这些信息反复输出参数和目标值预测。例如,在下面显示的动画中,OptFormer观察到“CIFAR10”、“学习率”、“优化器类型”和“准确率”,这告知OptFormer一个图像分类任务。然后,它建议尝试新的任务超参数,预测任务准确率,然后接收到真实准确率,随后用于生成下一轮的超参数。

一个拥有2.5亿参数的单个Transformer模型在三个数据集的联合上进行了训练:RealWorldData、HPO-B和BBOB,以预测参数和函数值的条件分布。主要回答了以下三个问题:

1. OptFormer能否学习模仿各种HPO算法?OptFormer评估了其学习数据集中行为策略提供的参数建议的条件分布的能力,以及模仿多种算法的能力。由于算法名称包含在元数据m中,策略πprior(x_t+1|m, h_t)的行为可以通过改变这个变量轻松修改。

图2比较了在试验100时最佳归一化函数值的平均值和标准差。

OptFormer在平均值和方差上都能非常准确地模仿大多数算法,除了最复杂的算法Vizier,在LUNACEK基准测试中πprior稍差。由于Vizier是表现最好的HPO算法,OptFormer忠实地模仿了Vizier,尽管不是完美的。

图2:试验100时最佳函数的平均值及标准差。

2. OptFormer能否学习超参数响应函数的良好先验?在RealWorldData和HPO-B测试集上报告了对数预测似然log p(y_t|x_t, ...)和ECE。从表1中可以推断出,OptFormer在两个数据集上都比GP实现了更好的预测似然和ECE。

表1:RealWorldData和HPO-B测试集上的对数预测似然(带1-std.标准误差,越高越好(↑))和ECE(误差百分比,越低越好(↓)。

3. OptFormer是否是HPO的可行方法?OptFormer作为超参数优化算法在两个基准测试RealWorldData和HPO-B上进行了评估。包括了基于多任务GP模型的三种迁移学习方法:ABLR、FSBO和HyperBO。但值得注意的是,这三种迁移学习方法不能特别应用于真实世界数据,因为它们需要在共享相同搜索空间的多个任务上学习GP。

图3描绘了每个基准测试中所有函数的最佳归一化函数值的平均轨迹。虽然OptFormer返回的先前策略没有超越Vizier,但它仍然与GP-UCB基线和ABLR相当或略好。

当先前策略增强了预期改进获取函数时,获得了最显著的改进。结果OptFormer(EI)在两个基准测试上都超越了所有基线。

注意到OptFormer可以学习元训练分割中的函数分布,将其转移到元测试分割,并在训练的优化窗口之外展现出良好的泛化性能。

图3:在16个RealWorldData测试函数(左)和86个HPO-B测试函数(右)上平均的最佳归一化函数值,带有5次运行的1-std置信区间。

1. 未考虑不总是适用或受其他参数值动态约束的参数。通过在元数据中以文本形式提供条件规范,可以在未来将提出的方法修改为AutoML和NAS类应用。

2. 只考虑了批量大小为1的顺序优化。为了支持并行建议,可以使用输入函数值观察的随机掩码来模拟具有并行待处理试验的场景。

3. 虽然Transformer被训练为离线克隆行为策略,但也可以应用离线RL。此外,可以在同一个模型内进行元训练获取函数,并在线微调。

4. 只考虑了单一目标函数,但可以通过在试验中输出多个函数标记来包括多个目标。

沪ICP备2024098111号-1
上海秋旦网络科技中心:上海市奉贤区金大公路8218号1幢 联系电话:17898875485