DeepMind指出「Transformer无奈逾越预磨炼数据实现泛化」，但有人投来质疑-天神院俊江网

编纂：蛋酱

岂非 Transformer 确定无奈处置「磨炼数据」之外的指出质疑新下场？

提及狂语言模子所揭示的使人印象深入的能耐，其中之一便是奈逾经由提供高下文中的样本，要求模子凭证最终提供的越预输入天生一个照应，从而实现少样本学习的磨炼能耐。这一点依靠的数据实现是底层机械学习技术「Transformer 模子」，而且它们也能在语言之外的泛化规模实施高下文学习使命。

以往的人投履历表明，对于在预磨炼混合体中患上到短缺展现的指出质疑使命族或者函数类，抉择适量函数类妨碍高下文学习的奈逾老本简直为零。因此有钻研者以为，越预Transformer 能很好地泛化与磨炼数据相同扩散的磨炼使命 / 函数。可是数据实现，一个普遍的泛化悬而未决的下场是：在与磨炼数据扩散不不同的样本上，这些模子展现若何？

在最近的人投一项钻研中，来自 DeepMind 的指出质疑钻研者借助实证钻研，对于这个下场妨碍了品评辩说。他们将泛化下场批注为如下内容：「一个模子是否运用不属于预磨炼数据混合体中任何根基函数类的函数的高下文样本天生精采的预料？（Can a model generate good predictions with in-context examples from a function not in any of the base function classes seen in the pretraining data mixture? ）」

这篇论文重点放在了预磨炼历程的一个特定方面：「预磨炼中运用的数据」，并钻研它若何影响由此发生的 Transformer 模子的少样本学习能耐。为了处置上述下场，钻研者首先品评辩说了 Transformer 在预磨炼中看到的差距函数类族之间妨碍模子抉择的能耐（第 3 节），而后回覆了多少个重点案例的 OOD 泛化下场（第 4 节）。

论文地址：https://arxiv.org/pdf/2311.00871.pdf

他们发现：首先，预磨炼 Transformer 在预料从预磨炼函数类中提取的函数的凸组适时颇为难题；其次，Transformer 尽管可能实用泛化函数类空间中较罕有的部份，但当使命变患上不在扩散规模内时，Transformer 依然会解体。

演绎为一句话便是，Transformer 无奈泛化出预磨炼数据之外的认知 —— 因此也处置不了认知之外的下场。

总体来说，本文的贡献如下：

运用多种差距函数类的混合体对于 Transformer 模子妨碍预磨炼，以便妨碍高下文学习，并形貌了模子挑推选动的特色；
钻研了预磨炼 Transformer 模子在与预磨炼数据中函数类「不不同」的函数上的高下文学习行动；
强有力的证据已经表明，模子在高下文学习历程中可能在预磨炼的函数类中妨碍模子抉择，而简直不需要格外的统计老本，但也存在有限证据，表明模子的高下文学习行动可能逾越其预磨炼数据的规模。

这位钻研者以为，这对于清静方面来说概况是个好新闻，至少模子不会「为非作恶」。

但也有人指出，这篇论文所运用的模子不太适宜 ——「GPT-2 规模」象征着本文模子约莫是 15 亿参数熏染，这简直很难泛化。

接下来，咱们先来看看论文细节。

模子抉择天气

在对于差距函数类的数据混合体妨碍预磨炼时，会碰着一个下场：当模子看到预磨炼混合体反对于的高下文样本时，若何在差距函数类之间妨碍抉择？

钻研者发现，模子在看到属于预磨炼数据混合体的函数类的高下文样本后，会做出最佳（或者挨近最佳）预料。他们还审核了模子在不属于任何繁多成份函数类的函数上的展现，而后在第 4 节中品评辩说了一些与所有预磨炼数据残缺不相关的函数。

首先从线性函数的钻研开始，线性函数在高下文学习规模受到了普遍关注。去年，斯坦福大学 Percy Liang 等人的论文《What Can Transformers Learn In-Context? A Case Study of Simple Function Classes》表明，对于线性函数妨碍预磨炼的 Transformer 在对于新的线性函数妨碍高下文学习时展现近乎最佳。

他们特意思虑了两个模子：一个是在密集线性函数（线性模子的所有系数都非零）上磨炼的模子，另一个是在浓密线性函数（20 个系数中惟独 2 个系数非零）上磨炼的模子。在新的密集线性函数以及浓密线性函数上，每一个模子的展现分说与线性回归以及 Lasso 回归至关。此外，钻研者还将这两个模子与在浓密线性函数以及密集线性函数的混合体上预磨炼的模子妨碍了比力。

如图 1 所示，该模子在一个

混合体在高下文学习中的展现与只对于一个函数类妨碍预磨炼的模子相似。由于混合体预磨炼模子的展现与 Garg et al.[4] 的实际最优模子相似，钻研者判断该模子也挨近最优。图 2 中的 ICL 学习曲线表明，这种高下文模子抉择能耐与所提供的高下文示例数目相对于不同。在图 2 中还可能看到，对于特定函数类，运用种种 non-trivial 权重

。

预磨炼数据混合体的 ICL 学习曲线简直与最优基线样本庞漂亮相立室。所能审核到的倾向很小，而且随着 ICL 样本数目的削减，倾向快捷减小，这与图 1 中对于应 ICL 学习曲线上一个点的行动相宜合。

图 2 还表明，Transformer 模子的 ICL 泛化会受到扩散外的影响。尽管密集线性类以及浓密线性类都是线性函数，但可能看到图 2a 中红色曲线（对于应于只在浓密线性函数上妨碍预磨炼并在密集线性数据上妨碍评估的 Transformer）的功能很差，反之亦然，图 2b 中茶色曲线的功能也很差。钻研者在其余非线性函数类中也审核到了相似的展现。

回到图 1 中的试验，将倾向绘制为全部可能规模内非零系数数目的函数，服从展现，在 w = .5 的混合体上预处置的模子
，

，在全部历程中的展现与在混合体上预处置的模子（即 w = 0 以及 w = 1）同样好（图 3a）。这表明该模子可能妨碍模子抉择，以抉择是否仅运用预磨炼混合体中一个基函数类的知识或者另一个基函数类的知识妨碍预料。

事实上，图 3b 展现，当高下文中提供的样原本自颇为浓密或者颇为密集的函数时，预料服从简直与只运用浓密数据或者只运用密集数据预磨炼的模子预料服从残缺相同。可是，在两者之间，当非零系数的数目≈4 时，混合预料服从偏离了纯密集或者纯浓密预磨炼 Transformer 的预料服从。

这表明对于混合体妨碍预磨炼的模子并非重大地抉择繁多函数类妨碍预料，而是预料介于两者之间的服从。

模子抉择能耐的限度

而后，钻研者从两个倾向魔难了模子的 ICL 泛化能耐。首先，测试了模子在磨炼中从未见过的函数上的 ICL 功能；其次，评估了模子在预磨炼中见过的函数的极其版本上的 ICL 功能。

在这两种情景下，该钻研简直不发现扩散外泛化的证据。当函数与预磨炼时期看到的函数相差很大时，预料就会不晃动；当函数饶富挨近预磨炼数据时，模子可能很好地类似。

图 3a 揭示了 Transformer 在中等浓密级别（nnz = 3 to 7）下的预料与预磨炼时提供的任一函数类的任何预料都不相似，而是介于两者之间。因此，人们可能会假如该模子具备某种演绎倾向，使其可能以非重大的方式组合预磨炼的函数类。好比，人们可能怀疑该模子可能凭证预磨炼时期看到的函数组合来天生预料。为了在具备清晰不相交函数类的布景下魔难这一假如，钻研者品评辩说了对于线性函数、正弦曲线以及两者的凸组合实施 ICL 的能耐。他们将重点放在一维情景上，使非线性函数类的评估以及可视化变患上重大。

图 4 展现，尽管在线性函数以及正弦曲线的混合上预磨炼的模子（即）可能分说对于这两个函数中的任何一个做出精采的预料，它无奈拟合两者的凸组合函数。这表明图 3b 中所示的线性函数插值天气并非 Transformer 高下文学习的可演绎综合的演绎倾向。可是，它不断反对于更狭窄的假如，即当高下文样本挨近预磨炼中学习的函数类时，模子可能抉择最佳函数类用于预料。