AI summary
type
status
date
slug
summary
category
tags
icon
password

Many-shot

三点主要贡献:
  • Scaling ICL:在多种任务上用不同上下文进行实验,ICL 性能随着 shot 数量增加而提高。
  • Reinforced and Unsupervised ICL:增强 ICL 是指用模型本身生成 rationale,只选对的(假设有 ground truth 或者正确性可验证);无监督 ICL 是指只放问题不给答案。比普通 ICL 效果好。
  • Analysing ICL:many-shot 可以克服预训练偏差(翻转/替换标签);可以学习非nlp任务(高维线性分类);在翻译任务下可以替代 SFT;few-shot 推理时间基本不变(瓶颈在输出token),many-shot 时线性增长(KV-cache);不同 LLM 表现出不同程度的 Many-shot ICL 能力;
notion image
最后还探究了几个问题:
  • 包含更多示例有两个效果:增加信息、增加上下文长度。用重复示例堆叠进行实验,效果差,所以效果主要来自于增加新信息。
  • 是否还对示例顺序敏感:结果不同排序性能差异很大,而且在一个子领域中表现出色的排序可能在另一个子领域中表现不佳。
  • Long-context scaling laws 可能无法预测 ICL 性能:随着上下文长度的增加,ground truth 的负对数似然(NLL)可以预测地减少,但是 NLL 趋势并不是下游任务性能的有力预测指标(与准确率的趋势不符)。

FADS-ICL

notion image
将训练样本分为两部分,一部分用作演示集,剩下的用于监督训练 Modulator(Logistic Regression, Linear SVM, MLP, etc)。
数据扩展+特征适应。类似 knn-prompting,加了个特征适应。只适合分类任务,没意思。

Analysis

采用理论方法,分析了在一定参数构造下 prefix LM 和 causal LM 的收敛行为。causal LM 收敛动力学遵循在线梯度下降算法,即使样本数量无限增长,也不能保证是最优的。理论看不懂。

DemoRank

针对 Passage Rank 任务优化 ICL,但是训练 Reranker 的思路可以借鉴。
notion image
一次迭代增加一个,位次靠前的被选中的概率高:
每轮的位次都可以作为训练数据,比如第一轮选了 z3,那就有 z3>z1,z3>z2 等,loss 表示如下:
DReranker 基于 cross-encoder 模型,将训练输入 I 和演示列表 l 的串联作为输入来计算 score,并使用 “[CLS]” 标记的表示输出分数。

UDR

把多种任务的 Loss 统一起来,训练检索器对示例进行 List-wise 的排名。统一方法是编码的时候加入任务描述。
首先是用 LM 对候选示例进行排名,对于生成任务和分类任务得分的公式不同:
然后结合排名的 loss,和对比学习的 in-batch negative loss:
最终 loss 表示如下, 是超参数:
在训练的时候,每次选择一个任务,样本多的被选中的概率高, 取 0.5:
算法如下:
notion image
其中 candidates 表示按排名选出的 top-K 个示例,初始时直接按照语义相似度来选。
看起来公式很多,但是感觉就是 A+B,还是考虑的是点对点的偏序关系,感觉上面那篇考虑集合与集合的偏序关系更好。

DQ-LoRe

认为直接基于问题嵌入的示例选择可能会受到“普遍”表示中的冗余信息的影响,并且可能无法有效地捕捉内在的相关性。
DQ 是指两次查询,第一次查询 LLM 以获取 CoT 推理路径,第二个查询使用降维技术 LoRe(PCA) 来优化示例选择,确保与输入问题的知识紧密一致。
notion image
还是用对比学习训练检索器,加了个 CoT 和降维。
最初的 n-shot 提示是用 Complex-CoT 获得的;训练时先用 BM25 检索,然后用 LM 反馈重排得到正负样本,用对比学习训练 Bert 编码器;用 PCA 对 X+Y 降维,然后用降维后的嵌入相似性重排。
对于数学推理任务,使用向量内积计算相似度;对常识推理任务,采用高斯核函数来计算嵌入之间的相似性:

SENSEL

探究 ICL 的敏感性与预测准确率的关系,包括对任务描述或示例顺序的敏感性。提出了一个基于敏感性的示例选择方法,丢弃分数低于阈值的示例。
notion image
校准标签偏差后,ICL 变得更加敏感;灵敏度与准确性呈负相关。
MAXPROB 使用标签上的最大输出概率作为置信度分数。ENTROPY,使用标签上输出概率的熵的负值作为置信度分数。使用 F1 覆盖率曲线下面积(AUC)评估选择性预测方法的有效性,该曲线测量不同覆盖率下的平均 F1 分数。
结果表明,MAXPROB 在预测灵敏度低的任务上效果更好,而 SENSEL 在预测灵敏度高的任务上效果更好。

LENS

文章考虑的是选择整个任务通用的示例,而不是每个为每个测试样本单独选择示例。
受传统机器学习方法支持向量机(SVM)的启发,其中支持向量最接近决策边界并为 SVM 提供关键的判别信息,将选定的 ICL 示例命名为 support examples。
首先是对样本集合的渐进式过滤:
notion image
定义信息增益如下:
其中 ,D 是样本集合。
先选择 D 的一小部分作为评分集 S,然后只保留对 S 信息增益最大的部分 ,再逐步增加 S 的大小。复杂度
然后是多元化引导的搜索:
notion image
类似 beam search。每次将 替换为 ,公式如下:
其中 。f 是示例的特征向量,计算公式为:
如果两个示例的 f 值相似,则它们对 ICL 的影响可能是多余的,我们应该避免在一个排列中选择它们。