AI summary
type
status
date
slug
summary
category
tags
icon
password
📢

什么是语言模型

语言模型的经典定义是对序列的概率分布,假设有一个词汇表 V,语言模型 P 为每个序列分配一个概率

自回归语言模型

链式法则:
自回归语言模型就是基于之前生成的结果一次生成一个 token:
其中 是控制随机性的温度参数,重新标准化分布之后得到退火条件概率分布。T 越大生成的结果越随机,T=0 时生成确定的结果。

大模型相关历史回顾

信息理论

香农定义了熵的概念:
熵实际上是一个衡量将样本 编码成比特串所需的预期比特数的度量,熵越小,序列的结构性越强,编码程度越短。
如果我们不知道事件的概率分布,又想计算熵,就需要熵的估计,自然而然的引出了交叉熵:
表示用模型 q 给出的压缩方案,需要多少比特数来编码样本 。交叉熵的下界是熵。可以通过构建一个来自真实数据分布 p 的样本的模型 q 来估计熵。

N-gram 模型

关于 的预测只依赖于最后的 n-1 个 token,而不是整个历史:
将 n-gram 模型拟合到数据上非常便宜且可扩展。例如,Brants等人(2007)在 2 万亿个tokens上训练了一个 5-gram 模型用于机器翻译,相比之下,GPT-3 只在 3000 亿 tokens 上进行了训练。
但是 n 太小就无法捕获长距离依赖关系,n 太大又无法得到概率的良好估计(几乎所有合理的长序列都出现 0 次)

神经网络

语言模型的一个重要进步是神经网络的引入。Bengio等人在 2003 年首次提出了神经语言模型:
上下文长度仍然受到 n 的限制,但现在对更大的 n 值估计神经语言模型在统计上是可行的。
自 2003 年以来,神经语言建模的两个关键发展包括:
  • Recurrent Neural Networks(RNNs),包括长短期记忆(LSTMs),使得一个令牌 的条件分布可以依赖于整个上下文  (有效地使 ),但这些模型难以训练。
    • Convolutional Neural Network(CNN) 通常用于图像识别,提取图像的空间特征,通过不断的卷积和池化操作实现特征提取和降维。
  • Transformers 是一个较新的架构(于2017年为机器翻译开发),再次固定上下文长度 n,但更易于训练(并利用了GPU的并行性)。此外,n 对很多任务来说“足够大”(GPT-3 使用的是 n=2048)。