🚀大模型发展历程
2025-1-5
| 2026-2-23
字数 772阅读时长 2 分钟
AI summary
type
Post
status
Published
date
Jan 5, 2025
slug
llm1.1
summary
语言模型是序列的概率分布,自回归模型基于之前生成的结果生成token。信息理论中的熵衡量编码所需的比特数,n-gram模型依赖于最后的n-1个token,神经网络的引入使得语言模型取得重要进展,尤其是RNN和Transformers的应用。
category
大模型面试笔记
tags
LLM
introduction
icon
password
📢

什么是语言模型

语言模型的经典定义是对序列的概率分布,假设有一个词汇表 V,语言模型 P 为每个序列分配一个概率

自回归语言模型

链式法则:
自回归语言模型就是基于之前生成的结果一次生成一个 token:
其中 是控制随机性的温度参数,重新标准化分布之后得到退火条件概率分布。T 越大生成的结果越随机,T=0 时生成确定的结果。

大模型相关历史回顾

信息理论

香农定义了熵的概念:
熵实际上是一个衡量将样本 编码成比特串所需的预期比特数的度量,熵越小,序列的结构性越强,编码程度越短。
如果我们不知道事件的概率分布,又想计算熵,就需要熵的估计,自然而然的引出了交叉熵:
表示用模型 q 给出的压缩方案,需要多少比特数来编码样本 。交叉熵的下界是熵。可以通过构建一个来自真实数据分布 p 的样本的模型 q 来估计熵。

N-gram 模型

关于 的预测只依赖于最后的 n-1 个 token,而不是整个历史:
将 n-gram 模型拟合到数据上非常便宜且可扩展。例如,Brants等人(2007)在 2 万亿个tokens上训练了一个 5-gram 模型用于机器翻译,相比之下,GPT-3 只在 3000 亿 tokens 上进行了训练。
但是 n 太小就无法捕获长距离依赖关系,n 太大又无法得到概率的良好估计(几乎所有合理的长序列都出现 0 次)

神经网络

语言模型的一个重要进步是神经网络的引入。Bengio等人在 2003 年首次提出了神经语言模型:
上下文长度仍然受到 n 的限制,但现在对更大的 n 值估计神经语言模型在统计上是可行的。
自 2003 年以来,神经语言建模的两个关键发展包括:
  • Recurrent Neural Networks(RNNs),包括长短期记忆(LSTMs),使得一个令牌 的条件分布可以依赖于整个上下文  (有效地使 ),但这些模型难以训练。
    • Convolutional Neural Network(CNN) 通常用于图像识别,提取图像的空间特征,通过不断的卷积和池化操作实现特征提取和降维。
  • Transformers 是一个较新的架构(于2017年为机器翻译开发),再次固定上下文长度 n,但更易于训练(并利用了GPU的并行性)。此外,n 对很多任务来说“足够大”(GPT-3 使用的是 n=2048)。
 
相关文章 :
  • LLM
  • introduction
  • 双指针秒杀七道链表题模板说明
    Loading...