🚀 大模型发展历程

语言模型是序列的概率分布,自回归模型基于之前生成的结果生成token。信息理论中的熵衡量编码所需的比特数,n-gram模型依赖于最后的n-1个token,神经网络的引入使得语言模型取得重要进展,尤其是RNN和Transformers的应用。