🚀 Attention please!

Attention 相关面试题汇总!!!深入解析Attention机制及其在Transformer与BERT中的应用,剖析多头注意力、位置编码等核心技术,并详解FlashAttention、MLA等高效优化方案。

🚀 大模型发展历程

语言模型是序列的概率分布,自回归模型基于之前生成的结果生成token。信息理论中的熵衡量编码所需的比特数,n-gram模型依赖于最后的n-1个token,神经网络的引入使得语言模型取得重要进展,尤其是RNN和Transformers的应用。