待完成

失效图片处理

李沐老师 48分钟讲解 encoder-decoder中(KV–Q)的运算:
- KQ相乘就是单个q对所有k的相似度作为attention score(给这个K值多少注意力)，与单个v做加权和(权值来自KQ)
  
  再通过注意力分数与V向量相乘，得到每个V应该多大的缩放，进行相加后就得到了最终V应该是什么样子了

词向量经过Attention层抓取全局信息，汇聚之后，在每个点上都有了所需要的信息

(权重不同，每个输出的向量的重点在不同的position编码位置上)，因此只需要做linear transformation。
bert中transformer参数计算:

embedding: vocab_size=30522, max_position_embeddings=512, token_type_embeddings=2(就进行两句分别标记，多了截断)

（30522+512+2）*768 = 23835648 (23M)

self-attention: 768/12 = 64 (多头每头分64维度的向量) ，64*768(每个64映射回768)，QKV三个矩阵,

最后一层 786(64 *12的拼接)->768的线性变换

(768/12 * 768 3 ) * 12 + (768768) = 2359296

经过12个transformer

2359296*12 = 28311552 (28M)

feedfoward: 自注意力层之后分别在 encoder 和 decoder 中有个一个全连接层

维度从 768->4*768_768->768

(768*4 * 768 )*2 = 4718592

(768*4 * 768 )*2 * 12 = 56623104 (56M)

layernorm: 有伽马和贝塔两个参数，embedding层（768 * 2），12层的self-attention，

768 * 2 + 768 * 2 * 2 * 12 = 38400

总计: 23835648+28311552+56623104+38400 = 108808704 (108M)

每一层的参数为: 多头注意力的参数 + 拼接线性变换的参数 + feed-forward的参数 + layer-norm的参数

768 * 768 / 12 * 3 * 12 + 768 * 768 + 768 * 3072 * 2 + 768 * 2 * 2 = 7080960 (7M)

Encoder 编码阶段

Multi-head Attention

多头注意力机制将一个词向量留过八个 self-attention 头生成八个词向量 vector，

将八个词向量拼接，通过 fc 层进行 softmax 输出。

例如：

词向量为 (1,4) –>

经过 QKV 矩阵(系数) 得到 (1,3) 八个 (1,3)*8 –>

将输出拼接成 (8,3) 矩阵与全连接层的系数矩阵进行相乘再 softmax 确定最后输出的 词向量 –> (1,4)

注意 QKV矩阵怎么来的(attention分数)，最后为什么要拼接，以及FC层的系数

qk相乘得到，词向量与其他词的attention分数( q1*(k1,k2,k3) )
多头注意力机制让一份词向量产生了多份答案，将每一份注意力机制的产物拼接，

获得了词向量在不同注意力矩阵运算后的分数，进行拼接后，softmax输出最注意的词，即是注意力机制。
多头注意力机制，将向量复制n份(n为多头头数)，投影到如512/8 = 64的64维的低维空间，最后将每一层的输出结果

此处为八层，8*64=512 拼回512维的输出数据

由于Scale Dot Product 只是做乘法点积(向量变成qvk之后的attention运算)，没什么参数，因此重点学习的参数在Multi-Head的线性变换中，

即将 64*8的八份数据线性变换的下文中的W0，给模型八次机会希望能够学到什么，最后在拼接回来。==