Position Embedding

1. 绝对位置编码

直接对word embedding和position embedding相加送入到模型

具体公式：
$P^k_{2i} = sin(\frac{k}{10000^{2i/d_{model}}})$
$P^k_{2i+1} = cos(\frac{k}{10000^{2i/d_{model}}})$
其中：
$k$ 表示第 $k$ 个token， $2i$ 和 $2i+1$ 表示token对应的embedding（第奇数个和偶数个分别采用cos和sin）

Bert、GPT-2等采用的就是这种方法

初始化一个position embedding，与word embedding进行相加得到，后续进行参数更新

最终结果是对Attention加上了一个偏置项
在Attention时候进行位置编码，而不是在最初

数学推导较为难理解
同相对位置编码一样，在Attention时候进行位置编码，只对q和k做位置编码，对value不做，value是结果或者说是token本身的特征信息

直观理解：