Skip to content

Latest commit

 

History

History
15 lines (10 loc) · 476 Bytes

多头注意力机制.md

File metadata and controls

15 lines (10 loc) · 476 Bytes

对同一Key,Value,Query,希望抽取不同的信息可以使用h个独立的注意力池化然后合并各个头(head),输出得到最终的输出。

[Pasted image 20231027203825.png|550]

模型的数学表示:

$$ h_i = f(W_i^{(q)}q, W_i^{(k)}k, W_i^{(v)}v) $$

$$ W_o= [h_1 .. h_h]^T $$

基于这种设计,每个头都可能会关注输入的不同部分, 可以表示比简单加权平均值更复杂的函数。