对同一Key,Value,Query,希望抽取不同的信息可以使用h个独立的注意力池化然后合并各个头(head),输出得到最终的输出。 模型的数学表示: $$ h_i = f(W_i^{(q)}q, W_i^{(k)}k, W_i^{(v)}v) $$ $$ W_o= [h_1 .. h_h]^T $$ 基于这种设计,每个头都可能会关注输入的不同部分, 可以表示比简单加权平均值更复杂的函数。