transformer使用target作为模型的输入预测target？ #37

HouGuangyuan · 2024-03-04T01:45:39Z

作者您好，我发现代码中transformer使用的是target作为输入预测target。

这个是不是有些不合理？还是我使用方面不太对哈？

KittenCN · 2024-03-04T23:10:07Z

在训练的时候，Teacher Forcing这种做法应该是没问题的，我没记错的话，《Attention is All You Need》也是这么做的。但是严格来说，在推理的时候，使用Teacher Forcing就不太合理了。在我写的模型里面，应该已经避免了这些问题。。回头我再检查下

HouGuangyuan · 2024-03-05T01:36:02Z

感谢您的回答。我还没有完全看懂您的transformer的实现逻辑。我是用过在predict.py进行test时，这行代码outputs = model.forward(data, label, int(args.predict_days))处，把label替换成随机数进行验证的，结果预测值也变成了随机游走。所以我推测label影响了预测值。

KittenCN · 2024-03-06T01:54:56Z

感谢您的回答。我还没有完全看懂您的transformer的实现逻辑。我是用过在predict.py进行test时，这行代码outputs = model.forward(data, label, int(args.predict_days))处，把label替换成随机数进行验证的，结果预测值也变成了随机游走。所以我推测label影响了预测值。

label不能替换为随机值，你可以看看Stock_Data类，data和label都是从这里面出来的

HouGuangyuan · 2024-03-12T06:54:43Z

我看了一遍逻辑，找到了问题哈。transformer中的tgt输入，应该是进行右移一位的处理，第一位用其他向量补齐。如果不右移的话，那么就相当于，用T+1天的数据去预测T+1天的数据，就不是预测了。对于predict_days>0的情况，也应该使用掩码mask掉，否则就会出现未来参数。相当于用T+1、T+2、T+3去预测T+1天的数据了。

KittenCN · 2024-03-12T08:45:47Z

我看了一遍逻辑，找到了问题哈。transformer中的tgt输入，应该是进行右移一位的处理，第一位用其他向量补齐。如果不右移的话，那么就相当于，用T+1天的数据去预测T+1天的数据，就不是预测了。对于predict_days>0的情况，也应该使用掩码mask掉，否则就会出现未来参数。相当于用T+1、T+2、T+3去预测T+1天的数据了。

我没有右移吗？淦，我去查一下

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

transformer使用target作为模型的输入预测target？ #37

transformer使用target作为模型的输入预测target？ #37

HouGuangyuan commented Mar 4, 2024

KittenCN commented Mar 4, 2024

HouGuangyuan commented Mar 5, 2024

KittenCN commented Mar 6, 2024

HouGuangyuan commented Mar 12, 2024

KittenCN commented Mar 12, 2024

transformer使用target作为模型的输入预测target？ #37

transformer使用target作为模型的输入预测target？ #37

Comments

HouGuangyuan commented Mar 4, 2024

KittenCN commented Mar 4, 2024

HouGuangyuan commented Mar 5, 2024

KittenCN commented Mar 6, 2024

HouGuangyuan commented Mar 12, 2024

KittenCN commented Mar 12, 2024