完成了基本的数据集的处理,但是在搭建模型时遇到问题,torch的transformer模型怎么用?最终选择了最基础的transformer模型,使用到编码器部分,解码器用一个全连接层代替
尝试写模型的前向传播和训练代码,对于epoch、step、batch_size等参数有了新的认识,一般来说使用epoch来进行迭代训练,每个epoch包含多个step,每个step包含多个batch_size,每个batch_size包含多个样本,每个样本包含多个特征。一个batch可以批量的输入到模型,这是不需要迭代的
训练过程的代码初步写完,开始找bug 模型的维度和数据集的维度对不上