Chinese-Text-Classification-Based-on-Bert

基于Bert实现中文文本二分类

环境：

Python 3.7.4
torch 1.3.1
transformers 2.5.0
2080Ti

样本示例如下，0表示负样本，1表示正样本：

1. 数据预处理

data/preprocess.py

1.1 去噪

观察训练数据，发现训练数据中有很多重复数据，且有些重复数据的拥有多种标签：对于这类example，计算所有标签的均值avg，通过以下方法来给它重新分配标签：

if avg > 0.5:
    label = 1
else:
    label = 0

1.2 数据集划分

由于没有提供验证集，所以原先的训练集中随机抽取5%的样本作为验证集：

random.shuffle(results)
index = int(len(results)*ratio)
valid = results[index:]  # validation dataset
results = results[:index]  # training dataset

1.3 添加特殊符号

由于使用的是中文版bert-base-chinese预训练的Bert模型，且该版本是基于字的，所以不需要对每个example的sentence进行分词，只需要在每个sentence的开始和结尾添分别特殊符号[CLS]和[SEP]:

sequence = ['[CLS]'] + self.sequence_list[item] + ['[SEP]']

1.4 Padding and MASK

保证batch中的example长度都相等，长度不足的在末尾补0，同时，计算mask矩阵，mask矩阵中，1表示为真是样本中的字，0表示补充部分：

labels, seq_ids, lens, seqs = zip(*batch)
seq_ids = pad_sequence(seq_ids, batch_first=True, padding_value=0)
    
bsz, max_len = seq_ids.size()
masks = np.zeros([bsz, max_len], dtype=np.float)

for index, seq_len in enumerate(lens):
    masks[index][:seq_len] = 1

 masks = torch.from_numpy(masks)

2. 模型

模型采用Bert+MLP的形式，Bert使用预训练的bert-base-chinese，使用**[CLS]**符号对应的输出作为MLP层的输入，MLP层的结构如下：

3. 训练

3.1 优化器

采用Adam优化器，预训练的Bert模型和MLP模型采用两种不同的学习率2e-5和0.01（Bert部分只需要微调，而MLP部分需要从头开始训练）:

bert_named_parameters = list(self.model.bert.named_parameters())
classifier_parameters = list(self.model.classifier.parameters())
no_decay = ['bias', 'LayerNorm.bias', 'LayerNorm.weight']

optimizer_grouped_parameters = [
    {'params': [p for n, p in bert_named_parameters if not any(nd in n for nd in no_decay)], 'weight_decay': 0.01,
     'lr': config.bert_lr},
    {'params': [p for n, p in bert_named_parameters if any(nd in n for nd in no_decay)], 'weight_decay': 0.0,
     'lr': config.bert_lr},
    {'params': classifier_parameters}]

self.optimizer = AdamW(params=optimizer_grouped_parameters, lr=config.lr)

每隔1个epoch在验证集上评估一次，如果相比于上次评估auc指标有所提升，则保存模型

3.2 结果

在第6个epoch，模型去验证集取得最好的结果：

4. 评估

加载保存的在验证集上效果最好的模型，在测试集上跑一遍，将结果保存在submission_random.csv文件中，详情参考eval_model.py

Name		Name	Last commit message	Last commit date
Latest commit History 44 Commits
data		data
evaluation		evaluation
models		models
pictures		pictures
train		train
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Chinese-Text-Classification-Based-on-Bert

1. 数据预处理

1.1 去噪

1.2 数据集划分

1.3 添加特殊符号

1.4 Padding and MASK

2. 模型

3. 训练

3.1 优化器

3.2 结果

4. 评估

About

Releases

Packages

Languages

liang8qi/Chinese-Text-Classification-Based-on-Bert

Folders and files

Latest commit

History

Repository files navigation

Chinese-Text-Classification-Based-on-Bert

1. 数据预处理

1.1 去噪

1.2 数据集划分

1.3 添加特殊符号

1.4 Padding and MASK

2. 模型

3. 训练

3.1 优化器

3.2 结果

4. 评估

About

Topics

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages