达观信息抽取比赛项目

idea：

统计训练和测试数据的句子长度： max_sentence_length 取95%分位数
统计下corpus的词频freq 以及 voc_size，看看是否定频词汇比较多，比较多就filter低频词汇，统一标记为unk
统计下目标tag 前后词汇
model archive：
- char-embed + bilstm + crf
- 按照123的insight确定voc_size 和 max_sentence_length 然后训练word2vec
- 分词考虑wordPiece 降低统计voc_size 大小，但是不能把目标tag wordPiece 处理掉，统计是否能降低one-hot维度，即voc_size 大小
- 训练word2vec embedding-size 256或者512

Name		Name	Last commit message	Last commit date
Latest commit History 12 Commits
data		data
lstm_crf		lstm_crf
README.md		README.md
my_log.py		my_log.py
prepare_data.py		prepare_data.py

Provide feedback