代码运行说明

标签（空格分隔）： CCF 客户画像大连理工大学信息检索实验室

按照95598工单记录次数对用户分为两类，分别构造特征和建模。

将只有一条95598记录的用户定义为低敏感度用户，用A或者single指代
将有多条95598记录的用户定义为高敏感度用户，用B或者multi指代

1.配置说明

程序依赖python3及以下程序包

anaconda3

xgboost

jieba

程序运行需要以下文件

/stopwords.txt  停用词表

请将原始数据放于下面目录中, 请确保都是utf-8编码格式

/rawdata/
    01_arc_s_95598_wkst_train.tsv
    01_arc_s_95598_wkst_test.tsv
    02_s_comm_rec.tsv
    09_arc_a_rcvbl_flow.tsv
    09_arc_a_rcvbl_flow_test.tsv
    train_label.csv
    test_to_predict.csv

其余目录作用

/code/  用于存放程序代码
/myfeatures/  用于存放程序运行生成的各种特征文件
/result/  用于存放最终的输出结果

2.运行

确认以上文件存在之后，依次运行：

python code/create_features_A.py    # 生成低敏感度用户的特征文件
python code/select_features_A.py    # 采用xgboost对低敏感度用户的文本特征进行筛选
python code/model_A.py              # 训练低敏感度用户的预测模型，及模型融合
python code/create_features_B.py    # 生成高敏感度用户的特征文件
python code/select_features_B.py    # 采用xgboost对高敏感度用户的文本特征进行筛选
python code/model_B.py              # 训练高敏感度用户的预测模型，及模型融合

3.输出文件说明

程序输出的结果包括特征文件和最终预测结果两部分：

myfeatures/
    statistical_features_1.pkl  低敏感度用户的统计特征
    text_features_1.pkl         低敏感度用户在表1中的ACCEPT_CONTENT文本信息
    single_select_words.pkl     低敏感度用户部分，采用xgboost选择的文本特征
    statistical_features_2.pkl  高敏感度用户的统计特征
    text_features_2.pkl         高敏感度用户在表1中的ACCEPT_CONTENT文本信息
    multi_select_words.pkl      高敏感度用户部分，采用xgboost选择的文本特征
    
result/                 
    A.csv               低敏感度用户中的电费敏感用户
    B.csv               高敏感度用户中的电费敏感用户
    result.csv          合并结果

Name		Name	Last commit message	Last commit date
Latest commit History 1 Commit
code		code
readme.md		readme.md
stopwords.txt		stopwords.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

代码运行说明

1.配置说明

2.运行

3.输出文件说明

About

Releases

Packages

Languages

hengchao0248/2016CCF_StateGrid_UserProfile

Folders and files

Latest commit

History

Repository files navigation

代码运行说明

1.配置说明

2.运行

3.输出文件说明

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages