NLPIR ICTCLAS汉语分词系统

对原始语料进行分词，自动识别人名地名机构名等未登录词，新词标注以及词性标注。并可在分析过程中，导入用户定义的词典。用户点击“批量分词”，进入系统分词功能模块。 1）导入用户词典用户可自定义自己的词典，并将词典导入，分词过程将会融合用户的自定义词典。例如，将十九大报告新词提取作为用户新词导入 Step1：新词存放地点选择new termlist（新词）文件，文件路径：C:\Users\Administrator\Desktop\NLPIR-Parser\bin-win64\output\NewTermlist.txt；指定新词文件，用户可以对新词列表进行编辑（注：每行一个用户词与词性，系统给出的标注默认为newword，用户可以根据实际情况进行校对，词性可以标注为任意字符串，系统不做限制）。 Step2：点击“导入用户词典”，在结果提示框中会显示是否导入成功。对于不需要导入新词的用户，本步骤可以跳过。图4.11 导入用户词典

2）批量分词 Step1：选择语料源文件（十九大报告），文件路径：C:\Users\Administrator\Desktop\NLPIR-Parser\十九大报告全文；该目录下的语料可以与新词发现中所使用的语料相同，也可以不同，根据用户需求确定。选择语料源所在路径后，系统会指定默认的“分词结果存放路径”为：当前工作目录\output\seg。用户也可以指定其它输出路径。分词及词性标注结果以txt格式文件存放，文件名与源语料中的文件名一致。 Step2：点击“语料库分词”，系统开始分词与词性标注。处理完成后，结果输出到“分词结果存放路径”目录下，系统会在完成时自动为用户打开该目录。图4.12 分词成功

分词结果文件地址：C:\Users\Administrator\Desktop\NLPIR-Parser\bin-win64\output\seg。分词效果如下：

图4.13 分词效果

注：系统支持用户手动输入语料进行分词。

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

NLPIR ICTCLAS汉语分词系统

Clone this wiki locally