-
Notifications
You must be signed in to change notification settings - Fork 2k
NLPIR ICTCLAS汉语分词系统
对原始语料进行分词,自动识别人名地名机构名等未登录词,新词标注以及词性标注。并可在分析过程中,导入用户定义的词典。 用户点击“批量分词”,进入系统分词功能模块。 1)导入用户词典 用户可自定义自己的词典,并将词典导入,分词过程将会融合用户的自定义词典。 例如,将十九大报告新词提取作为用户新词导入 Step1:新词存放地点选择new termlist(新词)文件,文件路径:C:\Users\Administrator\Desktop\NLPIR-Parser\bin-win64\output\NewTermlist.txt;指定新词文件,用户可以对新词列表进行编辑(注:每行一个用户词与词性,系统给出的标注默认为newword,用户可以根据实际情况进行校对,词性可以标注为任意字符串,系统不做限制)。 Step2:点击“导入用户词典”,在结果提示框中会显示是否导入成功。对于不需要导入新词的用户,本步骤可以跳过。 图4.11 导入用户词典
2)批量分词 Step1:选择语料源文件(十九大报告),文件路径:C:\Users\Administrator\Desktop\NLPIR-Parser\十九大报告全文;该目录下的语料可以与新词发现中所使用的语料相同,也可以不同,根据用户需求确定。 选择语料源所在路径后,系统会指定默认的“分词结果存放路径”为:当前工作目录\output\seg。用户也可以指定其它输出路径。分词及词性标注结果以txt格式文件存放,文件名与源语料中的文件名一致。 Step2:点击“语料库分词”,系统开始分词与词性标注。处理完成后,结果输出到“分词结果存放路径”目录下,系统会在完成时自动为用户打开该目录。 图4.12 分词成功
分词结果文件地址:C:\Users\Administrator\Desktop\NLPIR-Parser\bin-win64\output\seg。分词效果如下:
图4.13 分词效果
注:系统支持用户手动输入语料进行分词。