Skip to content

Latest commit

 

History

History
59 lines (39 loc) · 1.74 KB

File metadata and controls

59 lines (39 loc) · 1.74 KB

基于知识图谱和知识库的大模型对话系统

Demo 展示

default.mp4

项目整体流程介绍

项目整体包含5个部分:数据预处理、图谱构建、图谱补全、对话模型、网页呈现

整体流程

首先是数据预处理的逻辑

数据预处理环节

然后利用数据和ChatGPT定义的规则构建种子知识图谱

图谱构建

接着对种子知识图谱进行补全操作(需要对自己的数据进一步的筛选,有更深的认知)

图谱补全

利用chatglm-6b作为核心模型,基于flask构建后端的对话模型

对话模型

前端界面构建和项目部署

前端

环境配置


python 3.8.16 torch 1.11.0+cu113~ paddlenlp 2.5.1 paddlepaddle-gpu 2.3.2 transformer 2.6.0

初始模型:


知识种子图图谱模型:paddlenlp-model-zoo-uie 所用模型类型:'information extraction'

训练模型:SPN4RE-NYT—exact


训练集占比:50% 验证集占比:10% 测试集占比:40%

数据来源:


初始数据:《舰艇损管和潜水技术》 扩充数据:《舰船损管技术》等

数据标注

利用doccanco标注不同类型的数据大约100条作为微调uie的初始数据,在uie进行初次抽取后,针对数据中效果较差的部分进行二次标注微调。

训练设备:3090 * 2