本系统以知识图谱技术为基础,实现一个学术信息检索系统,主要实现学术信息定期爬取、学术信息更新、学术关联检索、知识化可视化界面等功能,分为服务器端和客户端两种用户。 服务器端可以在网站后台进行管理,用户通过Web界面在客户端自由检索信息。
具体功能
- 服务器端:管理员可以对爬取信息、图数据库等进行添加、查看、修改或删除;
- 客户端模块:学术信息检索;师生关系查询;领域知识检索;科研项目查询;学术论坛;学术信息管理。
目标
完成系统中的主要功能设计。
要求
- 学会利用爬虫技术爬取Web信息;
- 利用自然语言处理技术提取学术信息;
- 利用图数据库存储三元组知识;
- 利用知识图谱技术的SPARQL语言完成图数据的检索任务。
-
去掉 mysql 冗余的数据
-- 删除重复数据并保留id最小的一个 DELETE FROM author WHERE NAME IN ( SELECT NAME FROM ( SELECT NAME FROM author GROUP BY NAME HAVING COUNT(NAME) > 1) a ) -- 排除最小的id AND id NOT IN ( SELECT id FROM (SELECT min(id) AS id FROM author GROUP BY NAME HAVING count(NAME) > 1 ) b )
- 简单的web界面
- echarts 设计关系图