Skip to content

luyifan/ContentSearch

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

1 Commit
 
 
 
 
 
 

Repository files navigation

#CC98文本检索

** 1、简介**

这是一个简易的文本检索系统,采用python编写,基本方法比较简单,主要是反向页表和Wtd-idf,中文分词采用的是python的库结巴分词。支持*用于模糊查找,比如“紫金*”

** 2、方法**

使用scrapy进行爬虫
使用结巴分词对文本处理,得到关键字和codebook
求出反向页表中每个页面的信息
将搜索的语句和每个页面,求wtd-idf,按大小排序
页面采用bootstrap

** 3、缺陷**

时间比较长,可以通过k-means先处理一下,可以用flann快速knn
可以使用flask框架,使页面更美观

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published