书签分类器 是一个使用 KMeans 聚类算法对浏览器书签进行聚类的工具。它能够从浏览器的书签文件中提取内容,进行文本分析,并根据页面内容的相似性将书签分组,帮助用户更好地管理和查找他们的收藏链接。
- 书签解析:支持解析浏览器导出的书签文件(HTML),提取书签的标题、URL等基本信息。
- 页面内容下载:批量下载书签对应的网页内容,并进行本地缓存。
- 文本内容提取:从下载的网页中提取文本内容,去除广告和样式,获取页面的实际内容。
- KMeans 聚类分类:通过 KMeans 聚类算法对书签进行智能分组,将相似内容的书签聚合在一起。
- 生成分类书签文件:将分类结果生成新的书签文件,便于浏览器重新导入。
- 采用Flet