GitHub

简介

使用Golang编写高性能网站爬虫、内容分析工具

本项目只是本人个人学习开发并维护，本人不保证任何可用性，也不对使用本软件造成的任何后果负责。

功能

扫描网站上的外链，及时发现废弃域名被抢注指向非法网站，避免因为黑链而被网安部门通报。
扫描网站的内容，及时发现敏感信息(如身份证)，避免因为信息泄露而被网安部门通报。
扫描网站开放下载的文件连接，对内容进行排查及时发现敏感信息，避免因为信息泄露而被网安部门通报。

Email:[email protected]

因为本人水平有限，大家在使用过程中发现什么问题请和我联系，谢谢！

使用说明

配置文件说明: 见config.yml注释

使用方法：

编辑配置文件、调整whitelist.txt
将目标网站保存到url.txt
运行infoscan.exe (推荐在命令行中运行)

InfoScan

Usage:
   infoscan.exe
   infoscan.exe ls               #列出所有任务
   infoscan.exe export <JobID>   #导出任务结果

如有需要可自行编译Linux版本

文件说明

目标文件： 同级目录下的url.txt 每行一个，类似https://brey.cn

白名单：同级目录下的whitelist.txt 每行一个，扫描到的外链中如果包含白名单中所列内容，将不处理，可以过滤安全的外链，例如：edu.cn。根据自己学校的情况，合理的设备白名单，可以大大减少人工核查的工作量。

处理结果说明

data.db：SQLit数据库文件处理结果为EXCEL文件，目前有外部链接、页面敏感信息、关键词检测、可下载文件表

对于外部链接的说明： 可以针对找到的外链进行验证，看能否正常打开(针对无法打开的外链需要重点关注)，同时对可以正常打开的网站会提取标题，便于发现有问题的外链。对于状态码200，标题为空的结果需要特别关注（手动访问）

对于页面敏感信息的说明： 目前只进行18位身份证的匹配，有一定误报率。

对于关键词检测的说明： 有一定误报率，需要特别关注匹配关键词数量多的结果。欢迎贡献关键词。

对于可下载文件的说明： 使用downloader目录下的工具

用法：
downloader.exe url.txt

推荐使用迅雷等专业的下载工具批量下载，然后使用FileSearchy进行文件扫描。

Name		Name	Last commit message	Last commit date
Latest commit History 30 Commits
.github/workflows		.github/workflows
infoscan		infoscan
pkg		pkg
GScan.drawio		GScan.drawio
Makefile		Makefile
Readme.md		Readme.md
go.mod		go.mod
go.sum		go.sum

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

简介

功能

使用说明

文件说明

处理结果说明

Todo

About

Releases 9

Packages

Contributors 2

Languages

Ymjie/GScan

Folders and files

Latest commit

History

Repository files navigation

简介

功能

使用说明

文件说明

处理结果说明

Todo

About

Resources

Stars

Watchers

Forks

Releases 9

Packages 0

Contributors 2

Languages

Packages