-
Notifications
You must be signed in to change notification settings - Fork 2
/
doc.muse
47 lines (42 loc) · 4.48 KB
/
doc.muse
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
* XDNetmon的文档——一个用于linux网关的基于抓包分析的流量统计和分析监视软件
** 总概述
本软件是用于linux网关的抓包分析和统计监视软件。为了解决实验室内网各计算机流量使用和网络浏览情况难以管理控制的情况,设计了一个可以在网关上长时间运行的监视统计软件。使用libpcap库完成网络操作和抓包,解包后统计数据包的协议,来源和去向,进行记录以达到对网关内计算机分别进行流量统计。在抓包时可以通过过滤器过滤掉西电内网的数据包,只分析外网的流量。统计信息使用跨平台移植方便的小型数据库sqlite3进行保存和查询。同时解包后可以将数据负载中ASCII数据内容压入“AC自动机”进行多模式字符串匹配,寻找敏感内容进行分析监视。本软件运行于命令行,可以通过参数控制设置和进行交互式查询输出。相比大型的网络分析软件,本软件简洁可靠,同时保持较好的效率。
** 系统设计概述
*** 整体结构
系统初始化,处理命令行参数和系统信号,等待抓包中断-->libpcap抓取数据包进行中断-->解析数据包,分析是否需要内容模式匹配
-->将统计数据存入缓存
-->解析出ASCII负载 压入AC自动机进行匹配-->存储结果
-->计时中断-->将缓存写入数据库
*** 模块分布
-主模块:处理参数和信号,开启中断
-pcap模块:控制网络,抓取数据包触发中断
-缓存模块:保存数据
-数据库模块:与数据库交互
-交互模块:与用户交互和输出查询结果
-匹配分析模块:分析数据内容
*** 技术和实现
linux系统交互:使用标准linux系统库,与系统参数和信号进行交互。
数据包抓取技术:开源的libpcap库从内核网络栈抓取数据
网络数据包解析:数据偏移量(offset)分析方法
缓存技术:STL库map容器,内部采用红黑树算法进行快速存取
时间片技术:在一个时间内不读写文件,对数据保存采用时间戳检查的技术进行分片保存
模式匹配技术:AC自动机算法进行快速多模式匹配
** 详细设计概述
*** 主模块main.cpp timer.cpp exit.cpp
1.捕获系统信号,防止软件以外退出。2.初始化数据库模块,读取设置 3.解析命令行参数,修改设置,调用交互模块 4.初始化网络抓包模块 5.开启系统计时器进行定时中断。6.开启抓包中断,等待中断
本模块作为中心模块,与除缓存模块以外的所有模块进行交互
*** pcap模块 pcapinit.cpp
1.初始化,编译过滤表达式,获得设备句柄 2.定义回调函数,即中断调用的函数,函数负责解析数据包中的来源和去向mac和ip地址3.调用缓存模块和匹配模块
*** 缓存模块 map.cpp
1.初始化缓存map容器 2.扫描map,如果存在同关键字的记录,则更新,否则增加新记录 3.被计时中断调用的函数,调用数据库模块把缓存内容更新进数据库,清空缓存。
*** 数据库模块 sql.cpp
1.打开数据库,检查是否存在结构,如果不存在,新建需要的结构2.写入网络速度信息3.检查时间片内是否存在流量记录,新增或更新记录4.读取写入设置信息5.对数据库操作进行异常处理
*** 交互模块 inteactive.cpp conf.cpp
1.打印帮助信息2.输出查询结果到文件3.检查设置信息有效性4.解析交互命令,进行结果查询和输出
*** 匹配分析模块
1.读入要匹配的模式串,初始化AC自动机 2.处理数据流.3.dump含有关键字的数据包到文件
** 实际使用测试
本软件在ACM实验室经过了半年的使用,效果良好,配合linux下shell脚本,可以方便进行系统管理。因为可以输出结果到网页,可以直接远程查看结果。可以清楚的记录每台计算机的流量使用情况,性能良好,在100M交换环境下CPU占用率<10%,准确度90%以上。
** 详细实现原理见代码注释 使用netmon -h 输出帮助信息
** AC自动机匹配算法简介
Aho-Corasick automation,该算法在1975年产生于贝尔实验室,是著名的多模匹配算法之一。一个常见的例子就是给出n个单词,再给出一段包含m个字符的文章,让你找出有多少个单词在文章里出现过。要搞懂AC自动机,先得有模式树(字典树)Trie和KMP模式匹配算法的基础知识。AC自动机算法分为3步:构造一棵Trie树,构造失败指针和模式匹配过程。