Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

常见问题解答 #4

Open
toolgood opened this issue Apr 28, 2023 · 0 comments
Open

常见问题解答 #4

toolgood opened this issue Apr 28, 2023 · 0 comments

Comments

@toolgood
Copy link
Owner

toolgood commented Apr 28, 2023

问:能不能提供一个完整版的敏感词库用于测试?
答:不会提供,因为代码已开源,所以不能免费提供,但可以在https://toolgood.com/ 网站上试用。

问:怎么卖?价格?网址?
答:敏感词库赞助费200元 https://mbd.pub/o/bread/mbd-YpaXmZdv ,商业授权费1000元 https://mbd.pub/o/bread/YpaXmZdw

问:面包多上购买安全吗?
答:请放心购买,购买后可以请下载附件。issues是开放的。如果有人说无法下载敏感词库,早就开贴骂人了。

问:敏感词库可开发票吗?
答:可开发票,但金额需超1000元。

问:词库会更新吗?
答:会,更新频率不高。因为我的项目算是小打小闹,政府部门不会给我相关违规词,而政府会给大公司(如微信、微博、抖音社交相关公司)一些的违规词。

问:词库如果下载?
答:在面包多上购买后,词库在附件中。

问:技术合作,付费做技术外援?
答:我的重心不在敏感词的方向了。如有问题可以提交到Issues。

问:无法通过API实时添加敏感词?
答:因为代码开源,已删除相关功能,可以编辑敏感词库,再使用dataBuilder内代码编译的工具打包成数据包。

问:试用一下敏感词过滤方案:
答:可以在https://toolgood.com/ 网站上试用。

问:内存占用多少?
答:最高260M,本人自己网站运行一年多,内存使用186M。

问:敏感词库怎么编辑?
答:敏感词库是sqlite数据库,使用sqlite管理工具可以编辑。

问:请问sqlite数据库的密码是多少?
答:没有密码。

问:敏感词库可以换mysql?
答:可以,源码已公开,可以改成mysql,推荐使用navicat工具转化。

问:敏感词可以提取出来吗?我们需要做到我们的系统里面去 。
答:可以,词库以sqlite数据库,推荐使用navicat工具。

问:敏感词库怎么打包?
答:源码内包含打包工具。不想下载visual studio 的人,可以从 https://mbd.pub/o/bread/YpiWlZ9r 网站购买下载。

问:可以部署到docker里面吗?
答:可以。进入https://pan.baidu.com/s/1FLH7U3Nw2zE0Q3Vb-GtWZg?pwd=bqgn 后选择下载TextFilter-Linux-20210927-ListenAnyIP.zip

问:为什么我申请加QQ一直未通过?
答:QQ自动屏蔽了一部分用户,你可能短时间加了很QQ号。

问:如何查找异常敏感词?
答:异常敏感词是由于拼音相近造成的,如“期”与“琪”。如果是两个词组合成的敏感词,可以在TxtCommon内找。

SELECT * from TxtCustom where Text like '%||查%'  
SELECT * from TxtCustom where Text like '%||{查}%'  

SELECT * from TxtCommonType where id in (SELECT TxtCommonTypeId from TxtCommon where text ='')

SELECT * from TxtCustom where Text LIKE '%||{姓氏}%'
SELECT * from TxtCustom where Text LIKE '%||{调查关押倒台}%'
SELECT * from TxtCustom where Text LIKE '%||{侦探}%'

SELECT * from TxtCommon where TxtCommonTypeId in (SELECT id from TxtCommonType where name ='公务员')

-- 查找 敏感字 扩展
SELECT * from TxtExtend where srctxt like '%周%'

问:无法查找异常敏感词,怎么调试?
答:(1)先用TextClassify.sav生成数据包,复制temp文件内的acRegexSearch.txtmultiwordSrearch.txttempKeyword_012.txt,
(2)断点 TextFilterHelper.FindAll方法,查看 TempWordsResultItem 类下SingleIndex
(3)在acRegexSearch.txtmultiwordSrearch.txttempKeyword_012.txt对比SingleIndex值

        public unsafe static IllegalWordsFindAllResult FindAll(in ReadStreamBase stream)
        {
            var illegalWords1 = FindIllegalWords(in stream.TestingText); //断点此处

问:无法查找异常敏感词,怎么办?
答:加入白名单,如出现 “B C” 两字,可以在 TxtCustom 表中插入数据

Text:B||C
TxtCustomTypeId:1
RiskLevel:0
MatchType:0
IsRepeatWords:0
IntervalWrods:0
IsDelete:0
@toolgood toolgood pinned this issue Apr 28, 2023
Repository owner locked and limited conversation to collaborators Apr 29, 2023
Sign up for free to subscribe to this conversation on GitHub. Already have an account? Sign in.
Labels
None yet
Projects
None yet
Development

No branches or pull requests

1 participant