Skip to content

Latest commit

 

History

History
163 lines (83 loc) · 12.4 KB

黑产对抗.md

File metadata and controls

163 lines (83 loc) · 12.4 KB

一、概述

游戏是在国内除了电商外最大的直接变现盈利终端,从游戏诞生的第一天起就和一些地下产业链有着千丝万缕的联系。黑产的本质是利益,因利益而存,为利益而生,黑产如今已经形成了完整的产业化链条。黑产的存在不仅会影响用户体验和游戏生态、造成公司的直接经济损失,还会给系统的稳定性带来影响。与黑产的对抗成了一个持续的课题,我们通过游戏行业风险分析、业务安全的本质、业务安全解决方案及内容安全解决方案几个方面给大家带来黑产对抗的经验分享。

二、游戏行业风险分析

1)行业风险概览

随着互联网+时代的到来,大量企业将业务迁移到互联网上,越来越多的黑客将攻击目标转向企业的在线业务,通过各种自动化工具模拟合法业务操作,突破企业的现有安全防护技术,进行撞库、抢促销、刷单、薅羊毛等,给企业造成严重的经济损失;同时,由于工具产生的海量请求会给企业业务系统带来巨大压力,造成业务不可用,企业被迫不断扩容软硬件资源,系统投资剧增。以下是游戏行业可能存在的一些风险问题:

1.垃圾注册:黑产通过机器脚本批量化操作的方式注册大量垃圾账号,为薅羊毛、广告导流、机器人挂机等行为做准备

2.盗号登录:通过撞库或暴力破解的方式恶意登录,盗取/转移游戏账号、装备、虚拟货币等

3.虚假裂变拉新 :使用批量操作等非正常手段,形成异常老拉新关系网从而获取平台奖励

4.短信接口轰炸:短信接口被恶意轰炸式调用

5.渠道虚假流量:各渠道获客质量参差不齐,部分渠道掺杂大量假量

6.支付风险:iOS代充值退款、外卡拒付

7.公会拉人导流:公会拉人广告会造成平台用户损失,尤其针对具备付费能力的用户

8.内容违规风险:用户头像、昵称、公屏聊天、游戏社区可能存在涉政、涉黄、广告等违规内容

2)产业化链条

传统黑客指的是精通计算机各类技术的计算机高手,他们通过技术手段进行系统攻击,从而达到某种目的。而黑产强调的是产业化,黑产如今已经形成完整的产业化链条。上游提供技术支持,主要开发一些验证码打码平台、手机群控工具、自动注册工具等等;中游的职责是账号分销,专门收集大量的手机号、身份证号、银行卡号等信息,在应用内注册大量的垃圾账号;而下游则通过薅羊毛、刷评论广告、欺诈等手段实现盈利变现。

三、业务安全的本质

我们知道黑产手上拥有大量的工具或资源,比如卡池、云手机、设备墙、打码平台、积分墙等等。与黑产对抗本质是与之进行资源对抗。 github

1)用户资源

手机号、身份证以及银行卡等,其实就是黑产必须投入的用户资源。他们可能通过虚拟运营商或者物联网卡来获取大量非实名手机卡、在网上搜集各类泄露的身份证图片,甚至在偏远地区支付十几块钱,买到他人的手持身份证照片和视频,手段层出不穷。对于用户资源的对抗,目前主要的方式就是黑名单。用户黑名单主要有两种收集方式:内部收集和外部采购,即通过行为或用户属性分析等方式构建自己的黑名单,或者从外部渠道购买现成的用户黑名单。

2)IP资源

为了绕过IP频率限制,黑产必须掌握大量的 IP 资源。网上有一些免费的代理软件,或者使用秒拨IP技术。秒拨的底层思路就是利用国内家用宽带拨号上网(PPPoE)的原理,每一次断线重连就会获取一个新的IP。与时俱进的黑产掌握大量宽带线路资源,利用虚拟化和云计算的技术整体打包成了云服务,并利用ROS(软路由)对虚拟主机以及宽带资源做统一调配和管理。这种云服务交付给黑产用户其实就是云主机(俗称”秒拨机“),黑产用户可安装Windows或Linux系统,通过RDP、VNC或者SSH连接,部署自动断线重连切换IP以及攻击的工具后,便可发起攻击。因此IP 的变化十分频繁,一个 IP 上一分钟可能是黑产在操作,下一分钟可能就被正常用户所使用了。这也导致了纯粹的IP层面的业务安全防护是较为困难的。

3)设备资源 

黑产最常用的设备就是模拟器,此外还有由大量手机设备组成的“手机墙”,或者上游团队将手机做成云控模式,下游黑产可以直接花钱购入可远程操控的真实手机设备。设备资源的对抗原理是对虚拟设备进行识别,这就需要依赖业务安全中比较关键的设备指纹技术了。

4)操作资源

黑产需要正常使用业务才能获利,所以在操作上会和正常用户一样花费时间和精力。这对黑产来说,也是一个不小的成本。 黑产会尝试使用一些自动化的工具,比如按键精灵,或者使用上游团队提供的其他脚本。与操作资源的对抗,就是和自动化工具进行对抗,我们通常会使用验证码(如图片验证码、滑块验证码等)。

四、业务安全解决方案

一套完整的业务安全解决方案,通常会包含以下三个部分:事前、事中以及事后。

github

1)事前

主要进行情报收集。所谓知己知彼,百战不殆,我们必须对黑产有充分的了解,才能制胜。需要知道黑产的作案目标、作案手段和作案工具等,这就需要依靠我们去一些专业论坛、社交软件或者暗网上去搜集黑产的信息。

2)事中

在黑产作恶路径上进行有效的埋点数据上报,并实时返回风险识别决策结果。

在这个阶段我们会碰到各种各样的虚拟设备,设备指纹是设备的唯一ID,我们能够通过这个 ID 关联到设备相关的全部数据。因此设备指纹是风控系统中最核心的数据来源。那设备指纹是如何对设备进行追踪的?又是如何判定异常行为的呢?

  1. 设备指纹

设备指纹的核心要求是稳定性和唯一性:即设备升级系统、重装等操作不会导致设备指纹发生变更、以及两台不同设备之间的设备指纹不可以重复。我们通常结合这几个维度计算设备指纹:

a. 软件ID:IOS设备的IDFA、IDFV,Android设备的IMEI、MAC,它们的唯一性和稳定性较高

b. 软件静态特征:操作系统版本、手机名称、APP 版本等,特点是稳定性较差,唯一性较好

c. 硬件静态特征:主板、CPU、摄像头等相关型号信息,这些特征稳定性较好,唯一性较差

d. 硬件动态特征:基于硬件的一些动态执行层产生的特征(如:加速度传感器的偏差),稳定性较高,唯一性较差 

把以上某几种维度的信息结合起来就可以计算出设备指纹了。判定设备信息 A 和设备信息 B是不是同一个设备的方式就是计算它们之间的相似度。可实现的算法有很多,简单的包括欧式距离、马氏距离、联合概率分布等,相对复杂的包括 MRF(马尔可夫随机场)、BP 算法(置信度传播算法)等。

  1. 设备风险的识别

识别设备风险通常有以下思路:

a. 利用一些系统的默认参数,也就是系统信息来识别。

b. 硬件识别:虚拟机不存在真实的硬件设备支持。比如:各类传感器要么缺失,要么采集的数值都是 0 或者某个固定值;相机功能异常,无法拍照等。 

c. 系统状态识别:比如说,为了实现批量操控,这些设备必须插入数据线,所以它们会一直处于充电状态,而正常用户大部分时候其实是未连接数据线的状态。

  1. 画像

a. IP画像

IP画像要通过判定IP状态,采取打分机制,量化风险值,精准识别恶意动态IP,解决由此带来的爬虫、撞库、薅羊毛等风险行为。其中IP应用场景是IP画像的一个重要维度。通常包含以下场景:普通高校 | 普通基站 | 基站公共出口 | 普通机房 | 专用出口 | 企业宽带 | 公共场所 | 家庭宽带。

b. 用户画像

用户画像最终会给不同的用户群体打上各类标签,最终每个用户可能会各自不同的属性和多个标签,这些数据充分地从各个维度刻画出当前用户的方方面面。当构建了用户画像后,需要结合实际的风控规则及模型,来管控用户请求事件。

  1. 决策引擎

github

决策引擎是业务安全的核心,完整流程是前端 SDK 采集设备数据,然后结合业务的离线数据,由算法或者策略人员进行数据分析,整理出具体的规则。接着,基于规则对业务数据进行判定,最后业务根据风险得分做出相应的处置。这个引擎可以前置到WAF中,完成一些基础过滤工作,或通过同步、异步、离线的方式和业务进行对接。

3)事后

通过已有的用户行为数据,进行离线分析迭代。

异常检测算法:

a. 基于设备、用户画像等数据

b. 行为数据上报到HDFS,通过Hive跑出可疑用户

c. 分析数据的聚集度,排序后抽样确认

github

五、内容安全解决方案

游戏内的昵称、签名、聊天窗、实时语音中,会出现售卖元宝、售卖外挂、导流拉人的广告文本,也会出现谩骂、刷屏等垃圾信息,扰乱游戏生态健康,破坏玩家游戏体验。甚至出现色情、涉政、暴恐、违禁等违规信息,将会带来严重的监管风险,被约谈、罚款、下架,甚至关停整顿,因此内容安全尤为重要。以下是几种风险防范的手段:

1)敏感词防控

对于敏感词的检测是业务安全中最基本的要求。为了保证服务性能,我们基于多模匹配算法高效检索;涵盖了色情、涉政、暴恐、违禁、谩骂、广告等各类敏感词库,根据敏感词种类进行横向切分;并且根据特殊时期进行动态调整,此外支持自定义敏感词,灵活调整 。为了避免敏感词被轻而易举地绕过,我们具备以下特性:

  1. 跳词检测:例如,梯。。V子,会命中梯子

  2. 同音词识别:炮-跑/泡/袍...

2)相似度检测

敏感词的检测只是针对词语,而相似度检测就是针对长句了。它整体包含两个点,第一是自动、实时地监控刷屏发言,结合人工审核机制为相似度算法以及其他模型算法提供大量有效的正负样本。第二就是相似度计算的服务,该服务基于负样本实时检测游戏中的发言内容,配置有多种预处理规则,降低无关文字或符号的干扰;采用余弦相似度算法,快速准确识别各种变形文本,使得游戏中脚本刷广告、刷屏变得十分困难。

3)防拉人模型

黑产在游戏聊天频道一般是基于脚本+人工的手段发送垃圾内容,为了进一步提高黑产的人力成本,我们深度定制了机器学习模型,采用前沿的自然语言处理算法,结合海量的敏感关键词库和正负样本进行建模,并配置有多种预处理和匹配识别规则,有效召回违规数据,打造快速、高质、稳定的文本审核过滤服务。在游戏内应用中结合多维度的用户画像、以及多模型组合策略,实时地对垃圾文本进行过滤。

4)用户模型

虽说是"内容"安全,但只盯住内容还不够,黑产的用户属性和行为属性也有很多可挖掘的点。我们通过以下几点监控所有用户的发言行为:

  1. 高风险设备识别

  2. 区域聚集发言监控

  3. 用户发言频率

  4. 广告用户标识

  5. 主动私聊监测

通过实时监控发言玩家的行为特征,基于规则引擎动态组合规则,准确捕捉用户异常行为并实施打击。 

5)关联封禁

异常用户关联设备,设备关联账号,从点到面打击。

六、结语

哪里有利益,哪里就有伤害,与黑产的对抗是一个持续的过程。我们要做的是不断提高黑产的成本,只有当黑产的收益没法覆盖成本的时候,对抗才会逐渐减少。安全之路,任重而道远。