科普帖:懂了这些名词,你就已经是个“风控人”了
本文主要是一个科普帖,把当前互联网风控业务内部各环节遇到的一些特定名词给大家尝试做一些浅尝辄止的介绍。
序言篇
风控其实是一个很宽泛、很有历史感的概念,在不同的公司形态、业务职能上都会有风控的存在:如并购业务中的风控、股债汇业务中的风控、财务职能中的风控、法务/审计职能中的风控。在金融领域,风控已经有近百年的概念,广泛应用于信用评级、量化投资等领域,也产生了诸多经典的风控模型,如金融的小伙伴熟知的KMV、creditmetric、Copula函数等模型。
而在本篇中提及到的风控则是一个相对较新的概念,属于互联网大背景下涵盖网络安全、信息安全、统计/机器学习等内容并结合企业自身业务发展衍生出来的一门新兴交叉学科。而在这块常见的应用场景主要包括电商和网络信贷场景,这是与之前的风控截然不同的地方,也对互联网大背景下的风控从业人员有了不一样的要求。
业务篇
本篇会简要介绍目前在一些名词概念,这些名词会是在互联网企业的风控业务中经常遇到的,所有的互联网公司应该都会遇到下面这些手段的攻击。因为我本身不是技术出身,所以在下述的介绍中只能做到浅尝辄止。
此篇建议风控初级运营人员浏览。
手机号码、验证码则成为了许多网络平台的“通行证”,为了“迎合”市场的需求, 就有了一整条配合用户注册网络平台账号的“产业链”。
1. 卡商
这条产业链的源头是卡商,所谓卡商就是手里拥有大量手机号的个人所有者
这些手机号的来源主要有以下几方面:
(1)物联网卡
物联卡业务是中国移动、中国联通、中国电信面向物联网用户提供的采用物联网专用的段作为MSISDN的移动通信接入业务,通过专用网元设备支持短信等基础通信服务,并提供通信状态管理和通信鉴权等智能通道服务,默认开通物联网专用的短信接入服务号和物联网专用APN。这张卡可以用流量、发短信、就是不能打电话。物联网卡只针对企业工业级应用,不针对个人市场,如共享单车里面就是用到了这样的物联网卡。
(2)虚拟手机号
即虚拟运营商号段,170/171号段,这块大家应该比较熟悉了,暂不多表。
(3)境外卡
因为越南等国用的信号与我国相同,所以越南这边的手机卡在我国是可以收到短信的,且因为不需要实名所以需求也较为强烈,笔者曾经在某群内看到大量售卖境外卡,每张售卖10-15元,每张卡后续新用户盈利完全可以cover住成本。
(4)真实注册的运营商号码
在部分地区,因为基层运营商有业务考核压力,所以当有人愿意大量办卡的时候其实基层运营商是很愿意配合的。因为管理不规范这样的操作风险的存在导致大量的真实号码流入产业链当中。
2. 猫池&设备农场
当卡商拥有大量的手机号之后,需要大量承载手机号的硬件设备,于是猫池出现了。
猫池是一种集成了多路短信收发模块的高性能工业级短信猫设备,支持多路并发从而可满足大量短信收发的应用需求。类型按可接入手机卡数量分为:单口猫池、八口猫池、16口猫池、32口猫池、64口猫池等,随着2G到4G的过度,现今一般可以插16-128张卡不等,按实用功能分:普通短信猫池、普通声讯猫池、彩信猫池、GPRS/WAP四合一猫池等 。
而随着互联网网站防御对抗的升级(如语音验证码的出现),这种通过猫池来进行批量账号生成的手法已经渐渐遇到了瓶颈,为了更好的服务好“需求”(除了注册之外,刷投票、刷流量、刷阅读量同理),承载的硬件设备也从猫池升级到了“手机农场”。
顾名思义,手机农场是用大量的廉价手机组成“设备池”,并依赖“群控”工具完成批量操作,这就比猫池设备高级了,隐匿性和真实性更高。
(手机农场)
3. 接码平台
接码平台,或者也可称之为验证码平台。它类似于手机卡市场的“淘宝”,卡商将自己的卡号放到平台上售卖,而羊毛党或者其他有验证码需求的人则可以直接在平台上购买号码,接收短信,卡商平台提供软件支持、业务结算等服务,通过业务分成获利。
(某接码平台客户端)
一张从未做过验证码服务的卡,在平台上一天的收益大约有15-25元,根据验证码的属性不同,卡商和平台的分成比例也不同,语音类验证码五五开,短信类验证码三七开,卡商占七成。
4. 打码平台
而在产业链的主链条中,还有一些辅助工具的加入,才能配合该链条运转,比如打码平台就是个很好的例子。在注册、抢购过程中都会遇到验证码的存在,而这个时候打码平台就派上用场了。
打码平台的本质是“人肉打码”,很多打码平台需要跟网赚平台进行合作,因为网赚平台的用户量比较大,这种每天输入一些验证码就能赚钱的平台是很多用户比较喜欢的。网赚平台通过金币的形式给用户发放,金币累积一定数量后可进行提现。
在网赚平台上的佣工可以勾选想要接收的验证码复杂度,有选择题、填空题、鼠标点击类型等等,每种验证码的积分不同,验证码难度较高的积分较大些,同时网赚平台夜间工作给的积分也会多。
(打码平台流程图)
目前随着人工智能的发展,图像识别技术已经越来越精准,很多简单的字符验证码已经不能够有效阻挡机器行为,使用简单的OCR识别工具即可进行识别,稍微复杂的可以结合机器学习等进行高准确率的识别,大大提高了“工作效率”。
5. 伪基站
伪基站设备是嫌疑人私自组装生产的一种高科技仪器,主要由主机、笔记本电脑组成,能够强制连接用户手机信号,摄取一定半径范围内的手机信息,可以任意冒用手机或公用服务号码强行向用户手机发送短信。
伪基站的主要特点,是可以随意更改发送的号码,可以选择尾号较好的号码,还可以使用尾数为10086或95588等号码,使手机用户误以为真的是移动公司或工商银行发送的短信。利用伪基站设备发送带有木马链接的短信、利用木马盗取公民重要信息(如银行卡信息、短信验证码)已经成为非常普遍的一种犯罪方式。
《中华人民共和国刑法修正案(九)》规定:
6. 短信嗅探“违反国家规定,擅自设置、使用无线电台(站),或者擅自使用无线电频率,干扰无线电通讯秩序,情节严重的,处三年以下有期徒刑、拘役或者管制,并处或者单处罚金;情节特别严重的,处三年以上七年以下有期徒刑,并处罚金。”
GSM 协议中2G 网络架构是开源的,它本身传输数据时也没有加密,这就导致短信内容是明文传输的,这就给不法分子提供了可乘之机诈骗者可以利用GSM 2G网络的设计缺陷,在不接触目标手机的情况下,获得目标手机所接收到的验证短信,盗取用户支付宝、微信或者网银中的资产。
犯罪团伙基于2G移动网络下的GSM通信协议,搭配专用手机,组装成便于携带易使用的短信嗅探设备。通过号码收集设备获取一定范围下的潜在的手机号码,然后在一些支付网站或移动应用的登录界面,通过“短信验证码登录”途径登录,再利用短信嗅探设备来嗅探短信提取短信中的验证码。
大家的银行卡、身份证号等隐私信息也早早就被泄露在网上,那么资金盗刷对于诈骗分子来说就是轻而易举的事情,由此掌握目标的四大件:手机号码、身份证号码、银行卡号、短信验证码。通过获取的四大件,实施各类与支付或借贷等资金流转相关的注册/绑定/解绑、消费、小额贷款、信用抵扣等恶意操作,实现对目标的盗刷或信用卡诈骗犯罪。
因为,一般短信嗅探技术只是同时获取短信,并不能拦截短信,所以不法分子通常会选择在深夜作案,因为这时,受害者熟睡,不会注意到异常短信,等到受害人发现的时候早已经销赃完成。
7. 模拟器/改机工具
对于硬件信息的修改已经成为非常重要的手段,而对于硬件信息的更高手段也是愈发多样。手机模拟器一种常见的软件,常见于各类薅羊毛活动,采用多开方式手动操作或是结合模拟点击脚本,进行攻击行为,一般模拟器也具有修改设备信息的功能。
(模拟器可以完成手机型号修改、IMEI修改、位置修改等功能)
改机工具通过劫持系统函数,伪造模拟指定手机(模拟器)的设备信息的APP,能够欺骗厂商在设备维度的检测。改机工具会从系统层面劫持获取设备基本信息的接口,APP只能得到伪造的假数据。Andriod和iOS都有很多相应的改机工具,Andriod改机大部分都基于Xposed框架,需要Root,iOS大多基于Cydia框架,需要越狱。
系统篇
1. 风控决策引擎本篇会主要介绍风控系统内部的一些功能及概览,以及支撑起风控系统运转的一些功能模块,不同家企业基于自身业务的差别风控系统可能也有差别,此处会介绍一些较为通用的风控系统功能模块。
此篇建议风控初级产品人员浏览。
风控决策引擎是风控的大脑,即在各环节通过一大堆原始数据的输入,通过负面名单、规则策略、模型结果等方面的综合输出,以实现最终决策的作用。跟人的大脑作用类似,通过外界要素的输入做出正确的判别,这块后续还涉及到一个错误反哺优化的迭代机制,所以一个决策引擎的强大是一个风控系统能
下图为一个典型的风控决策引擎应该具备的基本功能(只做功能展示作用):
(1) 支持节点无限分叉
(2) 支持各类逻辑、计算、深度挖掘类的规则
(3) 支持多种处理结果返回,通过、拒绝、人工、预警、加验短信等
(4) 灵活的规则库,可以做到秒级实时上线
2. 设备指纹技术
设备指纹并不是一个新的概念,而是在风控工作中常遇到的,即对某一设备的唯一标记,即“设备的身份证”,早期的时候大家喜欢用IMEI\IDFV这样的要素作为设备的身份识别标记。
但是前文也提过,更改设备参数已经是一个非常容易实现的东西,所以设备指纹技术就应运而生。总的来说是通过采集设备多方面的要素,并通过一定的权重和算法加密之后得到的一串字符,目前有多家安全乙方公司提供类似的服务,因为各家的权重、算法设置不同,所以不能通用。另外,设备指纹技术除了安卓、IOS、H5之外,随着小程序应用的盛行,对于小程序设备指纹的采集也是个较大的挑战。
常见的设备指纹采集要素(很小部分的要素):
目前来看没有一家能够有效的识别不同的设备,这块也是个攻防对抗不断优化提升的过程。
3. 知识图谱技术
欺诈案件(比如身份造假,团体欺诈,代办包装等),且会涉及到复杂的关系网络,这也给欺诈审核带来了新的挑战。
知识图谱,作为关系的直接表示方式,可以很好地解决这两个问题。首先,知识图谱提供非常便捷的方式来添加新的数据源,知识图谱本身就是用来表示关系的,这种直观的表示方法可以帮助我们更有效地分析复杂关系中存在的特定的潜在风险。
(点代表人,线代表人与人之间的关系)
通过知识图谱可以识别
- 团伙识别:通过某些关系可以将一个团伙全部链接起来;
- 身份伪造:即某个人的身份资料在知识图谱不同的案件中出现了矛盾;
- 贷后失联:通过知识图谱协助贷后,找到与失联人有关系的联系人。
而知识图谱在风控引擎中的应用也可以通过规则、模型等实现。
知识图谱具体的构建方式研发人员感兴趣可以自行搜索相关资料。
模型篇
1. 分类模型与评分卡该篇内容会涉及到一些建模类的东西。模型这个东西本身构建过程中会涉及到很多数理统计类的理论,所以建模人员需要有相当的数学背景。该部分不会介绍如何去建模,而是主要介绍一些模型的基本概念、结论,帮助大家理解。
此篇不建议风控建模人员浏览,因为你们都会!其他的风控小伙伴可以静下心来认真看下,其实理解起来并不那么神秘,理解之后你就可以试着跟建模的同学撕逼了:
你的模型效果不好,我不用!!
1.1 分类模型
分类模型是风控中最常用的模型之一,即在一堆样本中判定哪些有可能是好用户哪些有可能是坏用户,所以换句话说,风控是人工智能最容易介入、也是介入较领域。
目前在风控中用的较多的分类模型包括决策树、逻辑回归、神经网络、随机森林等,这些模型本身就具备着分类的功能,通过一堆历史上带有标签的数据并结合min(损失函数)的过程完成训练,期望可以通过综合一系列带有区分度的指标得到一个综合评分,以期可以实现对某一个样本进行评价的目的。
模型本身其实是一个很有温度的东西,根据一堆冷冰冰的原始数据的输入能够得到一个比人的直观感知更科学、更定量的结果,难道不是很有趣么。其实在建模的过程中,其实因为损失函数的设定,本身已经把人的直观认知融入到模型当中,在建模的过程中已经添加了人的感情因素在里面,就跟女娲造人一样:用一堆冰冷的泥土去赋予生命,建模的过程回头再看看也是如此。
1.2 评分卡
评分卡模型是分类模型中的一种特殊表现形式,我们直观看到的评分卡大概是类似于以下图表的,即不同的x变量会给与不同的分数,比如年龄在一定区间内的加m分,在另外一个区间给n分,看着是很随意,但是实际不然。
评分卡模型本质核心是基于逻辑回归模型衍生的,根本上是结合企业的业务形态并结合逻辑回归当中各个参数前面的系数进行转换(如根据模型中年龄前面的系数进行转化),具体转换过程暂不表述
上图为某一典型的评分卡效果演示
2. 模型评价指标:混淆矩阵、ROC与KS
评价指标指的是一个模型做出来了,他的效果怎么样呢?这块的指标理解清楚了,也更方便的帮助业务人员跟建模人员撕逼。
很多作者在写有关评价指标的时候运用大量的字母、公式等,让读者读起来非常吃力,我很不喜欢这种方式,但是实际上这块的只管理解是非常简单的。
在1的描述中,我们构建了一个模型,y=f(Xi),于是对于所有样本,基于这些样本的自变量Xi,我们可以得到每个样本对应的y值,这个y值代表的就是这个样本逾期的概率。(下述来自于实验样本结果)
2.1 混淆矩阵
混淆矩阵不能作为评估模型的唯一标准,但是混淆矩阵是算模型其他指标的基础,后面会讲到,所以对混淆矩阵的理解是必要的。
模型跑出来的“Y”值为每个客户的预测违约概率,可以理解为客户的有多大的可能违约。把Y等分分段,通过每分段内的区间人数和实际坏用户的标签进行比对,可以得到下述图表。
我们从上图发现,横轴越大其bad率越高,而混淆矩阵就是基于上述的预测结果生成的。
我们取任何一个x值进行分段,如x=0.5,x<0.5我们认为是好人,x>0.5我们认为是坏人,但是这样的认定会有误差,即有可能把实际的好人误判为坏人,也有可能把实际的坏人漏过判为好人,这就形成了在这个分界点下的混淆矩阵(即绿的是对的):
每一个x值(即分界点)都会形成一个混淆矩阵,而每一个混淆矩阵都会有很多判别指标:如accuracy、TPR、FPR,就是基于TP\FP\FN\TN四个值的加/除,请读者自行百度,我也不记得了。
2.2 ks值
KS(Kolmogorov-Smirnov)用于模型风险区分能力进行评估,指标衡量的是好坏样本累计分部之间的差值。好坏样本累计差异越大,KS指标越大,那么模型的风险区分能力越强。
KS值的计算也是基于上述的混淆矩阵。KS的计算步骤如下:
- 计算每个评分区间的好坏账户数;
- 计算每个评分区间的累计好账户数占总好账户数比率(good%)和累计坏账户数占总坏账户数比率(bad%);
- 计算每个评分区间累计坏账户占比与累计好账户占比差的绝对值(累计good%-累计bad%);
- 然后对这些绝对值取最大值即得此模型的K-S值。
说人话就是在某个分割点对应的混淆矩阵中,坏人被识别出来的比例(70%的坏人可以被识别出来)-误杀好样本的比例(如30%的好人被错当成坏人了)。
因为分割点可以有无数个,我们可以得到一个曲线,max(坏人被识别出来的比例-误杀好样本的比例)的点即为最佳KS值。
在建模中模型的ks要求是达到0.3以上才是可以接受的。
除了上述两个评价指标之外,还有基尼系数、PSI、AUC等多个评价指标,主要评价的目的是判定模型的区分度、稳定性等,读者有兴趣可以自行搜索学习。
结语篇
当前大数据背景下的互联网业务形态,给风控这个已经很古老的名词又赋予了新的意义、新的内涵、新的使命,互联网业务形态的复杂性、数据爆炸特性,导致风控的玩法也愈加多样。本文主要是一个科普帖,把当前互联网风控业务内部各环节遇到的一些特定名词给大家尝试做一些浅尝辄止的介绍。
业务、系统、模型各职能模块间是相辅相成的,无论做哪方面的工作,理解更多的工作内容才能打破职能模块间的壁垒、更好的去推进工作!
作者:独孤qiu败