风控体系是玖富普惠网贷风险管控全流程中的核心体系。一般情况下,借款人出现信用风险,可通过风险定价策略等手段进行防范,风险可控性较大。而借款人在一开始,就以骗贷为目的进行借贷并且借款成功,则出借人会承受相当比例的损失。因此风控体系主要考虑两大类风险:一类是信用风险,一类是欺诈风险。
信用风险: 指借款人的还款能力和还款意愿在借款后出现问题。通常由于不特定因素导致用户的经济能力和思想状态发生改变。
欺诈风险: 指借款人的借款目的不正当。在申请借款初始便无还款意愿。多见于有组织性的黑中介。
全流程风控体系主要包含如下4个环节,其中风控策略和大数据风控模型是全流程中核心的风控决策手段。下面我们主要介绍风控模型及其相关算法是如何开发和工作的。
风险人群中很少能自然地找出几类在业务上具有显著差异的人群,可以人为分类,但是类和类之间往往是没有清晰边界的。因此风控场景下的建模多为分类算法模型,实际上做的事情往往是给出用户违约的预测概率,对各种风险场景有个统一的量化评估。模型设计的目的就是把好样本和坏样本尽可能区分出来。搭建风控分类模型通常有两类算法:

传统评分卡(logistic regression)

传统评分卡一直在银行信贷业务中成功实践了几十年,其优势在于:泛化性强,稳定性好,线性模型可解释性强。少样本就可以训练模型。其劣势在于:特征要求强相关,线性特征对于挖掘的信息价值相对有限,模型效果相当若与机器学习算法。

机器学习风险模型(Machine Learning)

随着大数据的出现,机器学习慢慢焕发出其生命力,如Random Forest、GBDT、XGBoost、LightGBM等集成学习方法在风险模型中得到广泛应用,可以通过集成学习将弱分类器打造出强分类模型。其优势在于:引入了非线性因素,模型拟合能力更强;支持更多弱特征入模,而不必像评分卡模型需要花大量时间筛选特征。而其劣势在于:由于引入了大量的非线性因素,模型可解释性降低;容易产生过拟合现象,泛化能力下降。

大数据是风控的基础,做风险评分模型这个项目前,先得积累足够多的数据(样本和特征),不然真是巧妇难为无米之炊。对借款人全方位的理解,一般可将风控数据分为四部分,自上而下,这些数据与逾期信用风险的相关性逐渐降低。通常,我们也称为强金融属性和弱金融属性数据。
使用上述数据,采用传统逻辑回归和XGBOOST等机器学习多样化的技术方法进行模型开发,采用最先进的算法组合选择,确定最终决策模型。同时线上采用冠军和挑战者模型策略进行比较优化。下表为完整建模流程和使用的技术:
开发时效快: 从数据的清洗,变量选取,和模型建立整个周期2-4周。
实时监控: 同时自动化的规则引擎和python秒算环境都支持模型多种部署方式上线
模型上线后可以实现T+1自动化的实时监控,及时预警发现问题解决问题。
风险模型是一个概率模型,一般是希望求出一个和真实概率分布最接近的概率分布函数,而不是寻找一条干净的边界把人群分为两类。在对风险人群建模的时候,人群在空间中是连续的,人群的标签由一随机事件决定。人群样本在空间中是一片连续的点云,不同位置的云代表了采集到的不同的人群信息,不同的人群有不同的逾期概率,概率随空间的变换是连续的。但为了直观易于理解,我们用下面的二维图对建模原理做出解释。如示意图红色代表坏样本,绿色代表未好样本,黑色直线代表模型分类器。可以直观的看出,分类器很难100%对好坏样本做出区分,总有部分样本因为分类器的局限性导致对样本的判断错误,这也就是为什么坏用户会被放进来的原因。另外,距离分类器越远的样本越纯,越近则约混淆。当然,越好的模型生成的分类器对用户判断越准确,从而降低整体分类空间的坏用户比例。
在评估模型效果的时候,通常使用AUC,KS这样的描述总体区分度指标。下图表示的是KS和AUC的示意图,通常KS>0.2的模型即可使用,KS>0.3的模型就是一个不错的模型了。
根据开发出来的评分模型,我们对验证样本做打分预测,其评分等级分布如下表和图。评分等级越高,则该等级的坏样本占比越少。模型分类器的区分能力越强,其不同等级坏占比所形成的斜率就越大,但很难实现好的评分等级的用户没有坏样本。因此风险模型与经过数据挖掘的风险政策相结合,可以进一步提升风控系统对风险的判断能力,从而达到风险收益和用户成本的平衡。如下表所示:我们的评分模型有很好的区分度,最高等级的坏样本占比仅为最低等级的1/25。