大数据风控新趋势:T-L模型与RandomForest结合构建ScoreNet体系,梁山营销推广获客
栏目:网络推广 发布时间:2024-12-31
【概括】 随着互联网金融、消费金融的快速发展,央行征信在数据及时性、全面性、层次性等方面的短板日益凸显。深度挖掘互联网大数据信息、开发大数据风控模型、更 ... 大数据风控新趋势:T-L模型与RandomForest结合构建ScoreNet体系
【概括】
随着互联网金融、消费金融的快速发展,央行征信在数据及时性、全面性、层次性等方面的短板日益凸显。深度挖掘互联网大数据信息、开发大数据风控模型、更准确地评估风险逐渐成为新一代信用风险模型体系建设的核心课题。
本文在传统风险模型体系的基础上,嫁接逻辑回归和决策树模型,构建了TL模型,并结合模型改进了模型结构。采用TL核模型代替RF模型中传统的决策树模型,将RF模型和TL核模型结合起来建立模型体系。不仅大大提高了风险模型区分能力,而且保证了模型结构的清晰性和评分的广泛应用。
【关键词】大数据风控TL模型
一、选题背景及意义
目前,央行个人征信中心拥有自然人8.6亿多人,但其中有信用记录的仅3亿多人。同时,信用记录主要来自商业银行、农村信用社等金融机构。在数据时效性方面,全面性和层次性方面存在严重缺陷。因此,在互联网金融蓬勃发展的今天,深度挖掘互联网大数据信息,开发大数据风控模型,弥补央行个人信用信息的缺失显得尤为重要。
无论是线上还是线下的用户消费和社交数据,都具有区别于传统信用信息的独特特征:
数据高度稀疏(用户线上线下行为分布广泛,收集和覆盖极其困难;用户的行为偏好也不同,不同类别的行为差异很大,因此数据的稀疏性极其明显。一般来说,用户行为信息的缺失率超过50%);
数据覆盖面广(信息覆盖面广泛,支付宝或微信活跃用户超4亿,用户行为涵盖服装、图书、租赁、休闲、娱乐等,单指标维度超过1000个);
单变量风险辨别能力较弱(与传统风险模型中使用的历史业绩状况和个人资产评估等强变量不同,消费或社会变量一般是弱变量,辨别能力较弱)。
传统的信用风险评估模型利用数据驱动或专家经验在业务逻辑架构下开发模型模板,最终结合统计分析模型(逻辑回归、判别分析等)获得准确的计量结果。然而,在新的数据肖像和业务场景下,不仅原有的业务逻辑框架丢失,传统统计分析模型的应用也受到严重限制。近年来,机器学习技术发展迅速,在信息识别、推荐引擎等领域取得了优异的应用成果。大量实验结果证明机器学习模型具有良好的鲁棒性和泛化性。然而,机器学习模型的模型逻辑极其复杂,难以掌控模型的真实效果,也难以直观地展示和解释变量的风险特征。如何将传统风险评估模型系统与机器学习技术相结合,在保证业务逻辑和评分广泛应用的同时,更准确地评估风险,成为新一代信用风险模型系统建设的核心问题。
2.文献综述
(1941)首先使用信用评分领域的判别分析来预测借款人的贷款偿还状况; 20世纪50年代,他发明了基于回归模型的FICO信用评分系统。得益于清晰的业务逻辑和可解释性,评分系统逐渐成为应用最广泛的风险模型系统。然而,逻辑回归和判别分析模型都主要针对线性问题,无法分析变量的非线性结构。同时,它们对数据的完整性和有效性要求很高,对数据噪声也很敏感,不适合大数据。上下文中的模型开发和集成。
,;(1943)[1]提出了神经网络模型,并得到了广泛的应用,并首次描述了机器学习理论的雏形; (1956)[2]在文章中首次提出机器学习的概念; ,MarkA.;,.;,LevI.(1964)[3]提出了在统计学习领域应用最广泛的机器学习模型,支持向量机(SVM); Leo(1996)[4]、(1988)[5]、Ho(1995)[6]提出了集成学习算法:,,完美解决了问题。传统机器学习算法的过拟合困境,显着提高了算法的稳定性、泛化性和鲁棒性。近年来,机器学习算法在图像识别、语音识别、信息检索、推荐引擎、非结构化数据挖掘等领域取得了突破性进展。推荐算法与风险模型的一致性,以及GBDT[7]在推荐算法上的优异表现,为我们研究金融大数据风险模型提供了新的方向和挑战。然而,单一机器学习算法和集成学习算法都具有复杂的模型结构。这种复杂的结构不仅使模型失去了可解释性,也限制了专业模型分析师控制模型的能力,难以实现真正意义上的大范围应用。
三、研究的理论框架和模型构建
本文在传统风险模型体系的基础上,嫁接逻辑回归和决策树模型,构建TL模型,并结合模型改进模型结构,建立模型。不仅大大提高了风险模型区分能力,还保证了业务逻辑的清晰性和评分的广泛应用。
3.1.TL内核模型
传统的信用风险评估模型分析业务逻辑结构下变量的基本属性和风险区分能力,并利用逻辑回归等统计分析模型进行定量分析,以获得准确的风险计量结果。然而,用户行为数据特有的稀疏性会导致统计模型极不稳定。决策树对于局部数据分析具有很强的稳定性和鲁棒性,能够揭示变量风险判别能力的非线性结构关系。因此,我们嫁接决策树模型和逻辑回归模型建立TL核模型。即在统计建模之前增加一层决策树模型进行单变量分析,利用CHAID决策树生成二元决策树变量,然后将决策树模型的输出结果(单变量、跨变量和二元)决策树变量)导入逻辑回归模型进行统计建模,确定所有风险因素的风险权重。
3.1.1.决策树模型
在各种决策树算法中,CHAID[8](Chi-)既适用于二元变量,也适用于连续变量。对于每个分叉,CHAID 分别对二元响应和连续目标变量使用卡方检验和 F 检验。因此,本文选择CHAID算法作为决策树算法。
CHAID算法以因变量为根节点,对每个自变量(只能是分类变量或序数变量,即离散变量)进行运算,如果是连续变量,例如年龄、收入,则必须被定义为分类变量或序数变量)。分类,生成一系列二维表,然后分别计算生成的二维表的卡方统计量或F统计量。如果因变量(目标变量)是分类变量(如PD模型),则采用卡方检验(Chi--Test);如果因变量是区间变量(如LGD、EAD模型),则进行F检验(F-Test)。如果几个候选变量的分类显着,则比较这些分类的显着性(P值的大小),然后选择最显着的分类变量和划分作为子节点。
3.1.2.逻辑回归模型
逻辑回归模型[9]是一种广义线性模型[10],其中因变量服从二项式分布,自变量的线性预测与因变量的logit变换相联系。具体数学表达式为:
由此我们可以得到
该理论可以证明,如果样本的分布服从多元正态分布,那么样本就完全满足对数回归的假设。对数模型的误差项服从二项式分布。因此,拟合时采用最大似然估计法而不是最小二乘误差法进行参数估计。
3.2.型号
3.2.1.基本原理
随机森林是美国科学家于2001年发表的一种机器学习算法,将1996年提出的集成学习理论[4]与Ho于1998年提出的随机子空间方法[11]相结合。随机森林是一种以决策树为基本分类器的集成学习模型。它包含通过集成学习技术训练的多个决策树。当输入待分类的样本时,通过单个决策树的输出来投票决定最终的分类结果。决定,如下图所示。随机森林克服了决策树的过拟合问题,对噪声和异常值具有良好的容忍度,对于高维数据分类问题具有良好的可扩展性和并行性。另外,随机森林是一种由数据驱动的非参数分类方法。它只需要通过给定样本的学习来训练分类规则,不需要分类的先验知识。
随机森林使用K个决策树作为基本分类器
# 大数据风控新趋势
# T-L模型与RandomForest结合构建ScoreNet体系
# 鹏哥seo
# 义乌网站建设监理招聘
# 台州seo矩阵霸屏方案
# 出名的营销如何推广
# 泾县网站推广价格
# 网站营销推广巍信hfqjwl做词
# 昌平抖音seo优化厂家
# 行业网站建设介绍文案
# 安庆万词关键词排名
# 福田区营销推广公司
# 宁夏短视频营销推广方案
# 逆光SEO
# 建设网站涉及什么技术
# 服装网站建设优化诊断
# 手机网站推广效果好
# 东城网站推广排名优化
# 网站开发推广赞LS15227负责
# 四川seo技巧方案
# 麒麟seo平台
# 建设网站有哪些优化方案
相关文章:
路灯不亮引群众不满,职能部门直面问题加速解决,广东百度营销推广怎么做
跟着谷歌 SEO 优化规则,持续稳定获取精准流量,seo优化网站突然降权
SEO网:让你的数字营销更加精准高效,开启网络引流新时代,seo望族希望
「SEO 优化」网络推广:中小企业获客新途径,实现网络营销效果的关键,seo长尾怎么截流
湘潭网站优化公司分享:如何让 SEO 优化工作事半功倍,如何做谷歌*网站推广
ZBlog:开启你的个人网站新时代,轻松搭建与管理,辽宁品质网站建设理念
SEO范例:如何通过优化提升网站流量,获取更多商机,起重机推广网站大全图片
生鲜电商市场规模猛增,服装行业电商平台孕育无限生机,seo转型sem
SEO适合-提升网站排名的关键策略,网站优化后收录越来越少
发包快排:引领项目高效管理的革命性工具,静海区营销推广网站
优采云:推动企业采购智能化的行业革新者,宁波快速网站建设
营销网站与普通网站的结构和功能差异解析,威海营销推广哪家强
湖州丝绸小镇建设:纺织产业调整升级的新契机,做网站推广员
淘宝天猫店铺 SEO 优化攻略:提升免费流量的关键技巧,怎样推广网站推荐文章呢
SEO新站优化指南:快速提升排名的必备技巧,广州抖音seo合作
珠宝类电子商务网站发展现状与解决方案探讨,游戏营销推广与运营
微网站建设知识分享:从域名空间到虚拟主机空间的详细指南,网站推广费用不透明
SEO站群:打造强大网络营销引擎,助力企业快速提升排名与流量,平谷seo网站营销推广
企业搭建网站为何要选专业建站公司?柳州木子科技为你解答,西乡县网站优化
淘宝 SEO 优化的相关因素有哪些?,大数据比赛网站建设
SEO确实是企业增长的关键,这些技巧让你走在行业前沿,清远专业的网站优化教程
产品上新前先做什么?淘宝基础 seo 优化助你提升排名与流量,晋源区网站推广
移动通信行业发展:5G 商用临近,WLAN 助力满足用户数据业务需求,海淀网络营销和推广
企业线上运营推广必知的网站建设实用流程及注意事项,鄂州网站建设设计公司
为什么“未备案域名”会成为互联网行业中的重要问题?,推广营销策划口碑
SEO职位:数字营销的核心,开启职业新高峰,14 网站建设推广
SEO流程全解析:如何提升网站流量与排名,常州网站制作与推广
网站被挂马怎么办?云服务器和网站空间哪个更安全?,动画电影推广营销的方式
惠州网站建设:定位客户群、控制费用预算、实时维护更新,吨包推广网站哪个好
电商网站制作流程详解:四大流程助你成功建设电商网站,焦作seo网站推广技巧
SEO 优化重点核心因素分享,助你少走弯路,福清网站seo优化厂家报价
探究网站建设价格差异的原因及费用范围,线下服装营销推广方式
设计师的思考能力为何重要?解析不愿思考的原因及应对策略,网站推广首推云速捷靠谱
国际战略传播:日本的理念、能力建设及启示,网站seo色流
HIT 领域电子签名应用:推进网络可信体系建设,保障健康医疗大数据安全,宁夏抖音seo案例
仿写AI:智能时代的创作革命,菏泽网站建设优化
发外链工具,助力SEO提升,快速打造流量引擎,永春工程机械网站推广
新疆维吾尔自治区施工扬尘环境保护税核定计算及征收管理有关事项公告,正定营销型网站建设
SEO自从上线后的演变与未来发展趋势,岚县附近网站推广电话号码
关键词生成-让你的内容轻松抓住用户眼球,民宿营销推广
SEO自己:打造属于你的数字营销利器,茂名网站建设路
2025 年两轴四区多点布局基本确立,北京博物馆之城空间布局首次明确,漳州定制化网站建设
掌握这些 SEO 关键词排名优化方法,提升网站排名不是梦,网站制作和推广工作总结
关键词系统:数字营销的核心利器,让你轻松引爆流量,seo深度分析pdf
危机中的舆情管理:企业如何有效应对挑战,剑侠seo采集站教程
出海SEO-让您的企业走向全球市场的关键,浪潮seo
为什么“搜狗不收录”会成为企业SEO的新挑战?,随州seo全网营销服务
SEO策划:让你的网站迅速脱颖而出的秘诀,计算机网站推广怎么做的
SEO场景下的数字营销:如何通过精准优化提升网站流量,电器公司营销短信推广
利用标题优化工具进行标题 SEO,提升商品排名的方法,seo优化外包选择
相关栏目:
【
网络营销55532 】
【
网络推广33921 】
【
网络优化98863 】
【
网络学院69291 】
【
网络运营7217 】
【
AI推广84713 】
【
百度推广30177 】