基于机器学习的银行不良贷款率风险预警和研究
本文基于2012-2023年银行面板数据,构建了机器学习不良贷款率预测模型。研究发现:拨备覆盖率、贷款减值准备等风险准备金指标是核心预测因素;区域经济差异显著,长三角银行不良率普遍较低;模型测试集MAE为0.21,相对误差14.8%,预测效果良好。研究为银行风控和监管提供了数据支持,可应用于政府调研、企业建模等领域。
大家好,我是Toby老师,本文构建了一套基于机器学习的银行不良贷款率预测模型,通过真实银行财报数据整合,综合运用机器学习算法进行训练与对比。我们将带你深入剖析银行不良贷款率的重要因素。该项目可用于政府调研,企业建模,项目申报,毕业论文,期刊,专利。
01
数据集概述
- data description-
项目意义:
随着金融全球化进程的加速以及经济环境的日益复杂,商业银行面临的信用风险管控压力持续增大。不良贷款率作为衡量银行资产质量与经营稳健性的核心指标,其精准预测与及时预警对于维护金融体系安全具有重要的理论与现实意义。传统的统计模型往往难以充分捕捉大数据时代下多维度的非线性特征,而机器学习技术凭借其强大的数据挖掘与模式识别能力,为解决这一难题提供了新的视角。本研究旨在融合宏观经济指标、企业财务数据及借贷行为特征,构建基于机器学习的银行不良贷款率预测模型与风险预警机制。通过对比不同算法的预测精度与稳定性,探索影响资产质量的关键因素,进而为商业银行优化信贷策略、监管部门实施穿透式监控提供科学依据与决策支持,以期在风险萌芽阶段实现有效识别与防范。
数据集介绍:
该科研项目基于银行2012-2023年度面板数据,截图如下。
-
-
数据规模
- 抽样600多条交易记录,涵盖40多个原始变量
-
-
时间跨度
- 2012-2023
-
-
数据质量
- 整体质量良好,缺失值低

变量分类汇总:
公司基本信息
-
证券代码
-
证券简称
-
公司属性
-
省份
-
城市
-
成立日期
上市信息
-
上市日期
-
上市地点
-
上市板
财务数据
-
year(年份)
-
贷款总额亿元
-
绿色信贷余额亿元
-
绿色信贷比例
-
存款总额亿元
-
贷款减值准备亿元
-
贷款损失准备充足率
-
单一最大客户贷款比例
-
存贷款比率
-
不良贷款率
-
不良贷款余额亿元
-
不良贷款拨备覆盖率
-
净息差
-
净利差
-
资本充足率
-
成本收入比
-
资本净额亿元
-
加权风险资产净额亿元
-
杠杆率
-
流动性比例
-
流动性覆盖率
-
总资产亿元
-
总负债亿元
-
净资产亿元
-
资产负债率
-
权益乘数
-
营业收入亿元
-
利息收入亿元
-
利息净收入亿元
-
非利息收入亿元
-
非利息收入占比
-
手续费及佣金收入亿元
-
管理费用亿元
-
净利润亿元
-
净资产负债率
-
总资产净利率(计算值)
-
净资产收益率
-
每股收益
-
每股营业收入
增长与效率指标
-
营业收入同比增长率
-
销售净利率(%)
股东与治理结构
-
第一大股东持股比例
-
独立董事比例
-
董事长与总经理是否二职合一
内部控制与行业指数
-
迪博内部控制指数
-
银行业景气指数
宏观经济与金融环境
-
该省GDP累计同比增长率
-
中国GDP累计同比增长率
-
货币供应量M2同比增长率
-
中国CPI累计同比
-
人民币存款准备金率
-
SHIBOR
-
中国第三方互联网支付规模亿元
02
描述性统计
-statistics: -
01
01
变量相关性分析
我们经过数据分析发现影响不良贷款率的关键变量(按相关性强度排序)


02
重要交互关系
-
拨备覆盖率阈值效应
:拨备覆盖率 > 200% 时,不良率基本控制在 1% 以下
-
资产负债率临界点
:超过 95% 时,不良率平均达 1.8%(远超行业均值 1.47%)
-
区域经济联动
:东部沿海省份(浙江 1.00%、江苏 1.33%)风险显著低于西部(贵州 2.26%、山东 2.07%)
-
时间周期特征
:2016 年为风险峰值(2.1%),2017 年后逐步回落至稳定区间

-
03
总体特征
-
分布形态
:严重右偏(偏度 8.84),存在少数高风险银行(最大值 23.57%)
时间趋势
:呈现明显顺周期特征,与宏观经济周期高度同步
公司属性差异
:公众企业(1.37%)< 地方国企(1.51%)< 中央国企(1.59%),但差异不显著
04
TOP高不良贷款率银行和区域分析

-
关键发现:
TOP10 低不良率银行:长三角阵营领跑,大中小银行齐出彩
宁波银行以0.770% 的平均不良率蝉联榜首,拨备覆盖率高达 512%,风险控制能力行业标杆;邮储银行(0.847%)作为国有大行代表,凭借零售优势跻身第二;常熟银行(0.860%)、杭州银行(0.900%)、南京银行(0.907%)等长三角城商行表现亮眼,形成 “低不良率集群”。
值得关注的是,低不良率阵营兼顾规模差异:既有总资产超 12 万亿元的邮储银行、9 万亿元的招商银行,也有千亿级规模的常熟银行、张家港行,证明风险控制与银行规模无必然关联,核心在于风控体系有效性。
-
TOP10 高不良率银行:多家大中型银行入围,风险分化明显
郑州银行(1.937%)、青农商行(1.790%)、华夏银行(1.773%)位居高不良率前三,平均不良率均超 1.7%。值得警惕的是,高不良率阵营中不乏大中型银行:民生银行(1.763%,总资产 7.05 万亿元)、浦发银行(1.620%,8.26 万亿元)、交通银行(1.500%,11.79 万亿元)均上榜,反映部分大中型银行资产质量仍需改善。
从风险抵御看,高不良率银行普遍拨备覆盖率偏低:华夏银行 152.7%、民生银行 142.4%、浦发银行 151.9%,均低于行业平均水平,风险缓冲能力相对较弱。
-

-
区域集中度显著
:低不良率银行中 6 家来自长三角(宁波、杭州、南京、常熟、无锡、张家港),反映区域经济活力与银行资产质量高度关联;
-
风控能力决定差距
:最低 TOP10 平均不良率(0.909%)与最高 TOP10(1.654%)差距达0.745 个百分点,且低不良率银行拨备覆盖率普遍超 400%,高不良率银行多低于 200%,风控水平差异是核心原因
我方公司还能定制web可视化数据分析面板,如下图

03
不良贷款率预测模型
- model-
模型指标MAE
训练集 0.048737
测试集 0.210461
关键解读:模型在测试集上的 MAE 为 0.210461,意味着预测的不良贷款率与实际值的平均偏差约为 0.21 个百分点。相对于测试集不良贷款率均值(1.422093),相对误差仅为 14.80%,预测精度良好。
特征重要性排序(前 15 名):特征重要性反映了各变量对不良贷款率预测的贡献程度,前 15 名关键特征如下:

关键发现:
-
风险准备金相关指标
(拨备覆盖率、减值准备、充足率)占据前 3 位,是预测不良贷款率的核心因素
-
银行财务规模指标
(存款总额、净资产、总负债)进入前 10,反映银行体量对风险的承载能力
-
宏观经济指标
(省份 GDP 增长率、存款准备金率)进入前 15,体现外部环境对银行风险的影响
特征重要性累积分析
-
前 21 个特征贡献了 80% 的预测能力
-
前 30 个特征贡献了 90% 的预测能力
-
重要性得分 > 1.0 的特征共 25 个,可作为核心特征集


版权声明:文章来自公众号(python风控模型),未经许可,不得抄袭。遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
更多推荐


所有评论(0)