原标题:量子QUBO-SVM技术在金融领域的应用研究
作者 | 吴永飞 王彦博 徐奇 马占军
人工智能是推动社会进步和经济发展的关键力量。机器学习是人工智能领域的重要发展方向,而支持向量机(Support Vector Machine, SVM)是机器学习中的一项重要技术。量子机器学习是运用量子计算相关技术推进机器学习发展的一条新路径。本文探索将SVM模型中参数优化的问题转化为二次无约束二值优化(Quadratic Unconstrained Binary Optimization,QUBO)问题,而后使用量子计算对QUBO模型进行求解,从而开展量子QUBO-SVM算
法模型在金融领域的应用研究。实证分析结果表明,量子QUBO-SVM算法模型在AUC、KS、Recall和Precision模型评估指标方面的表现优于经典SVM算法模型,为金融机构推进数字化转型和智能化发展探索了量子金融科技新方案。
1995年,Cortes和Vapnik等人
[1]
提出了支持向量机(Support Vector Machine,SVM)算法,它是一种
有监督机器学习技术方案,其核心思想是找到一个超平面,将不同类别标签的数据样本区分开。2006年,杨毓等人
[2]
在商业银行企业破产预测问题中构建了SVM算法模型,该模型可以捕获特征空间的几何特征并得到最优解,实证效果显著。2010年,李霖等人
[3]
应用SVM算法模型进行客户流失预测,并以国内某商业银行的VIP客户流失预测为实例,与人工神经网络、决策树、逻辑回归和贝叶斯分类器方法进行了对比,发现SVM效果明显,是预测客户是否有流失倾向的有效方法。2020年,申晴等人
[4]
根据SVM算法和KNN算法在处理分类问题中的优势以及二者之间的联系时,提出了SVM-KNN组合算法模型,并以我国165家上市企业2017—2018年度的财务数据为样本,对我国商业银行信用风险进行了识别分析。2021年,李瑞祺等人
[5]
建立了基于谱风险度量的SVM算法模型,利用银行金融信贷数据,对模型进行了测试,将基于谱风险度量的SVM算法模型与基于CVaR的SVM模型和不同核函数下的传统SVM模型进行对比,证明了基于谱风险度量的SVM模型在金融贷款预测情况下的优越性和高效性。
二次无约束二值优化(Quadratic Unconstrained Binary Optimization,QUBO)问题是一种常见的整数规划类问题,也是一种典型的优化问题。该问题在数学上等价于求解一个无任何约束条件的二次型最值问题:
其中,决策变量X是一个n维向量,且向量中的每个元素取值为0或1。对于带约束的非整数优化问题,可以通过“化整为零”和添加惩罚项的思路将其转化为QUBO问题。QUBO问题可以使用传统优化算法进行求解,也可以使用量子优化算法进行求解。因此,QUBO问题求解器主要包括经典求解器和量子求解器。
金融领域往往涉及很多优化类问题,这些问题在一定程度上可以转化为QUBO问题进行求解。2021年,吴永飞等人
[6]
将金融领域的股票投资组合优化问题转化为QUBO问题,并且使用量子近似优化算法(Quantum Approximate Optimization Algorithm,QAOA)进行求解。2022年,文凯等人
[7]
将信用评分场景中的数据特征筛选问题转化为QUBO问题,并使用光量子技术进行求解,实证显示基于量子计算的特征筛选速度更快、效果更好。2023年,吴永飞等人
[8]
聚焦银行反洗钱业务场景,将社区发现问题转化为QUBO问题,利用量子退火机技术进行求解,为异常社区发现提供了新思路。2024年,叶永金等人
[9]
将货币汇率套利问题转化为QUBO问题,利用模拟退火算法对目标问题进行求解,实现高效的套利分析。同年,Mattesi等人
[10]
将多元化目标与夏普比率最大化目标一起纳入投资组合优化模型,构造了一个QUBO模型,并使用量子退火算法得到了优化的投资组合策略。
业务数据理解
本文所使用的银行信用数据来自加州大学欧文分校(University of California,Irvine,UCI)提出的用于机器学习的数据库。该数据库包含数百个数据集,其数目还在不断增加。本文所使用的数据集是UCI数据库中的德国信用数据集(German Credit Data),它源自德国的一家银行,包含一系列与个人信用评估相关的特征,用以根据银行信贷业务客户信息来判别客户是否有贷款违约倾向。该数据集共有21个字段,记录了贷
款人基本信息及其贷款账户信用情况,其中包括20个解释变量和一个响应变量(表示信用是否良好),解释变量包括13个离散型变量和7个连续型变量;数据样本量为1000个,其中“1”标签(信用不良)样本占比约为30%。
模型构建
传统的SVM建模过程可以归纳为3个方面:间隔、对偶、核技巧。如对于一个包含d个特征的数据集构建SVM算法模型,其中响应变量取±1,算法的核心是找到一个超平面,可以很好的实现样本分类,其表达式如下:
实证分析
本文将数据划分为训练集和测试集,其中训练集包含140个样本,测试集包含860个样本,随机重复划分
10组,旨在探索小样本学习解决方案。针对每组数据,首先使用开源框架直接构建SVM模型,然后将模型中参数优化的部分转化为QUBO问题,构建QUBO-SVM算法模型,使用QCHA算法进行求解,同时也对比了模拟退火(Simulated Annealing,SA)算法的求解结果。基于10组数据的实证分析结果如表1所示。
表1展示了经典SVM、量子QUBO-SVM和模拟退火QUBO-SVM三种算法模型的评估指标对比情况,经典SVM在10组数据上的AUC平均值为0.69,而量子QUBO-SVM和模拟退火QUBO-SVM均达到了0.7,从而说明了QUBO-SVM技术方案的有效性;然而,模拟退火QUBO-SVM在KS、Recall和Precision评估指标上略低于量子QUBO-SVM。对于QUBO问题求解效果的比较,通常使用求解对应的能量值(Energy)衡量,能量值越低效果越好。从表1可知,量子QUBO-SVM的Energy较模拟退火QUBO-SVM的Energy更低,说明该方案效果更优。综上,量子QUBO-SVM技术方案更具优势。
本文面向金融应用领域,提出了量子QUBO-SVM技术方案,将传统SVM的参数优化问题转化为QUBO问题,形成QUBO-SVM算法模型,而后运用量子优化算法进行求解。实证分析结果表明,量子QUBO-SVM技术方案在AUC、KS、Recall和Precision模型评估指标方面较经典SVM建模有一定提升,同时比模拟退火QUBO-SVM求解的能量值更低,是一种新兴的量子机器学习技术方案。未来,随着量子计算的进一步发展,量子比特数目更多,将可以有效提升模型的求解效率,为金融机构数字化转型和智能化发展提供新动能、新方案。
[1]Cortes C,Vapnik V.Support-Vector Networks[J].MachineLearning,1995,20(3):273-297.