专栏名称: 计量经济圈
记录一个我们生活在其中的时代社会,囊括的主题如下:经济、社会、世界和计量工具。
目录
相关文章推荐
51好读  ›  专栏  ›  计量经济圈

重塑: 机器学习中经济金融领域常用代码库和完整案例代码, All in机器学习.

计量经济圈  · 公众号  · 财经  · 2025-03-29 10:20

主要观点总结

本文介绍了机器学习在经济学或金融学领域的应用,包括市场细分与分析、经济预测与预测、政策影响评估、信用风险评估与管理、欺诈检测与预防、算法交易与股票价格预测等。文章还讨论了机器学习相对于传统回归方法的优势,如处理大规模、高维度和非线性数据集的能力,以及能够持续学习和适应新数据的能力。文章提供了Python在经济学和金融学领域应用机器学习的关键库和典型工作流程,包括数据加载、数据探索和预处理、特征工程、数据分割、模型选择、模型训练、模型评估、超参数调优和模型部署。文章还列举了机器学习在经济学和金融学领域的一些实际应用的例子,包括股票价格预测、信用风险评估和客户细分。最后,文章讨论了如何理解和分析机器学习结果,以及机器学习在经济和金融学领域应用可能的趋势。

关键观点总结

关键观点1: 机器学习在经济学或金融学领域的应用

包括市场细分与分析、经济预测与预测、政策影响评估、信用风险评估与管理、欺诈检测与预防、算法交易与股票价格预测等。

关键观点2: 机器学习相对于传统回归方法的优势

包括处理大规模、高维度和非线性数据集的能力,以及能够持续学习和适应新数据的能力。

关键观点3: Python在经济学和金融学领域应用机器学习的关键库和典型工作流程

包括数据加载、数据探索和预处理、特征工程、数据分割、模型选择、模型训练、模型评估、超参数调优和模型部署。

关键观点4: 机器学习在经济学和金融学领域的应用实例

包括股票价格预测、信用风险评估和客户细分。

关键观点5: 如何理解和分析机器学习结果

需要考虑评估指标、业务背景、模型的可解释性和潜在的偏差问题。

关键观点6: 机器学习在经济学和金融学领域应用可能的趋势

包括实时数据分析与处理、可解释性人工智能、非传统数据处理和生成式人工智能。


正文

请到「今天看啥」查看全文


图片

凡是搞计量经济的,都关注这个号了

邮箱: [email protected]

所有计量经济圈方法论丛的code程序, 宏微观数据库和各种软件都放在社群里.欢迎到计量经济圈社群交流访问 .

社群群友在咱们社群里分享了一本 《因果推断与机器学习》 的书籍,是中文书写的,读后感觉让人非常获益,感兴趣的群友可以自行下载学习。
里面介绍了很多内容,包括但不限于,机器学习如何融合到因果推断中,机器学习如何帮助因果推断,机器学习相对于因果推断的优势,软件代码及示例等。
图片

在这个机器学习为王的时代,我们是难以逃避面对机器学习的挑战,因此干脆早点了解并使用机器学习相关的方法,哪怕是在微观因果推断计量领域,机器学习也大有用武之地。
下面这个帖子就是告诉咱们年轻学者,机器学习如何在经济学或金融学领域中大有学术和现实用武之地的。

首先,简单复习一下啥叫机器学习,为什么重要?

机器学习作为人工智能的一个应用领域,其目标在于通过神经网络、监督学习、无监督学习、决策树和线性回归等技术从数据中提取知识。更广义地说,机器学习利用计算机来识别海量数据集中的模式,并基于从这些模式中学习到的内容进行预测。
数据科学通过提供结构化数据和分析技术来为人工智能和机器学习提供支持,为机器学习的学习准备数据,然后人工智能利用这些机器学习模型来实现自动化和决策。
现在的经济学者都知道,机器学习已被广泛应用于我们日常生活中,例如搜索引擎能够准确理解使用者的搜索意图,电子邮件过滤器可以保持我们的收件箱清洁,以及欺诈检测系统能够在使用者意识到问题之前标记可疑交易。
机器学习通过识别已知数据中的模式来准确地猜测或预测新的交易是否真实。其应用范围广泛且不断扩展,涵盖了欺诈检测、识别安全威胁、个性化推荐(短视频)、自动化客户服务(聊天机器人)、数据分析(取代数据分析师)等重要的业务功能。

下面,我们看看机器学习的一些基础核心概念,以及它到底是如何学习的?

机器学习遵循一个结构化的过程,首先是数据收集和预处理,然后是模型选择和训练,最后是测试和评估,以确保准确的模式识别和预测。这个过程始于收集大量相关信息,然后进行数据预处理,通过消除重复条目、填充缺失值、标准化数值数据以及将分类变量转换为机器可读的格式,来保证传递到下一阶段的信息是干净且结构化的。
机器学习算法的核心在于三个主要元素:

表示(Representation):模型看起来像什么;知识是如何表示的。这包括选择合适的模型架构,例如线性模型、决策树或神经网络,以便能够捕捉数据中的潜在模式。

评估(Evaluation):如何区分好的模型;程序是如何评估的。这涉及到定义一个成本函数(或损失函数),用于衡量模型在训练数据上的表现,以及选择适当的评估指标(如准确率、精确率、召回率等)来衡量模型在测试数据上的泛化能力。

优化(Optimization):寻找好模型的过程;程序是如何生成的。这包括使用优化算法(如梯度下降)来调整模型的参数,以最小化成本函数并提高模型的性能。

机器学习模型依赖于庞大的数据集来发现数据中的模式并生成准确的预测。它们采用各种算法来分析数据,提取有价值的东东,并优化决策过程。与传统的编程不同,机器学习系统通过经验学习,无需为每个可能的场景进行手动编码。这些模型通过学习新的数据不断改进,并在每次迭代中完善其准确性(自我强化学习,今后无敌)。

下面是关于机器学习的类型及其基本原理的概括,对于我们肯定是非常重要的内容。

机器学习算法通常根据其学习方式分为三大类:监督学习、无监督学习和强化学习。

监督学习(给他喂饭)

监督学习是一种机器学习模型,它使用带有标签的训练数据(结构化数据)将特定的输入特征映射到已知的输出标签。在监督学习中,输出结果是已知的(例如识别苹果的图片),模型在已知输出的数据上进行训练。简单点讲,要训练算法识别苹果的图片,需要向其提供大量标记为苹果的图片。
监督学习依赖于标记数据集来训练人工智能算法模型,以识别输入特征和输出之间的潜在模式和关系。数据科学家通常需要手动创建包含输入数据和相应标签的训练数据集。监督学习的目标是训练模型在实际应用中能够将正确的输出应用于新的、未知的输入数据。在训练过程中,模型的算法会处理大型数据集以探索输入和输出之间潜在的相关性。
监督学习的关键在于使用标记数据来训练算法,使其能够基于过去的经验预测结果或对数据进行分类。这种学习范式被广泛应用于各种应用,从语音识别到金融交易中的欺诈检测。
监督学习过程通常包括以下关键步骤:准备包含输入样本和相应输出标签的数据集,并将其划分为训练集和测试集。然后,根据问题的性质和可用数据选择合适的模型架构或算法,例如决策树、支持向量机或神经网络。选定的模型使用训练集中的标记示例进行训练。
在训练过程中,模型通过调整其内部参数来学习将输入特征映射到相应的输出标签,这种调整通常通过最小化预定义的损失或误差函数的优化算法来完成。模型训练完成后,使用测试集评估其性能。各种评估指标用于衡量模型的准确性,例如准确率、精确率、召回率和 F1 分数。这些指标提供了关于模型在未见过的数据上的泛化能力的洞察。
如果模型满足预期的性能标准,则可以将其部署以对新的、未标记的数据进行预测。监督学习任务可以大致分为分类和回归问题。分类任务使用算法将数据划分到不同的类别中,而回归任务则预测连续的输出值。监督学习的常见算法包括线性回归、逻辑回归、决策树、随机森林、梯度提升、支持向量机和神经网络。时间序列算法也属于监督学习的范畴,用于分析随时间间隔收集的数据,并用于进行预测和识别趋势。

无监督学习

无监督学习是一种机器学习模型,它使用未标记的数据(非结构化数据)来学习数据中的模式。与监督学习不同,输出结果的“正确性”事先是未知的。相反,该算法在没有人为干预的情况下(因此是“无监督”的)从数据中学习,并根据数据的内在属性将其分类到不同的组中。
例如,如果给算法提供苹果和香蕉的图片,它将自行努力根据图片的特征将哪些归类为苹果,哪些归类为香蕉。无监督学习尤其擅长描述性建模和模式匹配。
它通过分析未标记的数据来识别数据中的模式和关系,而无需任何关于数据含义的先验知识。无监督学习算法旨在发现数据中隐藏的结构,而无需显式的指导或指令。这些算法能够自行推断规则和结构信息,根据相似性、差异性和模式组织信息。无监督学习的主要目标是探索数据的潜在结构,这种结构通常是隐藏的。
无监督学习中常用的技术包括聚类、关联规则学习和降维。聚类涉及将相似的数据点分组在一起。例如,K-均值算法是一种常见的独占聚类方法,它将数据点划分为用户预先定义的 K 个簇。层次聚类则根据数据点之间的相似性将数据划分为不同的簇,然后根据其层次关系重复地合并和组织这些簇。
关联规则学习,也称为关联规则挖掘,是一种常用的技术,用于发现无监督机器学习中的数据关联。这种技术是一种基于规则的机器学习方法,用于发现大型数据集中参数之间一些非常有用的关联关系。
降维技术(如主成分分析(Principal Component Analysis, PCA)和奇异值分解(Singular Value Decomposition, SVD))用于在不显著损失原始数据信息的前提下减少输入数据的维度数量。无监督学习广泛应用于客户细分、异常检测和推荐系统等领域。

比较高级的强化学习

强化学习是一种机器学习模型,可以被描述为通过一系列试错实验“边做边学”。一个“智能体”通过与环境的反馈循环学习执行一个明确定义的任务,直到其性能达到期望的水平。当智能体的行为表现良好时,它会收到正强化(奖励);当表现不佳时,则会收到负强化(惩罚)。
强化学习的目标是让智能体学习到一个最优的(或接近最优的)策略,该策略能够最大化从即时奖励累积而来的奖励函数或其他用户提供的强化信号。强化学习的一个著名例子是谷歌的研究人员利用强化学习算法教会计算机下围棋(alphaGo)。
该模型在没有任何围棋规则先验知识的情况下,仅仅通过随机地移动棋子,然后根据结果“学习”最佳的走法。该算法通过正负强化进行训练,最终达到了可以击败人类职业棋手的水平。

强化学习的基本原理是基于马尔可夫决策过程(Markov Decision Process, MDP)建模的。MDP 包括一组环境和智能体状态、智能体的动作集合、状态转移概率以及在状态转移后获得的即时奖励。强化学习的关键概念包括智能体、环境、状态、动作、奖励和策略。智能体是与环境交互并做出决策的学习者。

环境是智能体运行的世界或系统。状态是智能体当前所处的情况或条件。动作是智能体可以做出的可能的移动或决策。奖励是环境根据智能体的动作提供的反馈或结果。策略是智能体用来根据当前状态确定下一步行动的规则或方法。

强化学习算法通过试错来学习,智能体采取行动并接收奖励或惩罚,从而调整其行为以最大化累积奖励。强化学习算法常用于视频游戏开发和训练机器人执行人类任务。在金融领域,强化学习可以用于开发能够自主适应市场条件以最大化回报的交易策略。

从理论回到实际生活中,机器学习在经济学或金融学中的应用呢?

市场细分与分析

无监督学习,特别是聚类算法(如K-均值和层次聚类),被广泛应用于经济学中进行市场细分和分析 。通过分析消费者的购买行为、偏好或人口统计数据,这些算法可以将客户群体划分为不同的细分市场 。这种细分使得企业能够定制营销策略,个性化客户体验,并开发更有针对性的产品和服务 。

揭示性偏好方法也可以根据消费者对经济激励的不同反应进行市场细分 。无监督学习能够识别客户数据中隐藏的模式和关系,这些模式可能通过传统的手动分析难以发现 。例如,可以创建客户画像,或者根据销售指标对库存进行分组 。

此外,关联规则学习(如市场篮子分析)可以识别经常一起购买的产品,从而优化产品摆放和创建捆绑优惠 。通过理解哪些产品经常一起购买,可以为产品摆放、促销和推荐提供战略决策依据。

经济预测与预测

监督学习,特别是回归模型和时间序列分析,被广泛应用于经济预测和预测 。这些技术可以预测关键经济指标,如GDP增长、通货膨胀率、失业率和房价 。机器学习模型能够处理大型数据集并捕捉非线性关系,这通常比传统的计量经济学模型更有效,从而可能实现更准确的预测 。

通过学习历史经济数据中的模式,机器学习模型可以对未来的趋势进行预测 。此外,机器学习还可以分析各种因素对经济变量的影响,例如预测基于历史数据和外部因素的消费者支出 。机器学习能够识别多个经济变量之间复杂的相互关系 。

模型可以整合广泛的经济指标和外部因素,从而更全面地了解经济活动的潜在驱动因素。诸如神经网络和深度学习等先进技术也被用于提高预测的准确性 。深度学习模型能够学习复杂经济数据中错综复杂的模式 。

政策影响评估

机器学习模型被用于模拟政策变化(例如,税收改革、补贴)对各种经济指标(如就业、通货膨胀和消费者支出)的潜在影响 。这使得政策制定者能够在实施前测试和评估不同的政策方案,从而做出更明智的决策 。通过在历史数据上训练模型并将政策变化作为输入,可以模拟对经济结果的潜在影响。

此外,主题建模等技术被用于分析中央银行透明度对货币政策决策的影响 。机器学习中的自然语言处理(NLP)技术可以用于分析文本数据并提取与经济政策相关的有意义的见解 。通过分析中央银行沟通中使用的语言,研究人员可以深入了解影响货币政策决策的因素。

信用风险评估与管理

监督学习,特别是分类算法(如逻辑回归、决策树、随机森林、梯度提升和神经网络),被广泛应用于评估借款人的信用worthiness并预测违约的可能性 。机器学习模型可以分析大量的历史信用记录、交易数据甚至社交媒体互动等数据,以识别复杂的模式并做出比传统方法更准确的预测 。

特征重要性分析有助于识别影响信用风险的关键因素 。通过学习过去违约和未违约借款人的历史数据,机器学习模型可以识别最能指示信用风险的特征。结合监督学习和无监督学习可以提高信用评分的准确性 。无监督学习可以帮助识别具有相似信用风险特征的客户群体,然后可以用于改进监督学习模型 。

构建预测模型以细分客户群并创建买家画像,从而改进营销工作和产品开发 。了解不同客户群的信用风险状况可以为有针对性的营销活动和针对特定风险水平的金融产品开发提供信息。通过识别具有相似信用风险特征的客户群体,金融机构可以更好地了解他们的需求和偏好。

欺诈检测与预防(现在转个钱,动不动就说触碰了银行的某个系统规则,然后账户被锁,挺麻烦的)

监督学习(从标记的欺诈交易中学习)和无监督学习(异常检测以识别新的欺诈计划)都被用于实时检测可疑交易和模式 。机器学习算法可以同时分析大量的交易参数,并识别规则系统或人工分析师可能遗漏的细微异常 。实时分析可以立即采取行动,防止经济损失 。

通过学习过去的欺诈案例(监督学习)以及识别与正常行为的异常偏差(无监督学习),机器学习模型可以标记潜在的欺诈活动。分析复杂的交易网络以检测欺诈行为者之间隐藏的联系 。机器学习中的图分析技术可以发现协调的欺诈团伙 。

通过对不同实体(用户、账户、交易)之间的关系进行建模,机器学习可以识别仅查看单个交易时可能不明显的异常连接。例如,检测网上银行、信用卡交易和保险承保中的欺诈 。

算法交易与股票价格预测

监督学习(回归、分类、支持向量机、长短期记忆网络)和强化学习被用于分析历史和实时市场数据,识别模式,并预测未来的股票价格和市场走势,从而实现交易决策的自动化 。机器学习算法可以处理大量的市场数据,包括价格变动、交易量、新闻情绪和宏观经济指标,以识别有利可图的交易机会 。

强化学习可以用于开发适应不断变化的市场条件的交易策略 。通过学习历史价格模式和其他相关数据,机器学习模型可以尝试预测未来的价格走势并根据预定义的策略自动执行交易。开发高频交易系统 。机器学习能够以非常高的速度快速处理信息和执行交易 。

算法可以识别和利用市场中非常短期的价格差异。利用内幕交易数据提高股票价格预测的准确性 。内幕交易活动可以为公司的未来前景提供有价值的信号 。通过分析内幕交易的买入和卖出模式,机器学习模型有可能深入了解未来的股票价格走势。

优势,机器学习相对于普通回归方法的优势到底在哪里?

机器学习模型,特别是深度学习,在处理经济学和金融学中日益常见的大规模、高维度和非线性数据集方面表现出卓越的性能 。传统的回归方法在处理此类复杂性时往往力不从心。
能够对非线性关系进行建模是一个显著的优势,因为许多经济和金融现象本质上是非线性的 。传统的线性回归假设变量之间存在线性关系,这可能无法准确反映现实世界数据的复杂性。机器学习模型可以捕捉更复杂的模式和交互。
诸如集成学习(随机森林、梯度提升)和神经网络等机器学习技术通常可以比传统的回归模型实现更高的预测准确性 。即使预测准确性的小幅提高,在金融预测和风险管理等领域也可能带来显著的收益 。通过组合多个模型或使用更复杂的模型架构,机器学习通常可以产生更准确的预测。
一些机器学习技术可以自动识别相关特征并选择合适的模型架构,从而减少在这些领域进行人工干预和领域专业知识的需求 。这可以节省模型开发过程中的时间和精力。传统的回归通常需要手动选择相关变量并指定模型形式。机器学习可以自动化其中的一些步骤。
机器学习模型可以持续学习并适应新的数据和不断变化的市场条件,使其非常适合经济学和金融学的动态特性 。这使得模型能够随着新信息的出现而保持相关性和准确性。与静态的传统回归模型不同,机器学习模型可以根据新数据进行重新训练,以更新其对潜在模式的理解。
机器学习,特别是深度学习和自然语言处理,可以处理和提取来自文本、图像和音频等非传统数据源的有价值信息,而传统的回归方法难以处理这些数据 。这为将更广泛的信息纳入经济和金融分析开辟了新的可能性。传统的回归通常依赖于结构化的数值数据。机器学习可以利用非结构化数据源来获得额外的见解。
机器学习算法通常更擅长处理现代经济学和金融学中普遍存在的大量数据 。大数据分析是许多机器学习技术的关键优势。传统的回归方法在处理非常大的数据集时可能会变得计算成本高昂或不稳定。

以下表格总结了机器学习和传统回归方法在经济学和金融学中的比较:

何开展机器学习,稍微了解一下Python中的操作流程。
在经济学和金融学领域应用机器学习,Python语言及其相关的库是不可或缺的工具。
以下是一些关键的Python库:
Pandas: 用于数据操作和分析,包括加载、清理和转换数据 。Pandas提供了高效的数据结构(如DataFrames和Series)和数据分析工具,使得处理和准备经济金融数据变得更加便捷
NumPy:用于数值计算和处理数组。NumPy是Python科学计算的基础库,为机器学习算法的实现提供了高效的数值运算支持。
Scikit-learn: 一个全面的机器学习库,提供了各种用于分类、回归、聚类、降维、模型选择和预处理的算法 。Scikit-learn易于使用,是入门机器学习的理想选择。
TensorFlow和Keras: 强大的库,用于构建和训练神经网络和深度学习模型 。TensorFlow是一个由Google开发的开源框架,Keras是TensorFlow的高级API,使得构建和训练神经网络更加简单高效 。
PyTorch: 另一个流行的深度学习框架,以其灵活性和面向研究的特性而闻名 。PyTorch在学术界和工业界都有广泛的应用。
Statsmodels: 提供了统计模型,包括传统的回归模型,这对于与机器学习工作流程进行比较和集成非常有用。Statsmodels提供了丰富的统计分析功能,可以用于构建和评估传统的计量经济学模型。
Matplotlib和Seaborn: 用于数据可视化和创建信息丰富的图表 。数据可视化是理解数据和模型结果的关键步骤。
在Python中进行机器学习的典型工作流程包括以下步骤:

1.数据加载(Data Loading):从各种来源(例如,CSV文件、数据库)将数据读取到Pandas DataFrames中。

2.数据探索和预处理(Data Exploration and Preprocessing):通过汇总统计和可视化理解数据,处理缺失值,编码分类变量,缩放数值特征 。

3.特征工程(Feature Engineering)(可选):从现有特征创建可能提高模型性能的新特征

4.数据分割(Splitting Data):将数据分为训练集、验证集(可选)和测试集

5.模型选择(Model Selection):根据问题类型和数据特征,从scikit-learn、TensorFlow、PyTorch或其他库中选择合适的算法

6.模型训练(Model Training):实例化所选模型并将其拟合到训练数据上

7.模型评估(Model Evaluation):对测试集进行预测,并使用相关指标评估模型的性能

8.超参数调优(Hyperparameter Tuning)(可选):使用网格搜索或随机搜索等技术优化模型的参数以提高性能

9.模型部署(Model Deployment):保存训练好的模型以供在实际应用中使用。

举一些实际应用的例子,看看Python在经济金融学中的代码示例。

使用监督学习进行股票价格预测(基于Keras/TensorFlow的LSTM)

以下是一个简化的Python代码示例,演示了加载股票数据和构建/训练一个简单的LSTM模型的基本步骤:
import pandas as pd
import numpy as np
from sklearn.preprocessing import MinMaxScaler
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import LSTM, Dense

# 加载历史股票价格数据
df = pd.read_csv('stock_data.csv', index_col='Date', parse_dates=True)

# 预处理数据:缩放
scaler = MinMaxScaler(feature_range=(0, 1))
scaled_data = scaler.fit_transform(df['Close'].values.reshape(-1, 1))

# 创建用于LSTM的序列数据
def create_sequences(data, look_back=1):
  X, y =,
  for i in range(len(data) - look_back):
      X.append(data[i:(i + look_back), 0])
      y.append(data[i + look_back, 0])
  return np.array(X), np.array(y)

look_back = 30
X, y = create_sequences(scaled_data, look_back)
X = np.reshape(X, (X.shape, 1, X.shape[1]))

# 构建LSTM模型
model = Sequential()
model.add(LSTM(50, return_sequences=True, input_shape=(1, look_back)))
model.add(LSTM(50, return_sequences=False))
model.add(Dense(25))
model.add(Dense(1))

# 编译模型
model.compile(optimizer='adam', loss='mean_squared_error')

# 训练模型
model.fit(X, y, epochs=10, batch_size=32)

# 进行预测(需要进一步的数据准备和模型评估)
使用监督学习进行信用风险评估(基于Scikit-learn的随机森林)
以下是一个简化的Python代码示例,演示了加载信用风险数据和训练一个随机森林分类器的基本步骤:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, roc_auc_score

# 加载信用风险数据
df = pd.read_csv('credit_risk_data.csv')

# 预处理数据:处理分类特征,分割数据
X = df.drop('default', axis=1)
y = df['default']
X = pd.get_dummies(X, columns=['purpose', 'home_ownership']) # 示例分类特征
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# 训练随机森林分类器
model = RandomForestClassifier(n_estimators=100, random_state=42)
model.fit(X_train, y_train)

# 进行预测
y_pred = model.predict(X_test)
y_prob = model.predict_proba(X_test)[:, 1]

# 评估模型性能
accuracy = accuracy_score(y_test, y_pred)
roc_auc = roc_auc_score(y_test, y_prob)

print(f'Accuracy: {accuracy}')
print(f'ROC AUC: {roc_auc}')
使用无监督学习进行客户细分(基于Scikit-learn的K-均值算法)
以下是一个简化的Python代码示例,演示了加载客户数据和应用K-均值聚类算法的基本步骤:
import pandas as pd
from sklearn.cluster import KMeans
from sklearn.preprocessing import StandardScaler
import matplotlib.pyplot as plt

# 加载客户交易数据
df = pd.read_csv('customer_data.csv')

# 预处理数据:缩放特征
X = df[['spending', 'frequency']] # 示例特征
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

# 应用K-均值聚类
n_clusters = 3
kmeans = KMeans(n_clusters=n_clusters, random_state=42, n_init=10)
df['cluster'] = kmeans.fit_predict(X_scaled)

# 分析客户群的特征
print(df.groupby('cluster').mean())

# 可视化聚类结果
plt.scatter(df['spending'], df['frequency'], c=df['cluster'], cmap='viridis')
plt.xlabel('Spending')
plt.ylabel('Frequency')
plt.title('Customer Segmentation using K-means')
plt.show()

看看,我们现实生活中机器学习的真实案例分析,这个比啥都管用。

阿里云帮助咱们解决欺诈

问题:金融领域每年因欺诈造成的损失高达数百亿美元。

机器学习方法:阿里云解决方案采用机器学习驱动的欺诈和威胁检测系统。

结果:通过实时分析客户交易,该系统帮助客户减少了超过50%的欺诈损失。

巴克莱银行的股票价格预测

问题:提高市场风险预测的准确性。

机器学习方法:开发了一个量子版本的神经网络。

结果:提高了股票价格预测的准确性。

利用卫星图像测量GDP增长,以前是灯光,现在直接上卫星图像

问题:在传统数据可能有限的次国家和超国家区域测量经济增长。

机器学习方法:使用计算机视觉算法分析卫星图像并将其与GDP相关联。

结果:为传统数据稀疏区域的经济活动测量提供了一种新方法。

如果做了机器学习,那如何理解和分析它的结果呢?不然也是白搭。

在经济学和金融学中,对机器学习结果的解读至关重要,它需要理解常用的评估指标,考虑业务背景,重视模型的可解释性,并关注潜在的偏差问题。
常见的评估指标包括: 对于回归问题,如预测股票价格或经济增长,常用的指标有均方误差(MSE)、均方根误差(RMSE)、平均绝对误差(MAE)和决定系数(R-squared)。对于分类问题,如信用风险评估或欺诈检测,常用的指标有准确率、精确率、召回率、F1分数和受试者工作特征曲线下面积(ROC-AUC)。
对于聚类问题,如客户细分,常用的评估指标有轮廓系数和戴维斯-博尔丁指数,但通常更多地依赖于基于领域知识的定性评估。对于时间序列预测,如股票价格预测,常用的指标有平均绝对百分比误差(MAPE)和均方根误差(RMSE)。
解释机器学习结果时,始终需要将其置于特定的经济或金融问题的背景下。一个高的准确率并不总是意味着显著的商业价值,反之亦然。例如,在信用风险评估中,将高风险借款人错误地分类为低风险的成本可能超过正确分类许多低风险借款人的收益。因此,模型预测的实际意义与统计指标同样重要。
模型的可解释性也日益受到重视,尤其是在金融等受监管的行业 。理解机器学习模型做出特定预测的原因变得越来越重要。特征重要性分析等技术在这方面有所帮助 。
虽然某些复杂的机器学习模型(如深度学习)可能具有很高的预测能力,但其决策过程可能像一个“黑箱”,缺乏透明度,这在需要问责制的场景中可能存在问题。理解哪些特征对模型的预测影响最大,可以提供有价值的见解并建立对系统的信任。

机器学习在经济和金融学领域应用可能的趋势有哪些呢?尤其是生成式人工智能时代的到来。

实时数据分析与处理:随着市场变得更加动态,数据流的复杂性和数量不断增加,使用机器学习进行实时数据分析和处理的趋势日益增长 。这种能力使得能够更快地做出决策并更及时地响应市场变化。
可解释性人工智能(XAI):人们越来越关注开发更透明的机器学习模型,这些模型的决策可以被人类理解,这在金融领域对于监管合规和建立信任尤为重要 。XAI旨在超越“黑箱”模型,提供对预测背后原因的洞察。
非传统数据处理:使用自然语言处理(NLP)和计算机视觉等机器学习技术从新闻文章、社交媒体和卫星图像等非结构化数据源中提取见解,用于经济和金融分析的进展仍在继续 。这扩大了可以用于为经济和金融模型提供信息的Data的范围。
生成式人工智能(Generative AI):生成式人工智能模型能够创建新的内容(文本、图像、合成数据),在金融建模、情景生成和欺诈检测等领域具有潜在的应用 。这类模型为模拟复杂场景和增强现有数据集提供了新的可能性。
强化学习在算法交易和投资组合管理中的应用:强化学习算法在创建复杂的交易策略和优化投资组合方面的开发和应用持续发展 。这使得开发能够根据市场动态学习和调整交易策略的自主代理成为可能。

以后搞量化,不得不弄点机器学习啥的,但不知道为什么DeepSeek的母公司幻化做量化竟然业绩非常一般?

图片

*社群群友可以到社群下载该本书籍PDF。
关于机器学习,参看: 1. 机器学习之KNN分类算法介绍: Stata和R同步实现(附数据和代码) ,2. 机器学习对经济学研究的影响研究进展综述 ,3. 回顾与展望经济学研究中的机器学习 ,4. 最新: 运用机器学习和合成控制法研究武汉封城对空气污染和健康的影响! 5. Top, 机器学习是一种应用的计量经济学方法, 不懂将来面临淘汰危险! 6. Top前沿: 农业和应用经济学中的机器学习, 其与计量经济学的比较, 不读不懂你就out了! 7. 前沿: 机器学习在金融和能源经济领域的应用分类总结 ,8. 机器学习方法出现在AER, JPE, QJE等顶刊上了! 9. 机器学习第一书, 数据挖掘, 推理和预测 ,10. 从线性回归到机器学习, 一张图帮你文献综述 ,11. 11种与机器学习相关的多元变量分析方法汇总 ,12. 机器学习和大数据计量经济学, 你必须阅读一下这篇 ,13. 机器学习与Econometrics的书籍推荐, 值得拥有的经典 ,14. 机器学习在微观计量的应用最新趋势: 大数据和因果推断 ,15. R语言函数最全总结, 机器学习从这里出发 ,16. 机器学习在微观计量的应用最新趋势: 回归模型 ,17. 机器学习对计量经济学的影响, AEA年会独家报道 ,18. 回归、分类与聚类:三大方向剖解机器学习算法的优缺点(附Python和R实现) ,19. 关于机器学习的领悟与反思
20. 机器学习,可异于数理统计 ,21. 前沿: 比特币, 多少罪恶假汝之手? 机器学习测算加密货币资助的非法活动金额! 22. 利用机器学习进行实证资产定价, 金融投资的前沿科学技术! 23. 全面比较和概述运用机器学习模型进行时间序列预测的方法优劣! 24. 用合成控制法, 机器学习和面板数据模型开展政策评估的论文! 25. 更精确的因果效应识别: 基于机器学习的视角 ,26. 一本最新因果推断书籍, 包括了机器学习因果推断方法, 学习主流和前沿方法 ,27. 如何用机器学习在中国股市赚钱呢? 顶刊文章告诉你方法! 28. 机器学习和经济学, 技术革命正在改变经济社会和学术研究 ,29. 世界计量经济学院士新作“大数据和机器学习对计量建模与统计推断的挑战与机遇” ,30. 机器学习已经与政策评估方法, 例如事件研究法结合起来识别政策因果效应了! 31. 重磅! 汉森教授又修订了风靡世界的“计量经济学”教材, 为博士生们增加了DID, RDD, 机器学习等全新内容! 32. 几张有趣的图片, 各种类型的经济学, 机器学习, 科学论文像什么样子? 33. 机器学习已经用于微观数据调查和构建指标了, 比较前沿! 34. 两诺奖得主谈计量经济学发展进化, 机器学习的影响, 如何合作推动新想法! 35. 前沿, 双重机器学习方法DML用于因果推断, 实现它的code是什么?
下面这些短链接文章属于合集,可以收藏起来阅读,不然以后都找不到了。

7年,计量经济圈近2000篇不重类计量文章,

可直接在公众号菜单栏搜索任何计量相关问题 ,

Econometrics Circle




数据系列 空间矩阵 | 工企 数据 | PM2.5 | 市场化指数 | CO2数据 | 夜间灯光 | 官员方言 | 微观数据 | 内部数据
计量系列 匹配方法 | 内生性 | 工具变量 | DID | 面板数据 | 常用TOOL | 中介调节 | 时间序列 | RDD断点 | 合成控制 | 200篇合辑 | 因果识别 | 社会网络 | 空间DID
数据处理 Stata | R | Python | 缺失值 | CHIP/ CHNS/CHARLS/CFPS/CGSS等 |
干货系列 能源环境 | 效率研究 | 空间计量 | 国际经贸 | 计量软件 | 商科研究 | 机器学习 | SSCI | CSSCI | SSCI查询 | 名家经验
计量经济圈组织了一个计量社群,有如下特征: 热情互助最多 前沿趋势最多 、社科资料最多、社科数据最多、科研牛人最多、海外名校最多。因此,建议积极进取和有强烈研习激情的中青年学者到社群交流探讨,始终坚信优秀通过感染优秀而互相成就彼此。

图片

图片








请到「今天看啥」查看全文