专栏名称: 数据STUDIO
点击领取《Python学习手册》,后台回复「福利」获取。『数据STUDIO』专注于数据科学原创文章分享,内容以 Python 为核心语言,涵盖机器学习、数据分析、可视化、MySQL等领域干货知识总结及实战项目。
目录
相关文章推荐
财宝宝  ·  我家婆娘是60.35公斤。也没什么。关键看肉 ... ·  20 小时前  
财宝宝  ·  你怎么称呼你家那个120斤的美美哒? ... ·  3 天前  
财宝宝  ·  这还要你教?滚!-20250208223758 ·  3 天前  
51好读  ›  专栏  ›  数据STUDIO

竞赛总结:科大讯飞2023 基于财报的次日价格涨跌预测挑战赛

数据STUDIO  · 公众号  ·  · 2023-11-27 10:48

正文


  • 赛题名称:基于财报的次日价格涨跌预测挑战赛
  • 赛题任务:自然语言处理

https://challenge.xfyun.cn/topic/info?type=next-day-price-fluctuations

答辩视频:https://www.bilibili.com/video/BV1nb4y1T7kr?p=10

赛事背景

上市公司的信息披露行为指上市公司根据相关法规和规定,向投资者和公众披露与公司经营和股票价格相关的重要信息的行为。信息披露是上市公司的义务和责任,旨在保护投资者的合法权益,提高市场透明度,维护市场的公平性和健康发展。

基于上市公司公告文本信息预测次日价格涨跌的挑战赛旨在探索文本数据与股票价格之间的关联性,并利用自然语言处理和机器学习技术来进行股票价格的预测。参赛者将通过分析上市公司的公告文本,预测其次日股票价格的涨跌情况,以此提高投资者的决策能力和金融从业者的风险管理能力。

赛事任务

本次挑战赛提供了部分上市公司的公告文本数据以及对应的次日股票价格涨跌情况作为训练样本,参赛选手基于提供的样本构建模型,探索文本数据与股票价格之间的关系,并提出有效的预测模型。通过交叉验证等方法对模型进行评估,并根据评估结果对模型进行优化。最终,通过预测股票价格的涨跌,参赛选手可以为投资者提供更准确的预测结果,帮助他们做出更明智的投资决策,同时也对金融领域的研究和实际应用做出贡献。

评审规则

数据说明

本次比赛为参赛选手提供了2类数据:上市公司的公告文本数据以及对应的次日股票价格涨跌情况。公告文本数据包括文本内容以及披露时间等关键信息。所有数据均为公开数据,数据集提供近期的公告文本信息,例如三个月,具体日期范围以提供数据为准。

评估指标

本模型的预测准确率依据提交的结果文件,采用F1-score进行评价。

此外,依据参赛选手提交的技术报告,评估模型方法的科学性以及提取特征因子的有效性,选手需在报告中说明各个因子的来源以及对股票涨跌预测的贡献。

优胜方案分享

投资需谨慎

第一名选手介绍了他们团队的成员构成和算法方案。他们团队的成员主要来自北京大学智能学和经济管理学,他们利用自然语言处理和机器学习技术构建了一个基于BERT模型的股票价格预测模型。

他们的算法方案主要包括以下几个步骤:

  1. 数据收集和预处理:他们从公开渠道收集了大量的上市公司财报文本数据,并进行了数据清洗和预处理,包括去除噪声、标记化、分词等。
  2. 模型构建:他们使用了BERT模型作为基础模型,通过预训练和微调的方式来提取文本的上下文表示。他们只更新BERT模型的最后六层和分类层,并使用交叉熵损失函数进行训练。
  3. 数据增强:为了增加训练数据的规模,他们额外收集了大量的财报数据,并将其作为训练集,将主办方提供的数据作为验证集。他们通过数据匹配和去重的方式,确保训练集中不包含验证集的数据。
  4. 模型评估和优化:他们使用验证集对模型进行评估,并根据评估结果进行模型的优化。他们还分析了数据规模对模型性能的影响,并提出了进一步增加训练数据的优化思路。

第一名还提到了他们团队的下阶段优化思路,包括进一步增加训练数据、尝试其他大语言模型、添加可解释性等方面的工作。

划水大队

第二名选手介绍了他们团队的成员构成和算法方案。他们团队的成员主要来自中科学院计算所和人大,他们利用财报PDF文本进行股票价格涨跌的预测,将其作为二分类任务,并使用F1-score作为评估指标。

他们的算法方案主要包括以下几个步骤:

  1. 数据预处理:他们使用pdf2text工具将财报PDF转换为文本格式,并进行了长度分析和零一分布统计。
  2. 模型选择:他们选择了Reformer模型作为基础模型,因为它可以接受较长的文本长度,并使用前100个字作为输入。
  3. 模型训练和优化:他们使用常规的训练优化策略,包括Full Class、学习率规划器和优化算法,如Cosine和Adam。
  4. 模型推理和性能:他们使用单模型进行推理,推理时间大约为12分钟,效果良好。

第二名还提到了他们团队的下阶段优化思路,包括尝试不同的底层模型和数据集的分析。他们的方法相比其他选手的创新点在于使用Reformer模型处理较长的文本,并通过前100个字来反映财报的利好利坏消息。他们的算法在推理性能和效果上都表现出色。

小柚子

第三名选手绍了他们团队的成员构成和算法方案。他们团队的成员来自电信运营商、银行和医训科技,拥有金融和机器学习的背景,并在过去的比赛中获得了一些奖项。

他们的算法方案主要包括以下几个步骤:







请到「今天看啥」查看全文