专栏名称: 计量经济圈
记录一个我们生活在其中的时代社会,囊括的主题如下:经济、社会、世界和计量工具。
目录
相关文章推荐
51好读  ›  专栏  ›  计量经济圈

不想被淘汰, 必须看这份“另类数据,机器学习和文本分析”的前沿文献菜单

计量经济圈  · 公众号  ·  · 2024-05-19 20:00

正文

凡是搞计量经济的,都关注这个号了
箱: [email protected]
所有计量经济圈方法论 丛的code程序 , 宏微观 数据库和各种软 件都放在社群里.欢迎到计量经济圈社群交流访问 .

另类数据,机器学习和文本分析”的前沿文献菜单

接着 TOP前沿: 文本分析方法必读实用指南! 基于文本即数据的机器学习! ”和“ 一张图搞懂机器学习, 不同机器学习算法的应用场景和原理 ,在当今数字化时代,随着机器学习技术和诸如GPT这样的大型模型技术的发展,另类数据(alternative data)已经成为金融会计研究中不可或缺的重要数据来源之一,尤其在学术研究群体中的应用日益广泛。
另类数据,指的是那些非传统来源的数据,它们被用来获取投资洞察。在股票投资领域,传统数据通常指的是公司直接提供的信息,如公司公告、财务报表或收益电话会议记录。与此相对,另类数据则来源于公司之外,由其他组织或技术生成。
从社交情绪分析、网络爬虫技术、信用卡交易记录、卫星图像、地理定位信息到自然语言处理(NLP),各种类型的另类数据层出不穷,它们可以帮助我们洞察市场趋势、发现新趋势并进行研究预测。
这份精心挑选的机器学习、另类数据和文本分析的经典文献和书籍,是每位社会科学学者的必读之作。在即将到来的大模型时代,要想保持学术竞争力,关键在于掌握如何运用最前沿的工具,获取那些难以被他人触及的学术信息。
*以下文章和书籍可在社群下载学习。

另类数据和机器学习在金融领域的兴起

在当今数字化时代,我们每天产生的数据量高达1.14万亿MB,为定量分析师和投资者提供了丰富的另类数据资源。更值得一提的是,随着机器学习技术和诸如GPT这样的大型模型技术的发展,另类数据已经成为金融经济学研究中不可或缺的重要数据来源之一,尤其在学术研究群体中的应用日益广泛。
从社交情绪分析、网络爬虫技术、信用卡交易记录、卫星图像、地理定位信息到自然语言处理(NLP),各种类型的另类数据层出不穷,它们可以帮助我们洞察市场趋势、发现新趋势并进行预测。
在过去十年里,金融公司和投资经理们已经越来越频繁地利用这些另类数据来寻找能够带来超额回报的投资机会。随着个人投资者和投资经理在金融市场中不断寻求超额回报,另类数据的流行也推动了对数据科学和机器学习的需求,以解析这些庞大且通常是非结构化的数据。
实际上,Grennich Associates的一项研究显示:
72%的投资公司表示,另类数据增强了他们的投资信号,其中超过五分之一的受访者声称他们的超额回报中有超过20%的部分来自于另类数据(在行业术语中,这指的是超越市场平均水平的能力)。
尽管这些数据过去主要限于对冲基金和机构资产管理者使用,但近年来,另类数据的可用性和可访问性已经显著提高,面向各种规模的投资者。
在本指南中,我们将深入探讨另类数据的定义、示例和挑战,以及如何利用机器学习从海量数据中提取有价值的洞见和可行的交易信号。
具体来说,我们将讨论以下内容:
  1. 另类数据是什么?

  2. 另类数据的示例和应用场景

  3. 另类数据面临的挑战

  4. 将机器学习应用于另类数据

  5. 案例研究:另类数据对投资者的实际价值

另类数据,指的是那些非传统来源的数据,它们被用来获取投资洞察。在股票投资领域,传统数据通常指的是公司直接提供的信息,如公司公告、财务报表或收益电话会议记录。与此相对,另类数据则来源于公司之外,由其他组织或技术生成。
另类数据的使用旨在为投资者提供竞争优势,因为它们可能包含关于公司的独特且未被广泛认知的信息。正如另类数据聚合平台Quandl所言,"另类数据是未被充分挖掘的超额收益源泉":
本十年对投资者最大的机遇,隐藏在数字经济产生的数据信号之中。另类数据是当今世界最深、最未被充分利用的超额收益来源。
另类数据的示例和应用案例
一些最常见和最早被利用的另类数据来源包括:
  • 信用卡交易记录

  • 网络爬虫抓取的数据

  • 移动设备数据

  • 地理定位信息

  • 卫星图像

  • 天气预测

  • 物联网传感器数据

  • 环境、社会和公司治理(ESG)数据

由于隐私问题以及GDPR、CCPA等法规的影响,这些数据集受到更严格的监管,催生了新的数据来源和另类数据供应商。
Dataiku在其白皮书中提到的一些另类数据集示例和应用案例包括:
地理空间数据
一家公司利用地理空间数据发现,在推出新产品一个月后,Popeyes和Chick-fil-A餐厅的客流量增加,这表明销售额有所提升。这为产品发布后的更广泛趋势,如供应链能力,提供了新的洞察。
卫星图像
一家技术公司通过追踪油轮的卫星信号,监测全球海上贸易活动。这些数据帮助公司准确预测了全球航运业的放缓,并据此做空原油期货。
自然语言处理(NLP)
一家公司使用自然语言处理技术分析飓风艾琳的初步新闻报道,以验证某些数据并评估保险公司的风险敞口。
从这些例子中可以看出,将原始的另类数据转化为交易和投资洞察的过程,其难度并不亚于获取数据本身。幸运的是,借助机器学习技术,这些大数据分析的洞察可以被转化为更易于理解和操作的指标。

另类数据的挑战

毫无疑问,另类数据能够揭示消费者或商业趋势中的关系和模式,从而为传统数据集提供补充。然而,将这些洞见转化为交易信号,是更具挑战性的任务之一。
随着数据科学和机器学习技术的日益普及,另类数据的应用也在逐年增长。但围绕另类数据,仍存在一些疑虑,包括:
  • 获取数据的成本和难度

  • 招募能够有效利用另类数据的技术人才

  • 利用数据准确评估金融风险和识别投资机会

要克服这些挑战,拥有正确的技术并在组织内部建立数据科学与机器学习的基础至关重要。正如Dataiku所指出:
通过使用一个包容性、协作性的数据科学和机器学习平台,投资者可以吸引更多人参与进来,确保从数据科学家到量化分析师再到普通分析师等合适的人员能够在各个项目中共同协作,从而提高生产力,并让需要的人能够看到这些成果。
现在我们已经讨论了另类数据的兴起及其相关挑战,接下来让我们探讨如何利用人工智能和机器学习从这些数据中提取有价值的见解。

将机器学习应用于另类数据

人工智能和机器学习的最新发展,已经改变了分析师、数据科学家和投资经理处理和分析大数据的方式。
特别是,我们见证了“量化基本面投资”(Quantamental Investing)的重大转变,正如量化基本面投资指南中所描述:
量化基本面投资使资产管理者能够利用数据科学和机器学习的进步,同时仍然可以运用他们对市场的判断、知识和专业技能。

尽管许多大型量化对冲基金多年来一直在他们的算法交易中使用机器学习,但这些最新进展为不同规模的投资者在他们的投资研究过程中引入这项技术打开了大门。


下面这些短链接文章属于合集,可以收藏起来阅读,不然以后都找不到了。

7年,计量经济圈近2000篇不重类计量文章,

可直接在公众号菜单栏搜索任何计量相关问题 ,

Econometrics Circle




数据系列 空间矩阵 | 工企 数据 | PM2.5 | 市场化指数 | CO2数据 | 夜间灯光 | 官员方言 | 微观数据 | 内部数据
计量系列 匹配方法 | 内生性 | 工具变量 | DID | 面板数据 | 常用TOOL | 中介调节 | 时间序列 | RDD断点 | 合成控制 | 200篇合辑 | 因果识别 | 社会网络 | 空间DID
数据处理 Stata






请到「今天看啥」查看全文