专栏名称: DataFunTalk
专注于大数据、人工智能领域的知识分享平台。
目录
相关文章推荐
搜猪  ·  生猪现货日报|全国均价14.78元/公斤 ... ·  10 小时前  
51好读  ›  专栏  ›  DataFunTalk

平安寿险分享金融行业数据湖选型和应用

DataFunTalk  · 公众号  ·  · 2024-10-10 13:03

正文

本文来自数据湖技术成熟度曲线发布会圆桌,圆桌链接在文章结尾,欢迎观看。

扫码下载数据湖技术成熟度曲线

唐浪飞(平安寿险数据湖负责人):金融行业的数据湖选型,与互联网行业会有一些差异。

我本人对数据湖技术的关注开始于2019年,当时在vivo工作,主要是希望解决互联网场景下流批一体的问题。因为我们在资源和成本上遇到瓶颈,希望通过引入数据湖组件来替换Lambda架构,转向Kappa架构。然而在实践中,我们发现现实与理想存在一定差距,尤其是在时效性上。我们期望通过流式计算实现秒级的数据处理,但实际只能达到5分钟以上,这让业务部门感到不太满意。

到了平安后,需求有所不同。首先,金融行业对数据时效的要求没那么高,而是更注重稳定性。其次,我们的生态系统更多依赖于Oracle数据库,特别是在数据存储架构上,很多业务系统都基于Oracle。这就要求我们在选择技术时考虑Oracle的特性,比如与Redo日志的联动能力。

因此,我们在选择时主要考虑了Apache Hudi和Apache Iceberg。尽管Delta Lake也有一些优势,但由于商业版的限制,普通版的功能支持并不够完善。经过验证,我们发现Apache Hudi在支持upsert能力和多版本表(MLR表)方面表现较好,因此我们最终选择了Apache Hudi作为基础组件。

Q:目前在业务场景上取得了什么样的进展呢?

唐浪飞(平安寿险数据湖负责人):我们的使用时间不长,大约两年时间。我们在Apache Hudi 0.11版本上遇到了一些兼容性问题,但当时更看重upsert能力,所以这个版本已经满足了我们的需求。

目前在两个业务场景上取得了一些突破。第一个是处理上百亿行的业务系统数据,原来要进行增量同步扫描,非常耗时。通过引入Apache Hudi和CDC(Change Data Capture),现在可以每天处理一亿条数据峰值,解决了这个瓶颈。第二个场景是监管报送。金融行业对数据的准确性和稳定性要求很高,在这方面也取得了显著进展。

此外,我们还在一些互联网场景上应用了Apache Hudi,比如平安好车主APP,这涉及到用户行为数据的实时处理。通过Flink和Apache Hudi的结合,实现了分钟级的实时能力。

不过,现阶段依然面临很多挑战,尤其是在Hive的替代上。希望通过Apache Hudi解决历史数据的多版本问题,减少存储冗余和计算资源消耗。

扫码下载 数据湖技术成熟度曲线

老师介绍:

  • 唐浪飞 平安产险 数据智能平台团队 数据湖负责人

  • 曾就职于腾讯,vivo等互联网公司,主要从事基于hadoop生态的大数据平台体系建设

  • 基础组件建设和分布式系统优化等基础技术实践。现在平安产险负责湖仓一体平台建设







请到「今天看啥」查看全文