平安寿险分享金融行业数据湖选型和应用

DataFunTalk · 公众号 · · 2024-10-10 13:03

正文

本文来自数据湖技术成熟度曲线发布会圆桌，圆桌链接在文章结尾，欢迎观看。

扫码下载数据湖技术成熟度曲线

唐浪飞（平安寿险数据湖负责人）：金融行业的数据湖选型，与互联网行业会有一些差异。

我本人对数据湖技术的关注开始于2019年，当时在vivo工作，主要是希望解决互联网场景下流批一体的问题。因为我们在资源和成本上遇到瓶颈，希望通过引入数据湖组件来替换Lambda架构，转向Kappa架构。然而在实践中，我们发现现实与理想存在一定差距，尤其是在时效性上。我们期望通过流式计算实现秒级的数据处理，但实际只能达到5分钟以上，这让业务部门感到不太满意。

到了平安后，需求有所不同。首先，金融行业对数据时效的要求没那么高，而是更注重稳定性。其次，我们的生态系统更多依赖于Oracle数据库，特别是在数据存储架构上，很多业务系统都基于Oracle。这就要求我们在选择技术时考虑Oracle的特性，比如与Redo日志的联动能力。

因此，我们在选择时主要考虑了Apache Hudi和Apache Iceberg。尽管Delta Lake也有一些优势，但由于商业版的限制，普通版的功能支持并不够完善。经过验证，我们发现Apache Hudi在支持upsert能力和多版本表（MLR表）方面表现较好，因此我们最终选择了Apache Hudi作为基础组件。

Q：目前在业务场景上取得了什么样的进展呢？

唐浪飞（平安寿险数据湖负责人）：我们的使用时间不长，大约两年时间。我们在Apache Hudi 0.11版本上遇到了一些兼容性问题，但当时更看重upsert能力，所以这个版本已经满足了我们的需求。

目前在两个业务场景上取得了一些突破。第一个是处理上百亿行的业务系统数据，原来要进行增量同步扫描，非常耗时。通过引入Apache Hudi和CDC（Change Data Capture），现在可以每天处理一亿条数据峰值，解决了这个瓶颈。第二个场景是监管报送。金融行业对数据的准确性和稳定性要求很高，在这方面也取得了显著进展。

此外，我们还在一些互联网场景上应用了Apache Hudi，比如平安好车主APP，这涉及到用户行为数据的实时处理。通过Flink和Apache Hudi的结合，实现了分钟级的实时能力。

不过，现阶段依然面临很多挑战，尤其是在Hive的替代上。希望通过Apache Hudi解决历史数据的多版本问题，减少存储冗余和计算资源消耗。

扫码下载数据湖技术成熟度曲线

老师介绍：

唐浪飞平安产险数据智能平台团队数据湖负责人
曾就职于腾讯，vivo等互联网公司，主要从事基于hadoop生态的大数据平台体系建设
基础组件建设和分布式系统优化等基础技术实践。现在平安产险负责湖仓一体平台建设

平安寿险分享金融行业数据湖选型和应用

正文

请到「今天看啥」查看全文