本文来自数据湖技术成熟度曲线发布会圆桌,圆桌链接在文章结尾,欢迎观看。
扫码下载数据湖技术成熟度曲线
唐浪飞(平安寿险数据湖负责人):金融行业的数据湖选型,与互联网行业会有一些差异。
我本人对数据湖技术的关注开始于2019年,当时在vivo工作,主要是希望解决互联网场景下流批一体的问题。因为我们在资源和成本上遇到瓶颈,希望通过引入数据湖组件来替换Lambda架构,转向Kappa架构。然而在实践中,我们发现现实与理想存在一定差距,尤其是在时效性上。我们期望通过流式计算实现秒级的数据处理,但实际只能达到5分钟以上,这让业务部门感到不太满意。
到了平安后,需求有所不同。首先,金融行业对数据时效的要求没那么高,而是更注重稳定性。其次,我们的生态系统更多依赖于Oracle数据库,特别是在数据存储架构上,很多业务系统都基于Oracle。这就要求我们在选择技术时考虑Oracle的特性,比如与Redo日志的联动能力。
因此,我们在选择时主要考虑了Apache Hudi和Apache Iceberg。尽管Delta Lake也有一些优势,但由于商业版的限制,普通版的功能支持并不够完善。经过验证,我们发现Apache Hudi在支持upsert能力和多版本表(MLR表)方面表现较好,因此我们最终选择了Apache Hudi作为基础组件。
Q:目前在业务场景上取得了什么样的进展呢?
唐浪飞(平安寿险数据湖负责人):我们的使用时间不长,大约两年时间。我们在Apache Hudi 0.11版本上遇到了一些兼容性问题,但当时更看重upsert能力,所以这个版本已经满足了我们的需求。
目前在两个业务场景上取得了一些突破。第一个是处理上百亿行的业务系统数据,原来要进行增量同步扫描,非常耗时。通过引入Apache Hudi和CDC(Change Data Capture),现在可以每天处理一亿条数据峰值,解决了这个瓶颈。第二个场景是监管报送。金融行业对数据的准确性和稳定性要求很高,在这方面也取得了显著进展。
此外,我们还在一些互联网场景上应用了Apache Hudi,比如平安好车主APP,这涉及到用户行为数据的实时处理。通过Flink和Apache Hudi的结合,实现了分钟级的实时能力。
不过,现阶段依然面临很多挑战,尤其是在Hive的替代上。希望通过Apache Hudi解决历史数据的多版本问题,减少存储冗余和计算资源消耗。
扫码下载
数据湖技术成熟度曲线
老师介绍: