3月16日,由清华大学大数据系统软件国家工程研究中心主办的“大数据智能学术论坛”第一期在线上成功举办。
本次论坛聚焦“时间序列数据压缩”主题,邀请
清华大学张焕晨助理教授、浙江大学陈璐研究员、中国人民大学张峰教授
三位行业专家作专题分享,并围绕时序数据压缩的技术机遇与挑战、创新方法及未来方向展开深入探讨。
论坛吸引了来自学术界和工业界的百余名师生参与。
(一)论坛开场
清华大学大数据系统软件国家工程研究中心执行主任、软件学院院长王建民作论坛开场介绍,清华大学软件学院宋韶旭副教授主持会议。王建民院长指出,在AI大模型与具身智能行业强势崛起、工业物联网与移动互联网技术迅速发展的背景下,面向社会大众的数据处理需求日益增长,数据在时间和空间维度上的处理与存储面临重大挑战,进而引出本次论坛的研讨核心——“时序数据压缩”技术。同时重点介绍了大数据系统软件国家工程研究中心作为我国大数据领域的重要科研平台,在推动大数据与人工智能技术的融合创新方面发挥的重要作用。另外,王院长也对未来大数据智能化、人工智能工程化及国家工程研究中心的发展作出了展望。
(二)嘉宾报告亮点
张焕晨(清华大学):下一代开源数据文件格式(F3)设计与优化新范式
张焕晨老师介绍了其团队在数据文件格式方面的最新研究成果——新一代开源数据文件格式(F3)。
他指出,F3具备高效性、互操作性和可扩展性的核心优势。其团队通过对Parquet和ORC进行全面基准测试,发现现代存储介质(如SSD)的带宽大幅提升,而计算资源逐渐成为瓶颈。因此,F3采用轻量级编码和解压缩技术,以减少CPU开销。
F3引入了基于Web Assembly的轻量级压缩框架与技术,将解压缩逻辑嵌入文件中,实现跨平台兼容性和动态扩展能力,同时优化对随机访问和向量数据的支持。这一设计使得不同平台和应用程序能够无缝读取和处理F3文件,无需依赖特定的解压缩库。同时,也呼吁学术界与工业界联合推动标准化,打造更高效、灵活的通用存储格式。
陈璐(浙江大学):时序与时空数据的压缩优化策略探索
陈璐老师分享了其实验室在时序数据和时空数据压缩方面的研究成果与技术突破。首先指出目前数据压缩面临的几点挑战,包括实时性、资源约束与压缩率和精度的问题等。时序数据的压缩需兼顾实时性和精度,而时空数据的压缩则需处理时间和空间的双重维度。
陈璐分享了一种基于差分编码和零值压缩的算法,并提出浮点数据的整数与小数分离压缩方法,通过分析数据的波动性,动态选择参考值提升压缩率,调整编码策略。实验结果表明,该方法在保持较高压缩率的同时,显著提升了查询效率,同时支持精度可控的有损压缩。
时空数据压缩方面,针对轨迹数据的不确定性,陈璐团队提出了一种基于参考轨迹的压缩方法,平衡实时性与压缩率。通过选取典型轨迹并利用三元组表示差异,该方法在保证精度的同时,显著减少了存储需求。
在金融、交通等多个应用场景都验证了其研究算法的高效性,为物联网设备数据处理提供新思路。
张峰(中国人民大学):压缩数据直接计算技术研究
张峰老师重点探讨了压缩数据直接计算技术的最新进展及多元应用场景。他指出,传统的压缩方法在流数据处理和时序数据库中存在性能瓶颈,而压缩数据直接计算技术可以有效解决这一问题。
张峰团队提出了一种自适应的流数据处理框架,结合轻量级压缩算法和动态成本模型,实现了高效的压缩数据传输和处理,在IOTDB等系统中实现吞吐量提升3倍以上。针对时序数据库的查询需求与技术优化,张峰团队正在研究面向时序数据的同态查询理论体系,支持压缩数据上的直接查询(如Filter、Projection),实现压缩数据的直接计算,提升查询效率,减少解压开销。