专栏名称: 数据猿
关注大数据行业的最前沿资讯,分享最有价值的大数据深度文章,关注“数据猿”就是关注大数据!
目录
相关文章推荐
数据派THU  ·  【CVPR2025】GEN3C:基于3D信息 ... ·  22 小时前  
数据派THU  ·  LLM模型添加自定义Token代码示例:为L ... ·  22 小时前  
数据派THU  ·  2025年清华大学大数据研究中心 | ... ·  5 天前  
一德菁英汇  ·  【数据点评】政府债券大增,居民融资偏弱 ·  3 天前  
一德菁英汇  ·  【数据点评】政府债券大增,居民融资偏弱 ·  3 天前  
51好读  ›  专栏  ›  数据猿

【案例】鹏华基金——金融领域的日志大数据实践

数据猿  · 公众号  · 大数据  · 2017-06-26 08:01

正文

数据猿导读

依托移动终端的普及和互联科技的飞速发展,金融行业需要抓住机会技术升级、积极应变。在转型过程中如何利用大数据技术发掘数据真正的价值,是当前金融业打破传统局限、应对深刻变化的解决之道。


本篇案例为数据猿推出的大型 “金融大数据主题策划” 活动 (查看详情) 第一部分的系列案例/征文;感谢 日志易 的投递


作为整体活动的第二部分,2017年6月29日,由数据猿主办,互联网普惠金融研究院联合主办, 上海金融行业信息协会、 中国信息通信研究院、大数据发展促进委员会、上海大数据联盟、首席数据官联盟、中国大数据技术与应用联盟、上海张江发展战略研究院、人大人科创协办的 《「数据猿·超声波」之金融科技·商业价值探索高峰论坛》 还将在上海隆重举办 【论坛详情】


在论坛现场,也将颁发 “技术案例奖”、“ 应用案例奖 ”、“ 实践案例奖 ”、“优秀征文奖” 四大类奖项



来源:数据猿丨投递:日志易


本文长度为 6000 字,建议阅读 12 分钟


两年前《政府工作报告》中指出,要“制定‘互联网+’行动计划”,“促进互联网金融健康发展”,标志着我国金融行业正面临着用互联网和新技术重构业务、管理与IT的重大变革窗口。


依托移动终端的普及和互联科技的飞速发展,金融行业也面临着与日俱增的海量日志,这既给传统金融行业带来了巨大的压力,又提供了广阔的发展空间,金融行业需要抓住机会技术升级、积极应变。在转型过程中如何利用大数据技术发掘数据真正的价值,是当前金融业打破传统局限、应对深刻变化的解决之道。


2016年我国基金行业总规模历史首次突破9万亿。随着宏观金融环境的优化和资本市场基础性制度的不断完善,为基金行业发展提供了良好的制度背景。作为支撑基金行业发展的基金业务系统(电商,直销,零钱,TA系统,柜台,支付,投研等)其重要性以及实时性要求日益剧增,尤其是业务系统云化后之后,传统的ITOM手段已经无法满足业务系统运维管理的需求,不少行业领头羊纷纷进入ITOA领域,利用大数据技术,提高和保障业务系统的可用性,并进一步挖掘运维数据的价值。


而作为ITOA重要数据之一的机器数据,贯穿着整个基金业务系统的各处理环节,通过对业务系统各环节机器数据的分析,可以快速协助运维人员尽快故障定位,还能实时发现业务系统异常告警,同时还可以统计业务量,业务时延,业务成功率等指标,已经成为基金行业ITOA必备手段。


周期/节奏


2016年3月初,日志易接洽鹏华基金,进行客户需求调研及可行性方案研究,4月下旬开始部署测试日志易日志管理平台,5月份进入招标阶段,最终在8月正式签下合同。


客户名称/所属分类


鹏华基金/大数据技术服务


任务/目标


客户提出建立一个日志管理统一平台,该平台首先应满足2017年6月1日即将正式实施的《中华人民共和国网络安全法》相关要求。即在日志存储方面可以对用户敏感数据进行脱敏处理;对数据进行不少于6个月备份管理;同时可以还原指定时间范围的应用日志,并提供查询功能,满足监管部门取证要求。


同时使用日志管理平台能对各类型日志进行准实时检索分析,如针对网络设备、安全设备日志,实现自动安全巡检,攻击溯源以及攻击预警,发现传统安全设备没有发现或阻断的安全威胁。通过用户行为日志实现对内网各环节的用户行为进行安全行为审计,对业务日志分析进行业务逻辑告警以及用户行为分析、数据挖掘等等。


挑战


在互联网时代,各种各样的行为都会被以“日志”形态记录存储下来,这些日志数据包括了用户的基本信息、网络浏览行为、交易行为、社交行为等等。在基金行业,面对每天交易所产生的海量数据,以及各种服务器、防火墙所产生的日志,如何在大体量数据中挖掘有效信息加以利用是一个重大难题。


日志分散难以管理


日志产生于不同的业务部门、分布在不同的服务器上,无人重视随时可能被覆盖和删除,缺乏日志管理机制。只有将这些分散的日志数据统收集、才能相互对照,发现问题所在。以投资银行为例,传统模式下,交易部门和研究部门的数据是相互独立,甚至数据的储存格式都不同,由此形成一个个信息孤岛,造成不同系统间关联分析困难、事故原因分析困难。


缺乏海量日志处理能力


数据体量大所带来的问题不仅仅是存储,更多的是庞大的数据无法使用。作为成熟的金融行业,随着网上支付、手机银行、互联网金融等新一代业务的出现,每天产生的各种业务数据、网络设备数据及防火墙数据等将轻松突破TB级别,传统的数据库及系统架构已经无法支撑如此庞大的数据量,传统方法处理效率低、时延长,企业完全淹没在一片数据汪洋之中。


日志格式复杂难以解读


就日志数据来说,最容易处理的是企业内部的传统数据——结构化数据。然而随着信息技术的飞速发展,日志数据的范围已经扩大到企业的各个层面,服务器、各种网络设备及五花八门的应用软件产生了多种多样的数据格式。这些数据的可读性很差,对于普通人来说无异于乱码,即便是专业的技术人员,也很难一眼看懂一条数据。


使用成本高昂


作为电子货币与交易信息传输系统,一旦出现账户盗用、虚假信息等现象,将既影响到国家金融与个人经济利益,又涉及到交易隐私的安全性,同时还增加了金融风险的传导与扩散危险,面对海量日志带来的运维难题,无论是购买国外最先进的产品还是聘请专业的技术团队对企业来说都是一笔不小的开支,需要花费大量的人力物力。


实施过程/解决方案


作为2014年3月成立的国内首家海量日志分析企业,优特捷信息技术有限公司一直致力于开发一款易用、灵活而强大的日志管理工具——日志易,以高品质的产品为金融行业用户信息化建设搭建高可靠动力平台,竭力探寻金融行业对数据更深层次的需求,帮助企业降低业务流程和应用系统的开发和运维成本,实现准实时处理海量日志,从而达到大数据时代的风险管控需求。目前日志易已成功为国内银行、基金、支付行业等诸多商业用户提供日志解决方案。


日志易为客户提供的解决方案如下:


统一采集,集中管理


日志易为企业建立统一日志管理平台,将分散的日志统一采集,整个系统由多个模块构成,用户可以根据自身服务器资源、数据量、系统稳定性等因素自定义各个模块的节点组成,同时支持物理机和虚拟机混合部署,保证数据安全性。



在鹏华基金的项目中,日志易提供直观的web界面对日志采集源进行管理,用户可以直接从页面添加需要采集的日志目录及文件:



点击具体IP地址,工程师可以看到日志采集agent对相应目录下日志文件的采集情况,方便管理,彻底解决了日志分散的问题:



同时日志易实现日志全生命周期管理,支持配置不同appname生命周期,支持索引定期备份,支持界面化日志恢复。



日志解析,让日志格式化


日志易提供常见日志格式的自动解析,将非格式化日志转化为格式化日志。同时为用户提供交互友好的提取字段功能。用户可使用鼠标划选日志内容,系统将自动生成正则表达式。帮助用户将日志中的有效信息划分为一个个字段,方便查看和检索。


日志易同时支持在数据接入存储之后,根据搜索统计需求,提取临时字段。并以这些临时字段进行后续统计分析。解决了数据预先处理的性能损耗、冗余字段的磁盘占用、提取规则变动时的重建处理等诸多常见问题。


在鹏华基金项目中,企业拥有多种日志格式需要统一处理日志易详细了解该基金公司需求,搭建日志管理平台,将各类日志统一收集:



日志易对Apache、Linux、JSON等常见格式日志自动解析,同时也提供自定义日志解析功能:对于一条超过1k的复杂的日志,日志易可对其进行多行合并处理并提供多种自定义解析方法,同时支持对日志进行中文转换等处理,使日志内容更易读。


例如该公司的原始金证系统日志,日志内容复杂,结构混乱,可读性极差,通过多行日志合并,正则匹配等方式完成重要字段抽取解析。


解析前:



解析后:



敏感信息过滤


针对基金行业涉及的敏感信息,日志易提供灵活的脱敏处理,用户可以将日志信息中的敏感信息在集中采集时进行替换:



利用字段提取-内容替换功能,用户可自定义设置敏感信息替换,例如:


将日志信息中的卡号信息(15~19位数字)和身份证信息(15或18位数字,末尾可能为X),使用正则匹配将账户信息替换为:$1#######$2


完善的权限体系


作为一个安全可靠的日志管理平台,日志易同时也提供完善的权限管理体系,用户可建立日志分组及用户分组进行权限划分,同时针对敏感信息提供灵活的脱敏服务保障客户的数据安全。


日志准实时检索,快速定位目标日志


日志易日志处理速度达到500万/秒,总字节可达到100TB/天。日志易支持全文索引,用户无需掌握复杂的查询语句,可以像使用搜索引擎一样查询日志,通过鼠标点击实现字段过滤、时间范围选择和简单查询。系统采用分布式数据处理技术,可达到秒级延时。


通过日志搜索界面,日志易将所有日志集中展现,用户只需点击相应日志类型,即可筛选出特定日志格式。


同时用户利用日志易可对日志进行准实时检索,在鹏华基金案例中,269万条10G日志可在5秒钟返回搜素结果,帮助用户快速定位问题日志:







请到「今天看啥」查看全文