5月17-18日,2017亚太OTT/IPTV生态大会在北京隆重召开。在18日下午举行的“IPTV新业务发展论坛”上,上海星红桉数据科技有限公司营销中心总经理、副总裁郭硕带来了《星红桉的大数据之路》的精彩演讲。
图为:上海星红桉数据科技有限公司营销中心总经理、副总裁 郭硕
据郭硕介绍,星红桉成立于上海,第一个数据平台建设始于2013年新疆天山云大数据平台;截止到15年8月,已经为10家以上的有线电视提供数据服务;2015年12月开启IPTV业务之旅,为山东IPTV提供数据分析服务;2016年4月为广西IPTV提供数据服务;2016年5月为大象融媒提供数据服务;2016年8月为为河北IPTV提供服务;2017年期待为更多的客户提供数据服务。
一方面是巨大的数据,另一方面是在大数据系统架构进行的分析和商业应用。为什么这么说呢,因为一直以来,数据量和分析的元素一直都在。做大数据的目的就是让业务表现的更佳,创造新的价值。
星红桉把数据定为4步,数据本身、从数据获取信息、认知,然后是人工智能。
数据应用3大核心领域:创意与节目的匹配、广告与内容的匹配、内容与人的匹配。
数据存储3个层次:内存数据库集群(Redis);分布式文件存储(HDFS);数据库存储。
实例分析:
每个用户每天产生的数据量值,数据量值每个用户平均每天产生1150条数据,其中主动行为数据50条。按100万用户计算,每天产生数据11亿5千万条数据,文件大小约75G。一个月平均产生340亿5千万条数据。
根据实际测试,按照1分钟心跳,根据57万实时在线户数高峰期实测,单台采集每秒流量为2MB/s,考虑做1.2倍冗余,计算所需带宽如下:100万实时在线户数高峰期带宽需求:(100/57)*(2*1.2)*8*7=236M。
郭硕表示,他们每天为8个百万用户以上量级的系统提供服务。
数据的ETL
目标:通过对数据的清洗、分析、审核工作,建立一套可以被信赖的数据集。
实例:74G数据写入分布式文件系统需30分钟左右,处理到业务单元时间为8分钟。
郭硕指出,ETL的过程代表对业务本质的认知。是最基础的一步。此过程都围绕这一件事情做“整合”。此外星红桉还提供咨询报告,我们服务的客户,每周、每月都出服务的报告。
演讲最后,郭硕补充到,没有大数据能离开人工智能,分支亦然。星红桉也在进行第一步探索,包括产品往运营商输送,把整个的数据做成一款产品,打通直播、点播平台,通过让用户更好的选择想看的东西,把实时收视率结合上节目单,结合一些数据去做排行,用户可以基于这个排行选择节目。
星红桉将让电视更贴心!
阅读原文进入“2017亚太OTT/IPTV生态大会”专题回顾。