专栏名称: 数据资产最前线
聚焦数据治理、数据资产化、数字化转型等领域专业知识总结和干货分享,做您身边有价值的数据专家号
目录
相关文章推荐
Python爱好者社区  ·  DeepSeek 被放弃了,阿里牛逼! ·  16 小时前  
中国安全生产网  ·  消除隐患获奖!近15万元财物奖励已发出 ·  15 小时前  
中国安全生产网  ·  速戳!第三批中级注安师注册人员名单 ·  昨天  
Python开发者  ·  微信 + DeepSeek = 王炸组合 ·  4 天前  
51好读  ›  专栏  ›  数据资产最前线

大数据发展的三大基础:数据积累、算力提升、技术创新

数据资产最前线  · 公众号  ·  · 2024-07-17 16:00

正文

大数据发展的三大基础:数据积累、算力提升、技术创新

一、大数据的定义

大数据的定义: 对于大数据,Gartner 给出的定义是需要运用新处 理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、 高增长率和多样化的信息资产。

大数据的5V特点: Volume(大量)、Velocity(高速)、Variety (多样)、Value(低价值密度)、Veracity(真实性)

Volume(大量): 大数据的首要特点是数据量庞大,远远超出了传统数据处理软件的能力范围。这种大量的数据可能来自各种来源,包括社交媒体、交易记录、传感器网络等,对存储和处理能力提出了极高的要求。

Velocity(高速): 大数据的产生和处理速度非常快,要求数据处理系统能够实时或近实时地捕捉和分析数据。这种高速性使得企业能够迅速响应市场变化,及时调整策略,从而在竞争中保持优势。

Variety(多样): 大数据不仅包括结构化数据,如数据库中的表格数据,还包括大量的半结构化和非结构化数据,如文本、图像、音频和视频等。这种多样性要求数据处理系统能够灵活处理各种类型的数据,提取有价值的信息。

Value(低价值密度): 尽管大数据的量非常大,但其中真正有价值的信息却相对较少。这意味着在海量数据中提取有用信息需要高效的数据分析技术,以过滤掉无关或低价值的数据,从而发现隐藏在数据背后的规律和洞察。

Veracity(真实性): 大数据的真实性和可靠性对于决策制定至关重要。由于数据来源的多样性,数据中可能存在噪声、错误或不一致性。因此,确保数据的真实性是大数据处理过程中的一个重要环节,需要通过数据清洗、校验和验证等手段来提高数据的可信度。

二、为什么要研究大数据

大数据精准营销: 2015 年,亚马逊市值第一次超越沃尔玛,当前 前者市值更是后者的三倍多,而亚马逊销售额中有 1/3 是依托大数 据精准营销产生。通过记录顾客浏览网站时的行为数据,如所搜关 键词、到访页面、关注商品、购买订单,以及不定期举行活动引导 客户明确喜好,如主题投票,亚马逊搜集并分析客户属性、兴趣、 需求,利用聚类等大数据模型为客户群体推荐合适商品。

大数据提供更加优化的服务方案: 以色列的环境比中国大西北更恶 劣,但将大数据引入农业后,以色列成为了“欧洲的厨房”。凭借 较高的信息化和数字化基础,以色列农业技术公司利用大数据帮助 农民根据农场的具体情况采用更加个性化的耕种方案。如 Taranis 公司利用大数据分析法推出包括预测天气、灌溉和病虫害状植物模 型技术,指导农民合理灌溉、杀虫;AKOL 公司更是将不同区域农 民工作习惯等人为因素纳入农作物生长及环境状况的大数据分析范 畴,进一步优化方案。

大数据帮助金州勇士队实现质的飞跃: 在体育界,植入科技和大数 据之后,美国金州勇士队在短短几年内就实现了从一个“烂”球队 到NBA总冠军的飞跃。勇士队老板拉科布作为数据分析的坚实拥 趸,把数据分析思想充分融入到球队的训练之中,最先引入球馆录 像和分析系统,同时其团队统计历年NBA 比赛,发现最有效的进 攻是眼花缭乱的传球和准确的投篮,并创造了三分球新打法,助力 勇士队快速成长。

大数据的价值不可估量: 正如《大数据时代》所言,大数据开启了 一场重大的时代转型,就像望远镜让我们感受到宇宙,显微镜让我 们能够观测微生物,大数据收集、分析海量数据帮助我们更好地理 解世界,是众多新发明和新服务的源泉。如今,数据已经成为重要 的商业资本,可以作为前期投入创造实际经济价值,此外,大数据 也撼动着医疗、教育、人文、社交等世界的方方面面……其社会价 值亦不可估量。

三、大数据发展的三大基础

一、数据积累

数据积累是大数据发展的基石。 在互联网快速普及和物联网加速渗透的背景下,PC、手机、传感设备等全面兴起,推动了全球数据呈现倍数增长、海量集聚的特点。这种数据量的激增为大数据产业的发展奠定了庞大的数据基础。据IDC统计,全球数据总量在过去几年中呈现爆炸式增长,从2011年的1.8ZB增长至2016年的16.1ZB,并预测到2020年将达到44ZB,而在《数据时代2025》白皮书中更是预测到2025年全球数据总量将扩展至163ZB。这一数据量的增长不仅体现在规模上,还体现在数据的多样性和复杂性上,为大数据分析和应用提供了丰富的素材。

数据积累的重要性体现在多个方面:首先,海量的数据为大数据分析提供了可能性,使得通过统计规律和模式识别等方法发现隐藏的信息和价值成为可能;其次,数据的多样性和复杂性要求数据处理和分析技术的不断创新和提升,推动了相关技术的快速发展;最后,数据积累也是数据共享、确权、定价和交易的前提,没有足够的数据积累,后续的数据利用和价值实现都将无从谈起。

二、算力提升

算力提升是大数据发展的关键驱动力。 大规模数据处理对计算能力提出了极高的要求,而摩尔定律的推动使得处理器性能不断提升,为大数据处理提供了强大的算力支撑。GPU、FPGA、TPU等高算力芯片的出现,以及云计算、分布式计算等技术的发展,使得处理海量数据成为可能。例如,在Google I/O 2018开发者大会上,谷歌发布了第三代TPU处理器,其性能相比上一代有8倍提升,运算速度可超100PFlops,这种强大的算力为大数据实时分析提供了有力保障。

算力提升的重要性不言而喻。首先,强大的算力使得大规模数据处理变得更加高效和快速,降低了数据处理的时间和成本;其次,算力提升也为更复杂的数据分析模型提供了可能,推动了机器学习、深度学习等技术在大数据领域的应用;最后,算力提升还促进了数据密集型应用的创新和发展,如智能交通、智能医疗、智慧城市等领域都受益于算力的提升。

三、技术创新

技术创新是大数据发展的核心动力。 云计算、人工智能等新技术的出现为大数据产业提供了前所未有的发展机遇。云计算以其按需付费、可扩展的存储计算能力、便捷易部署等特点,大大降低了企业应用大数据的难度与成本,促进了大数据产业的加速推广。而人工智能通过深度置信神经网络等领先算法,能够自动处理、分析大规模数据,获得预测性的洞察,指导或直接替代人工决策,提高了大数据应用的智能化水平。

技术创新的重要性在于它不断推动大数据产业的发展边界。首先,云计算等技术的发展使得数据处理和分析更加便捷和高效,降低了大数据应用的门槛;其次,人工智能等技术的应用使得数据分析更加智能化和精准化,提高了数据利用的价值和效率;最后,技术创新还不断催生新的大数据应用场景和商业模式,如数据即服务(DaaS)、数据交易等,为大数据产业注入了新的活力。

内容节选自:3月29-31日在北京大学举办的北京大学数据资产与企业数字战略研修班冯科老师授课PPT,课程主题:《 数据确权、评估、作价、交易、融资







请到「今天看啥」查看全文