由比尔恩门编写的《数据湖仓》这本书中,除了提到数据湖仓是下一代数据仓库和数据湖,目的是满足复杂多变的现代信息系统的需求。还提到了数据质量的重要性,通过检查输入错误、解决键的非兼容性问题以及维护良好的文档编制来提高数据的质量和可信度。
进入到数据湖仓的数据本质上来说都是可信的,如果数据不真实不准确,理论来说就不应该把这些数据存入到数据湖仓中。
这里面就提到一个概念,如果我们接触到结构化数据、文本数据和物联网生成的数据时,通常不会对数据的真实性产生质疑,
这部分数据容易量化、约定俗成的、且有固定的计算公式的数据就统称为“硬数据”(hard data)
当然,除了这部分可信的数据外,绝大部分数据是需要进行真实性的确认,我们就称为“软数据”(soft data)。
软数据
是指那些不易量化、没有固定计算公式、主要依赖于主观判断和观察得到的信息和数据。这些数据通常来自调查问卷、专家评估、媒体报道等,与硬数据相对,后者主要包括官方统计数据、财务报表等具体的数字信息。
比尔恩门认为软数据主要是指来自电子表格、互联网或政府的数据。这部分数据需要对其真实性、完整性进行确认,确认完成后才能存入湖仓的基础数据中。
从书中去理解什么是软数据确实有点费劲,原因就是太多的名词导致我们在概念上容易混淆,其次是这些名词定义如果没有普及拉通的前提下,很容易鸡同鸭讲,无法让对方理解你到底在表达什么意思。那么接下来我就尝试着理解一下,比尔恩门对于软数据来源的定义:
1,电子表格数据。
我们经常会将电子表格数据作为导入导出,初始化到系统中去。但是,我们并不能确定电子表格里面的数据是否真实可靠,
因为填写的过程中,你并不清楚填写的人到底有没有填写对应正确的填写内容。
其次,电子表格还存在一个问题,就是没有可用可靠的元数据
。虽然表格包含列和行,但是很难对表格的上下文情景进行关联。比方说1977,是一个数字,但是它到底代表1977年,还是1977个,还是1977万……所以,表格里面的1977如果缺少了上下文情景,则毫无意义。所以我们在提取文本数据的时候,通过文本ETL,一个关键点就是能否获取数据的上下文情境。
2,互联网数据。
则更是五花八门了,虽然现在对于互联网数据以及规避了很多涉及到个人隐私的问题,但是大部分我们获取到互联网的数据都是一次性的,如果互联网数据进行了更新,那么这部分数据的时效性则无法保证。
互联网的数据由于没有准确的来源,或者由于带有很强的个人主观性,往往就会被其他人质疑。
3,政府数据。
政府数据为什么也被纳入到“软数据”里面了呢?政府数据一般都应该是可信的数据,但是我理解比尔恩门想要表达的就是这类数据,
实际也存在一定的欺骗性,或者说这类数据也有可能失真。
比方说披露的某企业的资产现金流在某季度大幅的增长,我们如果知识单方面看到这些数据,或许会认为该企业的生产经营状况相比较之前是有所增长的。虽然这个结果也是真实的,但是往往我们忽略了整个财报隐藏的一些问题。或许该企仅仅只是通过变卖固定资产,变卖手头上的一些资产导致的现金流增长,实际的主营业务收入还是持续下降的。
从我们对待数据的真实性角度来看,在数据进入湖仓之前,都应该进行确认,它们的可信度。从“软数据”到“硬数据”的过程,一定是去伪存真的过程。
最后可以举一个简单的例子,对软数据和硬数据进行一个概念上的定义。一个股市的投资者和分析师通常会结合软数据和硬数据来做出决策。例如,在评估股市趋势时,除了关注公司的财报数据(硬数据)
,也会参考市场情绪、行业趋势等(软数据)。
总之,软数据虽然存在局限性,但在数据分析中扮演着重要的角色。理解软数据的特点和局限性,能帮助我们更好地解读数据,做出决策。
新书发售👇