点击上方“
蓝色字体
”,选择 “
设为星标
”
关键讯息,D1时间送达!
当开始数据分析项目时,通常首先分别分析每个变量,以描述拥有的数据并评估其质量,接下来的步骤是探索变量之间存在的关系。这些关系可能会导致对数据所代表的总体得出某些推论或结论。结论可能会导致数学模型预测当前不在数据集中的数据结果。但是,在导致决策或行动步骤之前,数据分析无效。
最简单的数据分析形式是描述性分析,描述性分析列出并总结了数据集中每个变量的值。例,如果调查受访者针对特定问题提供了1到10的评分,则描述性分析可能会显示每个评级的受访者数量和百分比,平均评分和中位数,模式或最常见评级,以及某些评分,中心趋势如标准差。描述性分析可熟悉数据集并识别数据问题,例如未提供任何评级的受访者或显示响应为“99”的数据。
一旦了解了所拥有的数据,下一步就是开始寻找数据元素之间的关系,这称为探索性数据分析,一般侧重于变量之间的相关性。例如,一个数据集显示了孩子的蛀牙数量和她的词汇量之间的极高相关性。然而,这并不意味着如果你让你的孩子有了更多的蛀牙,她的词汇也会增长。可能还有其他因素导致数据集中没有的结果,例如年龄。
为了制定消费者信心指数,会议委员会并未向每个消费者询问他对经济的信心。它使用推理分析,根据较小样本人口的数据得出消费者的结论。理解推理分析中使用的采样方法非常重要,因为通常可以通过选择不同的样本从相同的数据集中得出非常不同的结论。与许多推理分析一样,消费者信心指数从其数据集中选择随机样本,以便结果大致相同,无论您选择何种样本。
预测分析在商业智能应用程序中非常流行。目标是使用您拥有的数据来预测未知结果,然后根据该预测采取行动。例如,保险公司使用性别,年龄,婚姻状况和信用评分等数据来预测哪些客户最有可能发生事故。然后,他们提高了落入高风险群体的客户的保险费率。分析人员通过在已知结果的数据集的一部分上训练模型来开发预测模型,然后将模型应用于结果未知的剩余数据。
(来源:
CPDA数据分析)
如果您在企业IT、网络、通信行业的某一领域工作,并希望分享观点,欢迎给企业网D1Net投稿
投稿邮箱:[email protected]
点击
蓝色
字体
关注
您还可以搜索公众号
“D1net”