本文约1700字,建议阅读5分钟
本文利用了Python创建令人惊艳的可视化效果。
在大数据行业尤其如此,如果您从事数据工作,不可避免会有创建可视化的需求——展示往往比讲述效果更好。
创建可视化既是一种艺术,也是一门科学。在本文中,我将揭秘数据可视化中的关键技术,助力将数据转化为引人入胜的视觉故事。
那么,行胜于言,让我们深入探讨数据可视化的无限可能性吧!
基本可视化的演示首先需要数据,还有什么比Kaggle更好的地方能找到数据呢?
为了实现基本可视化,我提取了红葡萄酒数据集,这是Kaggle上最受欢迎的数据集之一。可以在这里找到受欢迎的数据集——
该数据集与葡萄牙“Vinho Verde”红葡萄酒的变种有关。由于隐私和物流问题,只有物理化学(输入)变量和感官(输出)变量可用(例如,没有葡萄品种、葡萄酒品牌、葡萄酒销售价格等数据)。
该数据集可以用于分类或回归任务。类别是有序的,且是不平衡的(例如,普通葡萄酒比优秀或劣质葡萄酒多得多)。
输入变量(基于物理化学测试):
配对图:
显示图表网格,每个图表都展示了数据集中两个特征(变量)之间的关系。
直方图:
描述数据中不同范围的数值(称为“箱”)出现的频率,高耸的摩天大楼代表该数值发生率较高。
箱线图:
根据五数概括显示数据分布,它提炼出了数据集中趋势、变异性和潜在异常值的视觉总结。
五数概括——最小值,第一四分位数(Q1),中位数(Q2),第三四分位数(Q3)和最大值。
适用于:
非常适合识别异常值以及数据分布的偏斜/扩散。
散点图:
通过在笛卡尔平面上显示两个连续变量之间的关系(相关性和变量之间的关系)。
螺旋直方图:
以螺旋模式排列,显示数据的频率分布的直方图。
适用于:
通常是为了审美吸引力而创建,如果数据是周期性或季节性的,特别是如果数据具有季节性模式,它确实非常有用。
探索Matplotlib和Seaborn就像进入了一个令人兴奋的兔子洞。有那么多令人兴奋的可能性来制作富有信息量和外观精美的可视化效果。
我敢说,如果您是这两个库的专家,并且将Plotly也加入到您的武器库中,那么您创建的可视化效果将使您成为工作场所的传奇人物。
如果您是处理数据专家,创建可视化之所以至关重要的原因主要有以下几点——
-
-
它们有助于识别数据中的模式、趋势、异常值和关系,这对于构建准确的模型非常重要。
-
评估数据质量,包括检查缺失数据、不一致性和异常值。
-
无论您是处理数据质量还是准备数据以训练机器学习模型,数据可视化是验证和革新数据的好方法。
https://medium.com/@riteshshergill/creating-amazing-visualizations-with-matplotlib-and-seaborn-486fa7d68c1e
陈之炎,
北京交通大学通信与控制工程专业毕业,获得工学硕士学位,历任长城计算机软件与系统公司工程师,大唐微电子公司工程师,现任北京吾译超群科技有限公司技术支持。目前从事智能化翻译教学系统的运营和维护,在人工智能深度学习和自然语言处理(NLP)方面积累有一定的经验。业余时间喜爱翻译创作,翻译作品主要有:IEC-ISO 7816、伊拉克石油工程项目、新财税主义宣言等等,其中中译英作品“新财税主义宣言”在GLOBAL TIMES正式发表。能够利用业余时间加入到THU 数据派平台的翻译志愿者小组,希望能和大家一起交流分享,共同进步