专栏名称: 数据派THU
本订阅号是“THU数据派”的姊妹账号,致力于传播大数据价值、培养数据思维。
目录
相关文章推荐
艺恩数据  ·  艺恩祝大家新年快乐!! ·  2 天前  
天池大数据科研平台  ·  附获奖名单|巅峰时刻,「第6届天池全球数据库 ... ·  昨天  
软件定义世界(SDX)  ·  第五次全国经济普查首次增加『数字经济』调查结果 ·  4 天前  
软件定义世界(SDX)  ·  德勤发布《2025年技术趋势》 ·  5 天前  
51好读  ›  专栏  ›  数据派THU

独家|利用Python创建令人惊艳的可视化效果

数据派THU  · 公众号  · 大数据  · 2024-12-26 17:00

正文

作者:Ritesh Shergill
翻译:陈之炎
校对:赵茹萱

本文约1700字,建议阅读5分钟

本文利用了Python创建令人惊艳的可视化效果。


一图胜千言

在大数据行业尤其如此,如果您从事数据工作,不可避免会有创建可视化的需求——展示往往比讲述效果更好。

创建可视化既是一种艺术,也是一门科学。在本文中,我将揭秘数据可视化中的关键技术,助力将数据转化为引人入胜的视觉故事。

那么,行胜于言,让我们深入探讨数据可视化的无限可能性吧!

基本可视化和数据分析探索

基本可视化的演示首先需要数据,还有什么比Kaggle更好的地方能找到数据呢?

为了实现基本可视化,我提取了红葡萄酒数据集,这是Kaggle上最受欢迎的数据集之一。可以在这里找到受欢迎的数据集——


关于红葡萄酒质量数据集

(Kaggle上是这样描述的)

该数据集与葡萄牙“Vinho Verde”红葡萄酒的变种有关。由于隐私和物流问题,只有物理化学(输入)变量和感官(输出)变量可用(例如,没有葡萄品种、葡萄酒品牌、葡萄酒销售价格等数据)。

该数据集可以用于分类或回归任务。类别是有序的,且是不平衡的(例如,普通葡萄酒比优秀或劣质葡萄酒多得多)。

输入变量(基于物理化学测试):


固定酸度
挥发性酸度
柠檬酸    
残糖
氯化物
游离二氧化硫
总二氧化硫
密度
pH值
硫酸盐
酒精

输出变量(基于感官数据):

- 质量(分值范围0到10分)
首先做一个基础的热身跑——
数据集描述


挥发性酸度和质量之间的配对图

   

让我们发挥配对图中的创意,以展示更多变量

配对图:显示图表网格,每个图表都展示了数据集中两个特征(变量)之间的关系。

适用于:特征和异常值检测

   

再来看看直方图!

直方图:描述数据中不同范围的数值(称为“箱”)出现的频率,高耸的摩天大楼代表该数值发生率较高。

适用于:检查数据质量,比较不同组之间的分布    

   


太美妙了!

箱线图!!!
         

 

箱线图:根据五数概括显示数据分布,它提炼出了数据集中趋势、变异性和潜在异常值的视觉总结。

五数概括——最小值,第一四分位数(Q1),中位数(Q2),第三四分位数(Q3)和最大值。

适用于:非常适合识别异常值以及数据分布的偏斜/扩散。

   
接下来比较神奇
         

 

   
3D散点图与随机颜色

散点图:通过在笛卡尔平面上显示两个连续变量之间的关系(相关性和变量之间的关系)。

适用于:识别数据点的聚类和异常值

   

螺旋直方图!

螺旋直方图:以螺旋模式排列,显示数据的频率分布的直方图。

适用于:通常是为了审美吸引力而创建,如果数据是周期性或季节性的,特别是如果数据具有季节性模式,它确实非常有用。   


让我们变得更疯狂!3D螺旋直方图!
   
   


热图!

热图:显示变量之间的关系或数据集中值的分布。

适用于:查看变量之间的相关性

   
接下来做一些更精彩的事情!


创建图形!

使用Mat和Sea

创建绘图 —— 为绘图而生

这是一个使用Matplotlib创建的图形——    


看起来像蜂窝,对吗?这是详细代码——

   

如何制作环形图?

   


如何制作Venn图?
         

 

制作Venn图需要安装以下软件    


是什么构成一部精彩的电影?需要以下素材。


以下是代码。

   

探索Matplotlib和Seaborn就像进入了一个令人兴奋的兔子洞。有那么多令人兴奋的可能性来制作富有信息量和外观精美的可视化效果。

我敢说,如果您是这两个库的专家,并且将Plotly也加入到您的武器库中,那么您创建的可视化效果将使您成为工作场所的传奇人物。

如果您是处理数据专家,创建可视化之所以至关重要的原因主要有以下几点——

  • 可视化对于快速了解数据的结构和分布至关重要。
  • 它们有助于识别数据中的模式、趋势、异常值和关系,这对于构建准确的模型非常重要。   
  • 评估数据质量,包括检查缺失数据、不一致性和异常值。
  • 向没有技术背景的利益相关者传达发现。

无论您是处理数据质量还是准备数据以训练机器学习模型,数据可视化是验证和革新数据的好方法。

所以必须掌握它!

原文链接:
https://medium.com/@riteshshergill/creating-amazing-visualizations-with-matplotlib-and-seaborn-486fa7d68c1e

编辑:王菁
校对:丁玺茗





作者简介





陈之炎,北京交通大学通信与控制工程专业毕业,获得工学硕士学位,历任长城计算机软件与系统公司工程师,大唐微电子公司工程师,现任北京吾译超群科技有限公司技术支持。目前从事智能化翻译教学系统的运营和维护,在人工智能深度学习和自然语言处理(NLP)方面积累有一定的经验。业余时间喜爱翻译创作,翻译作品主要有:IEC-ISO 7816、伊拉克石油工程项目、新财税主义宣言等等,其中中译英作品“新财税主义宣言”在GLOBAL TIMES正式发表。能够利用业余时间加入到THU 数据派平台的翻译志愿者小组,希望能和大家一起交流分享,共同进步



转载须知

如需转载,请在开篇显著位置注明作者和出处(转自:数据派ID:DatapiTHU),并在文章结尾放置数据派醒目二维码。有原创标识文章,请发送【文章名称-待授权公众号名称及ID】至联系邮箱,申请白名单授权并按要求编辑。

发布后请将链接反馈至联系邮箱(见下方)。未经许可的转载以及改编者,我们将依法追究其法律责任。





关于我们

数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。




新浪微博:@数据派THU

微信视频号:数据派THU

今日头条:数据派THU


点击“阅读原文”拥抱组织