专栏名称: 数据派THU
本订阅号是“THU数据派”的姊妹账号,致力于传播大数据价值、培养数据思维。
目录
相关文章推荐
DataFunTalk  ·  腾讯语音合成技术:模型优化与推理加速实践 ·  21 小时前  
GrowingIO  ·  GrowingIO《多主体在香港房地产市场的 ... ·  2 天前  
GrowingIO  ·  GrowingIO《多主体在香港房地产市场的 ... ·  2 天前  
数据派THU  ·  入选ECCV ... ·  5 天前  
数据派THU  ·  KDD 2024 | ... ·  1 周前  
51好读  ›  专栏  ›  数据派THU

干货 | 清华Python编程入门分享会第二期

数据派THU  · 公众号  · 大数据  · 2024-11-04 17:00

正文



本次分享会是由五道口金融学院和大数据协会联合举办的系列讲座,以初级python入门为主,是为非计算机非数据科学专业,但有助于学习编程的同学量身定制的精品讲座。目标是为未来数据分析人才配备先进的编程理念和操作技巧,强化学科研究能力,促进跨学科交流与合作。活动分为三期,第二期由自动化系优秀博士生陈鹏宇主讲,主要学习Python数据分析的核心库Pandas的使用,包括数据处理、语音可视化等。Pandas是Python数据分析中最核心的库,可以用于读取Excel文件和数据库,进行各种数据分析。此外,还介绍了其他常用的Python第三方库,如NumPy、Micro Library和CBC Bone,它们分别提供数值计算、可视化、统计机器学习算法等功能。



一、数组操作与Numpy教程解析


主要介绍了如何获取PPT教程,以及如何在Python中使用NumPy库进行多维数组的创建和操作。NumPy的核心对象是多维数组,包括指向数据的指针、数据类型、数组形状和跨度。通过Numpy提供的array函数可以定义多维数组,也可以使用嵌套列表传递给二维函数。此外,还介绍了如何使用arrange函数进行数组的创建和操作,以及如何指定步长和间隔。



二、矩阵函数与索引操作详解


主要讲述了矩阵的常见函数和属性,如全零矩阵、全一矩阵和单位矩阵。通过传递参数shape来定义数组的形状,如二维数组需要传递两个参数。同时,介绍了Numpy中的一些索引方式,如整数数组和布尔数组,以及如何使用这些索引方式来访问矩阵中的元素。此外,还提到了Numpy中可以使用负整数和冒号来表示左闭右开的区间,以及如何使用整数数组和布尔数组进行多维索引。


三、数组操作与广播机制解析


主要讲述了布尔数组、广播机制、数组操作函数和线性代数库等方面的内容。布尔数组是用一和零表示真假的变量,广播机制可以对不同形状但兼容的数组进行操作。数组操作函数包括reshape、统计函数和线性代数库等,如计算内积、行列式、矩阵逆、搜索最大值和最小值的索引等。此外,还提到了布尔类型和布尔数组的应用,以及如何通过测试脚本验证广播机制是否正常工作。



四、数据处理库Pandas介绍


主要介绍了数据处理库P及其核心数据结构,包括一维的series和二维的data frame。P是一个基于Numpy的数据处理库,方便进行数据处理。series和data frame分别对应于一维表和二维表,类似于Excel表格。P还提供了一些数据清洗、数据分析、索引和选择函数。此外,还介绍了如何在P中创建series和data frame,以及如何使用这些函数进行操作。



五、数据框的创建与操作


主要介绍了如何通过字典构造data frame,以及如何读取和写入CSV文件。首先,通过二维数组和字典的方式定义data frame,可以指定列名,也可以使用列表字典的列表来定义。其次,介绍了读取CSV文件的方法,可以通过read CSV函数将整个文件内容读入,并可以设置显示的行数。最后,讲解了如何将data frame写入CSV文件,以及如何使用to excel函数将data frame转换为Excel文件。


六、数据清洗与可视化操作指南


主要讲述了数据清洗和可视化方面的内容。首先,数据清洗包括缺失值的处理,可以使用drop NA函数将缺失值删除,也可以使用few NA函数用指定值填补缺失值。其次,数据可视化方面,介绍了Map library和M library,Map library可以绘制各种图形和图表,如线图、散点图、条形图、饼图等;而M library则可以替代Matlab的绘图功能。最后,讲解了如何使用Map library和M library进行数据处理和分析,包括创建新的图形、定义子图等。



七、数据可视化函数及应用


主要介绍了如何使用Python的matplotlib库进行数据可视化。首先,通过plot函数绘制线图,可以传入横纵坐标列表,如元组。然后,可以使用scatter函数绘制散点图,参数与plot函数相同。此外,还可以添加坐标轴名字、标题、网格等元素。为了使子图之间不重叠,需要使用tight layout调整间隙。最后,介绍了基于M library构建的高级界面,如象限图、热力图、小提琴图等,这些都可以通过一行代码实现。



八、机器学习库及数据可视化应用


主要介绍了机器学习库SIQ learn(SK learn)及其在数据分析中的应用。SIQ learn是一个开源的机器学习库,提供了丰富的函数,如数据降维、分类、回归聚类等。通过示例脚本,展示了如何对鸢尾花数据进行分类,并取得了很好的效果。同时,分享者还推荐了Numpy教程和文档作为学习资源,强调阅读官方文档的重要性。



九、数据分析与Pandas库的应用


本次讲座主要介绍了Pandas库在科研和论文写作中的应用,强调了数据分析的重要性。通过使用Pandas库,可以对数据进行趋势值处理、复制填充等操作,从而提高数据分析结果的准确性。同时,讲者认为即使是零基础的编程同学,在经过两期讲座和大模型辅助后,也可以自己动手进行数据分析。实践是学习编程和数据分析的有效方式,通过实践和看bug,可以更好地理解代码。




往期回顾

干货 | 清华Python编程入门分享会第一期


编辑:文婧

校对:丁玺茗



关于我们

数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。




新浪微博:@数据派THU

微信视频号:数据派THU

今日头条:数据派THU