这十套练习,教你如何使用Pandas做数据分析_pandas 练习题和数据集-CSDN博客

admin 体育赛事 2024-05-31 21 0

这十套练习,教你如何使用Pandas做数据分析_pandas 练习题和数据集-CSDN博客

Pandas是入门Python做数据分析所必须要掌握的一个库,本篇精选了十套练习题,帮助读者上手Python代码,完成数据集探索。

数据集下载地址:https://github.com/Rango-2017/Pandas_exercises

1 - 开始了解你的数据

探索Chipotle快餐数据

– 将数据集存入一个名为chipo的数据框内

– 查看前10行内容

– 数据集中有多少个列(columns)?

– 打印出全部的列名称

– 数据集的索引是怎样的?

– 被下单数最多商品(item)是什么?

– 在item_name这一列中,一共有多少种商品被下单?

– 在choice_description中,下单次数最多的商品是什么?

– 一共有多少商品被下单?

– 将item_price转换为浮点数

– 在该数据集对应的时期内,收入(revenue)是多少?

– 在该数据集对应的时期内,一共有多少订单?

– 每一单(order)对应的平均总价是多少?

2 - 数据过滤与排序

探索2012欧洲杯数据

– 将数据集命名为euro12

– 只选取 Goals 这一列

– 有多少球队参与了2012欧洲杯?

– 该数据集中一共有多少列(columns)?

– 将数据集中的列Team, Yellow Cards和Red Cards单独存为一个名叫discipline的数据框

– 对数据框discipline按照先Red Cards再Yellow Cards进行排序

– 计算每个球队拿到的黄牌数的平均值

– 找到进球数Goals超过6的球队数据

– 选取以字母G开头的球队数据

– 选取前7列

– 选取除了最后3列之外的全部列

– 找到英格兰(England)、意大利(Italy)和俄罗斯(Russia)的射正率(Shooting Accuracy)

练习3-数据分组

探索酒类消费数据

– 将数据框命名为drinks

– 哪个大陆(continent)平均消耗的啤酒(beer)更多?

– 打印出每个大陆(continent)的红酒消耗(wine_servings)的描述性统计值

– 打印出每个大陆每种酒类别的消耗平均值

– 打印出每个大陆每种酒类别的消耗中位数

– 打印出每个大陆对spirit饮品消耗的平均值,最大值和最小值

练习4-Apply函数

探索1960 - 2014 美国犯罪数据

– 将数据框命名为crime

– 每一列(column)的数据类型是什么样的?

– 将Year的数据类型转换为 datetime64

– 将列Year设置为数据框的索引

– 删除名为Total的列

– 按照Year(每十年)对数据框进行分组并求和

– 何时是美国历史上生存最危险的年代?

练习5-合并

探索虚拟姓名数据

– 创建DataFrame

– 将上述的DataFrame分别命名为data1, data2, data3

– 将data1和data2两个数据框按照行的维度进行合并,命名为all_data

– 将data1和data2两个数据框按照列的维度进行合并,命名为all_data_col

– 打印data3

– 按照subject_id的值对all_data和data3作合并

– 对data1和data2按照subject_id作连接

– 找到 data1 和 data2 合并之后的所有匹配结果

练习6-统计

探索风速数据

– 将数据作存储并且设置前三列为合适的索引

– 2061年?我们真的有这一年的数据?创建一个函数并用它去修复这个bug

– 将日期设为索引,注意数据类型,应该是datetime64[ns]

– 对应每一个location,一共有多少数据值缺失

– 对应每一个location,一共有多少完整的数据值

– 对于全体数据,计算风速的平均值

– 创建一个名为loc_stats的数据框去计算并存储每个location的风速最小值,最大值,平均值和标准差

– 创建一个名为day_stats的数据框去计算并存储所有location的风速最小值,最大值,平均值和标准差

– 对于每一个location,计算一月份的平均风速

– 对于数据记录按照年为频率取样

– 对于数据记录按照月为频率取样

练习7-可视化

探索泰坦尼克灾难数据

– 将数据框命名为titanic

– 将PassengerId设置为索引

– 绘制一个展示男女乘客比例的扇形图

– 绘制一个展示船票Fare, 与乘客年龄和性别的散点图

– 有多少人生还?

– 绘制一个展示船票价格的直方图

练习8-创建数据框

探索Pokemon数据

– 创建一个数据字典

– 将数据字典存为一个名叫pokemon的数据框中

– 数据框的列排序是字母顺序,请重新修改为name, type, hp, evolution, pokedex这个顺序

– 添加一个列place[‘park’,‘street’,‘lake’,‘forest’]

– 查看每个列的数据类型

练习9-时间序列

探索Apple公司股价数据

– 读取数据并存为一个名叫apple的数据框

– 查看每一列的数据类型

– 将Date这个列转换为datetime类型

– 将Date设置为索引

– 有重复的日期吗?

– 将index设置为升序

– 找到每个月的最后一个交易日(business day)

– 数据集中最早的日期和最晚的日期相差多少天?

– 在数据中一共有多少个月?

– 按照时间顺序可视化Adj Close值

练习10-删除数据

探索Iris纸鸢花数据

– 将数据集存成变量iris

– 创建数据框的列名称[‘sepal_length’,‘sepal_width’, ‘petal_length’, ‘petal_width’, ‘class’]

– 数据框中有缺失值吗?

– 将列petal_length的第10到19行设置为缺失值

– 将petal_lengt缺失值全部替换为1.0

– 删除列class

– 将数据框前三行设置为缺失值

– 删除有缺失值的行

– 重新设置索引

评论