yyhhyy's blog

yyhhyy

pandas

5.12 案例

5.12 案例分析了2006年至2016年1000部最流行电影的数据,探讨了如何获取电影评分的平均分、导演人数等信息,以及如何呈现评分和时长的分布情况。通过Python的Pandas和Matplotlib库,案例展示了如何计算评分平均值、导演人数,并使用直方图展示评分和时长的分布。此外,案例还介绍了如何统计电影分类情况,通过创建临时DataFrame并遍历电影分类数据,最终绘制出各类电影的数量分布图。
92
0
0
2023-06-09

5.11 高级处理-分组与聚合

5.11 高级处理-分组与聚合介绍了如何使用 `groupby` 和聚合函数对数据进行分组与统计分析。通过示例展示了如何按颜色分组并计算价格的平均值,以及如何对星巴克店铺数据按国家和省份进行分组统计。分组与聚合是数据分析中的重要工具,通常与统计函数结合使用,帮助理解数据的分布情况。
60
0
0
2023-06-09

5.10 高级处理-交叉表与透视表

5.10 高级处理-交叉表与透视表介绍了如何使用交叉表和透视表进行数据分析。交叉表用于统计分组频率,透视表则通过指定列对另一列的关系进行数据聚合。文章通过分析股票涨跌与星期几的关系,展示了如何使用交叉表计算数据比例,并通过透视表简化分析过程。最后,使用柱状图可视化结果,帮助理解数据分布。
83
0
0
2023-06-09

5.9 高级处理-合并

文章介绍了在数据分析中使用`pd.concat`和`pd.merge`进行数据合并的方法。`pd.concat`可以按行或列合并数据,`pd.merge`则支持多种连接方式(如内连接、左连接、右连接和外连接),并允许指定连接的键值。这些方法适用于多表数据的合并与分析,帮助用户更高效地处理复杂数据集。
51
0
0
2023-06-09

5.8 高级处理-数据离散化

数据离散化是将连续属性值划分为若干离散区间的过程,旨在简化数据结构并减少属性值的数量。通过使用`cut`和`qcut`工具,可以实现数据的区间分组,而`get_dummies`则用于生成one-hot编码矩阵。离散化方法在数据挖掘中广泛应用,例如将股票涨跌幅数据分组并转换为哑变量矩阵,便于进一步分析。
24
0
0
2023-06-09

5.7 高级处理-缺失值处理

本文介绍了在数据处理中如何处理缺失值,包括使用isnull和notnull判断缺失值的存在,通过dropna删除缺失值,使用fillna填充缺失值,以及利用replace替换特定值。文章还详细说明了如何处理标记为NaN的缺失值,以及如何处理非NaN标记的缺失值,如将“?”替换为NaN后再进行处理。最后,文章总结了判断、删除、填充和替换缺失值的基本方法。
57
0
0
2023-06-09

5.6 文件读取与存储

文章介绍了Pandas库中文件读取与存储的操作,重点讲解了CSV、HDF5和JSON三种格式的使用方法。通过示例代码展示了如何读取和存储CSV文件,并详细说明了HDF5文件的压缩存储优势及其跨平台特性。此外,文章还探讨了JSON格式的读取与存储,特别是如何通过指定`orient`和`lines`参数来处理JSON数据。HDF5因其高效压缩和跨平台特性被推荐为优先选择的存储格式。
74
0
0
2023-06-09

5.5 Pandas画图

5.5 Pandas画图介绍了如何使用Pandas库中的DataFrame和Series进行数据可视化。通过学习,可以掌握DataFrame.plot和Series.plot函数的使用方法,了解不同图形类型的绘制,如折线图、柱状图、水平柱状图、直方图、饼图和散点图。默认图形类型为折线图,用户可以通过指定kind参数选择其他图形类型。更多详细信息和示例可参考官方文档链接。
75
0
0
2023-06-09

5.4 DataFrame运算

本文介绍了DataFrame的多种运算方法,包括算术运算、逻辑运算、统计运算和自定义运算。算术运算涉及add和sub等操作,逻辑运算通过逻辑符号和函数如query、isin进行数据筛选。统计运算包括使用describe进行综合分析,以及max、min、mean等函数进行统计计算。自定义运算通过apply函数实现数据的个性化处理。这些方法帮助用户高效处理和分析数据。
73
0
0
2023-06-09

5.3 基本数据操作

本节介绍了Pandas中DataFrame和Series的基本数据操作,包括索引、赋值和排序。索引操作涵盖直接索引、loc、iloc和ix的使用方法,强调先列后行的索引顺序。赋值操作展示了如何修改DataFrame中的列数据。排序部分详细说明了如何通过sort_values和sort_index对DataFrame和Series进行排序,支持单键或多键排序,并可指定升序或降序。这些操作为数据处理提供了基础工具。
86
0
0
2023-06-09