yyhhyy's blog

yyhhyy

pandas

5.12 案例

5.12 案例分析了2006年至2016年1000部最流行电影的数据,探讨了如何获取电影评分的平均分、导演人数等信息,并展示了如何通过直方图呈现评分和时长的分布。此外,案例还详细说明了如何统计电影分类(genre)的情况,通过创建全为0的DataFrame并遍历每部电影进行分类标记,最终绘制出各类电影的分布图。
86
0
0
2023-06-09

5.11 高级处理-分组与聚合

5.11 高级处理-分组与聚合介绍了如何使用 `groupby` 和聚合函数对数据进行分组与统计分析。通过示例展示了如何按颜色分组并计算价格的平均值,以及如何对星巴克店铺数据按国家和省份进行分组统计。分组与聚合常用于数据分析,结合统计函数可以更好地理解数据的分布情况。
57
0
0
2023-06-09

5.10 高级处理-交叉表与透视表

5.10 高级处理-交叉表与透视表介绍了如何使用交叉表和透视表进行数据分析。交叉表用于计算一列数据对另一列数据的分组频率,而透视表则将DataFrame的列作为行索引和列索引,应用聚集函数。通过案例分析,展示了如何利用交叉表分析股票涨跌与星期几的关系,并通过透视表简化数据处理过程。最终,使用柱状图可视化分析结果。
78
0
0
2023-06-09

5.9 高级处理-合并

文章介绍了在数据处理中如何使用`pd.concat`和`pd.merge`进行数据合并。`pd.concat`可以按行或列合并数据,而`pd.merge`则通过指定键值对进行合并,支持内连接、左连接、右连接和外连接等多种方式。这些方法适用于多表数据的整合与分析,帮助用户更高效地处理复杂数据集。
48
0
0
2023-06-09

5.8 高级处理-数据离散化

数据离散化是将连续属性值划分为若干离散区间的过程,旨在简化数据结构并减少属性值的数量。常用的方法包括使用`cut`和`qcut`进行区间分组,以及通过`get_dummies`实现数据的one-hot编码。离散化在数据挖掘中广泛应用,例如将股票涨跌幅数据分组并转换为哑变量矩阵,便于进一步分析。
22
0
0
2023-06-09

5.7 高级处理-缺失值处理

5.7 高级处理-缺失值处理介绍了如何处理数据中的缺失值,包括使用`isnull`和`notnull`判断缺失值,`fillna`填充缺失值,`dropna`删除缺失值,以及`replace`替换特定值。文章详细说明了如何处理标记为`NaN`的缺失值,以及如何处理其他标记(如“?”)的缺失值。通过电影数据的实例,展示了如何读取数据、判断缺失值、删除或替换缺失值。最后,总结了处理缺失值的关键方法,强调了`isnull`、`dropna`、`fillna`和`replace`的应用场景。
54
0
0
2023-06-09

5.6 文件读取与存储

本文介绍了Pandas库中文件读取与存储的几种常用方法,包括CSV、HDF5和JSON格式。通过示例代码展示了如何使用`read_csv`和`to_csv`进行CSV文件的读取与存储,以及如何通过`read_hdf`和`to_hdf`处理HDF5文件。此外,还讲解了JSON文件的读取与存储方法,重点介绍了`read_json`和`to_json`的使用及其参数配置。HDF5因其压缩和跨平台特性被推荐为优先选择的存储格式。
69
0
0
2023-06-09

5.5 Pandas画图

5.5 Pandas画图介绍了如何使用Pandas库中的DataFrame和Series进行数据可视化。通过学习,可以掌握DataFrame.plot和Series.plot函数的使用方法,了解不同图形类型的绘制,如折线图、柱状图、水平柱状图、直方图、饼图和散点图。默认图形类型为折线图,用户可以通过指定kind参数选择其他图形类型。更多详细信息和示例可参考官方文档链接。
75
0
0
2023-06-09

5.4 DataFrame运算

本文介绍了DataFrame的多种运算方法,包括算术运算、逻辑运算、统计运算和自定义运算。算术运算通过`add`和`sub`实现数据加减;逻辑运算使用逻辑符号、`query`和`isin`进行数据筛选;统计运算涵盖`describe`、`max`、`min`、`mean`、`std`等函数,用于综合统计和累计分析;自定义运算通过`apply`函数实现数据的个性化处理。这些方法帮助用户高效处理和分析数据。
67
0
0
2023-06-09

5.3 基本数据操作

5.3 基本数据操作涵盖了DataFrame和Series的基本操作,包括索引、切片、排序和赋值。通过读取股票数据,展示了如何使用行列索引、loc和iloc进行数据选择,以及如何通过sort_values和sort_index对数据进行排序。此外,还介绍了如何对DataFrame中的列进行赋值操作。这些操作是数据处理中的基础技能,适用于数据分析和处理任务。
82
0
0
2023-06-09