yyhhyy's blog

yyhhyy

pandas

5.12 案例

文章分析了2006年至2016年1000部最流行电影的数据,包括评分、导演人数、电影时长和分类的统计。通过Python代码,计算了评分的平均值和导演的唯一数量,并使用直方图展示了评分和电影时长的分布。此外,文章还展示了如何统计和可视化电影分类的情况。
79
0
0
2023-06-09

5.11 高级处理-分组与聚合

文章介绍了如何使用groupby和聚合函数进行数据分组与聚合,通过案例展示了不同颜色笔的价格数据的分组与平均值计算。此外,还分析了全球星巴克店铺数据,通过分组统计了不同国家和省份的店铺数量,并绘制了相应的图表。
54
0
0
2023-06-09

5.10 高级处理-交叉表与透视表

本文介绍了如何使用crosstab和pivot_table在数据分析中实现交叉表与透视表,以探究股票涨跌与星期几的关系。通过交叉表计算星期几与股票涨跌幅的比例,并使用透视表简化这一过程。最终,通过绘制比例图展示了分析结果。
74
0
0
2023-06-09

5.9 高级处理-合并

本文介绍了使用Pandas进行数据合并的两种主要方法:`pd.concat`和`pd.merge`。`pd.concat`通过指定`axis`参数(0为列,1为行)来合并数据。`pd.merge`则提供了更灵活的合并方式,支持内连接、左连接、右连接和外连接,通过`how`参数指定连接方式,`on`参数指定合并键。这些方法在处理多表数据时非常有用。
46
0
0
2023-06-09

5.8 高级处理-数据离散化

数据离散化通过将连续属性值划分为离散区间来简化数据结构,减少属性值的个数。文章介绍了使用cut和qcut方法对数据进行区间分组,并通过get_dummies实现one-hot编码。以股票涨跌幅数据为例,展示了如何将连续数据离散化为哑变量矩阵,便于数据挖掘分析。
21
0
0
2023-06-09

5.7 高级处理-缺失值处理

本文介绍了处理数据中缺失值的高级方法,包括使用isnull和notnull判断缺失值,fillna填充缺失值,dropna删除缺失值,以及replace替换特定值。通过实际案例展示了如何处理电影数据中的缺失值,并讨论了非NaN标记缺失值的处理方法。
51
0
0
2023-06-09

5.6 文件读取与存储

Pandas支持多种文件格式的读取和存储,包括CSV、HDF5和JSON。CSV文件通过`read_csv`和`to_csv`函数进行读写,HDF5文件使用`read_hdf`和`to_hdf`,而JSON文件则通过`read_json`和`to_json`。HDF5文件支持压缩,适合大数据存储和跨平台迁移。JSON文件读取时需指定格式(如'records'),并可选择按行读取。
64
0
0
2023-06-09

5.5 Pandas画图

本文介绍了Pandas库中的画图功能,包括DataFrame和Series的画图函数。DataFrame.plot()支持多种图表类型,如线图、柱状图、直方图、饼图和散点图。Series.plot()提供了对Series数据绘图的详细说明。
73
0
0
2023-06-09

5.4 DataFrame运算

本文介绍了如何使用Pandas进行DataFrame运算,包括算术运算(如加法和减法)、逻辑运算(如筛选和查询)、统计运算(如描述性统计、最大值、最小值、中位数等)以及自定义运算。通过示例代码展示了如何应用这些运算函数来处理和分析数据。
63
0
0
2023-06-09

5.3 基本数据操作

文章介绍了Pandas中的基本数据操作,包括索引操作、赋值操作和排序。索引操作涵盖了直接使用行列索引、结合loc或iloc使用索引以及使用ix组合索引。赋值操作展示了如何对DataFrame中的列进行重新赋值。排序部分则讲解了如何使用sort_values和sort_index对DataFrame和Series进行排序。
76
0
0
2023-06-09