Pandas是Python数据分析核心库,掌握它能处理大部分数据工作。

核心数据结构

import pandas as pd
df = pd.DataFrame({
    '姓名': ['小明','小红','小刚'],
    '数学': [85, 92, 78],
    '英语': [90, 88, 95]
})
print(df.describe())  # 统计摘要
print(df['数学'].mean())  # 平均分 85.0

数据清洗四板斧

df.isnull().sum()        # 查缺失值
df.fillna(df.mean())     # 填充缺失
df.drop_duplicates()     # 去重
df['col'].astype(int)    # 类型转换

分析三件套

# 分组聚合
df.groupby('班级')['数学'].mean()
# 排序
df.sort_values('数学', ascending=False)
# 筛选
df[df['数学'] > 80]

💡 工作流

读取→概况(shape/info/describe)→清洗→分析(分组/聚合)→可视化(matplotlib)

← 机器学习核心概念 神经网络直觉理解 →