Pandas是Python数据分析核心库,掌握它能处理大部分数据工作。
核心数据结构
import pandas as pd
df = pd.DataFrame({
'姓名': ['小明','小红','小刚'],
'数学': [85, 92, 78],
'英语': [90, 88, 95]
})
print(df.describe()) # 统计摘要
print(df['数学'].mean()) # 平均分 85.0
数据清洗四板斧
df.isnull().sum() # 查缺失值
df.fillna(df.mean()) # 填充缺失
df.drop_duplicates() # 去重
df['col'].astype(int) # 类型转换
分析三件套
# 分组聚合
df.groupby('班级')['数学'].mean()
# 排序
df.sort_values('数学', ascending=False)
# 筛选
df[df['数学'] > 80]
💡 工作流
读取→概况(shape/info/describe)→清洗→分析(分组/聚合)→可视化(matplotlib)