2022年 11月 8日

用Python进行数据整理

【数据整理】
数据整理是在分析,可视化和在使用机器学习建立预测模型之前,进行数据收集,数据评估和数据整理的过程
【数据收集】
方法:1、从网上直接下载数据源;2、用编程方法下载数据源;3、使用手头的文件
【数据评估】
评估我们的数据,已确定哪些是干净的数据,以及一旦丢失哪些数据,我们还需要收集哪些数据。确保我们的数据形式,能让后续分析更轻松一点,更注重这方便一些。


数据评估主要是评估数据的质量和完整度。
数据质量问题:1、数据丢失;2、数据无效;3、数据不准确;4、数据不一致,单位不同
数据整洁度标准:1、每个变量构成一列;2、每个观察结果构成一行;3、每种类型的观察单位构成一个表格。


评估的方法:目测评估(小样本)、编程评估
使用.head显示DataFrame前5行
使用.tail显示DataFrame最后5行
显示.info显示DataFrame基本摘要
使用.value_counts显示年份一栏的输入数
df.Year.value_counts(),value_counts是用于series,不能用于dataframe.
【数据清洗】
编程数据清理过程分为3步:定义,代码,练习
定义:指以书面形式定义数据清洗计划,其中我们需将评估转变为定义的清洗任务。这个计划也可作为一个知道清单,所以其他人(或我们自己将来)也可以回顾和重现自己的工作。
编码:指将这些定义转换为代码并执行该代码。
练习:指练习我们的数据集,通常使用代码,以确保有效完成我们的清洗工作。


  • 在清洗之前先准备副本
df_clean = df.copy()
  • 1
  • 重命名列标题
df_clean = df_clean.rename(columns = {'oldname1':'newname1',
                                      'oldname2':'newname2'})
  • 1
  • 2
  • 内容不一致问题
df_clean = pandas.series.replace(to_replace=None,value=None,inplace=False,limit=None,regex=False,method='pad',axis=None)
    * 用"value"或第二个参数替换“to_replace”中给出的值-即第一个参数
    * inplace的默认值为假,我们要将它转换成True.inplace真值是指我们只能在这里写这行代码,并执行这行代码,它所产生的变化将反应在df_clean中,如果这里没有inplace真值,我们就必须将次函数的结果重新赋给Startdate
  • 1
  • 2
  • 3
  • 4
  • 5