检查excel选项卡中缺少的值

2024-06-02 14:36:11 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在做我的数据可视化作业。首先,我必须检查我发现的数据集,如果有必要,进行数据争用。这些数据包括马德里空气质量的几个粒子指数,这些数据是由不同的站点收集的。在

我发现表中缺少一些值。如何通过工具(python或R或Tableau)快速检查这些丢失的值并替换这些值?在

enter image description here


Tags: 工具数据站点可视化作业粒子空气质量指数
3条回答

python有几个库可以处理excel电子表格。我最喜欢的是openpyxl。它将电子表格转换成一个数据框,在这个数据框中,你可以通过它的坐标来定位一个特定的字段。它还可以识别行和列的标签,这非常方便。当然,你也可以更新你的表 用它。但是要小心,如果使用的是损坏的代码,xlsx文件可能会永久损坏

编辑1:

import openpyxl

wb = openpyxl.load_workbook('filename.xlsx')
# if your worksheet is the first one in the workbook
ws = wb.get_sheet_names(wb.get_sheet_by_name()[0])

for row in ws.iter_rows('G{}:I{}'.format(ws.min_row,ws.max_row)):
    for cell in row:
        if cell.value is None:
           cell.value = 0 

Tableau中,您可以创建一个工作表,将维度表(蓝色药丸)中最低级别的granurality拖放到中,并将列(作为度量)放在同一个图表中。在

如果您的表是真正的原子表,那么您将在右下角的工作表中得到一个关于空值的响应。单击它可以清除或替换工作簿数据中的这些特定值。在

澄清一下,这不是“高端”和编码方式,而是最简单的一种。在

PS:您还可以通过按“null”值过滤列来检查Tableau的数据输入窗口中是否缺少值。在

PS2:如果你想改变它的动态,你需要使用如下公式:

IF ISNULL(Measure1) 
THEN (Measure2) ˜ OR Another Formula
ELSE null 
END 

在Python中,可以使用pandas模块将Excel文件作为DataFrame加载。在此之后,很容易替换NaN/缺少的值。 假设您的excel名为madrid_air.xlsx

    import pandas as pd
    df = pd.read_excel('madrid_air.xlsx')

发布这篇文章后,您将得到一个他们称之为DataFrame的东西,该文件由excel文件中的数据组成,其格式与列名称和索引相同。在DataFrame中,丢失的值将作为NaN值加载。所以为了得到包含NaN值的行

^{pr2}$

df_nan将包含包含NaN值的行。在

现在,如果您想用0填充所有这些NaN值。在

     df_zerofill = df.fillna(0)

df_zerofill将有整个数据帧,所有的NaN都用0替换。在

为了专门填充coulmn,请使用coumn名称。在

    df[['NO','NO_2']] = df[['NO','NO_2']].fillna(0)

这将用0填充NONO_2列中缺少的值。在

阅读更多关于DataFrame:https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.html

要阅读有关处理DataFrames中丢失的数据的详细信息:https://pandas.pydata.org/pandas-docs/stable/user_guide/missing_data.html

相关问题 更多 >