当我使用pandas读取.cs中的特定列时,会出现奇怪的跳跃

2024-05-14 17:15:15 发布

您现在位置:Python中文网/ 问答频道 /正文

1。背景

我上传的.csv文件here是一个解释我的问题的示例文件。你知道吗

此文件包含中国所有城市在特定日期的所有空气质量信息(以代码表示)。你知道吗

例如,1001A列表示一个城市,此列中的值表示对应于type列的空气污染物浓度。你知道吗

enter image description here

1。我的问题

如果我想得到20160205-00:00的AQI城市的1014A值,
我只需要使用

 df = pd.read_csv("./this file")
 aqi = df["1014A"].iloc[0]

结果是42。但在LibraOffice中查看相同的文件,结果如下所示:

enter image description here

好像熊猫读了1013A就犯了错误。你知道吗

所以,我想知道在1013A列中发生了什么:

enter image description here

熊猫将此列(其中包含有限值)读取为NaN值列。在这个文件里发生了很多次。在以下几个方面困扰着我:

  • 某些包含其数据的列在中被视为NaN列1.数据帧

  • 其他列也会间接地受到错误NaN列的影响。

如果这个问题得不到解决,列的位置就会充满错误。你知道吗

任何建议都将不胜感激!你知道吗


Tags: 文件csv数据代码信息示例dfhere
1条回答
网友
1楼 · 发布于 2024-05-14 17:15:15

csv在该位置有两个逗号:

...19,20,24,19,22,24,29,,42,39...

这本书被熊猫们读作“楠”。你知道吗

在您的LibreOffice版本中,它似乎被跳过并使用了后续值(不正确)。


In [11]: s = open("china_sites_20160205.csv").readlines()

In [12]: s[0].split(",")[13:18]
Out[12]: ['1011A', '1012A', '1013A', '1014A', '1015A']

In [13]: s[1].split(",")[13:18]
Out[13]: ['24', '29', '', '42', '39']

相关问题 更多 >

    热门问题