我试图通过遍历URL并将收集到的数据添加到一个列表中,从而从网站中获取数据。我知道它并不漂亮(非常新),但在迭代之前,我对一切都很满意:
for date in date_list: # iterate through dates
weather_list = pd.read_html(base_url + 'KOWD' + '/' + year + '/' + month + '/' + day + end_url)
我知道在for语句中,为了遍历它们,我必须调用year、month、day,但是我认为通过在dataframe中声明它们,它们将被识别为列表。有人有什么建议吗?不能通过这个!在
^{pr2}$
只需迭代
daterange
中的日期会更简单:如果这对您有效,那么您可以删除在数据帧中存储日期的所有后续代码,将其更改为字符串,并为年、月和日期创建单独的列。在
如果您确实需要创建日期的数据框,可以执行以下操作:
^{pr2}$然后可以迭代抛出行。在
然后考虑您希望
weather_list
输出的格式。如果刮取的信息不适合包含在数据帧中,那么作为{date: table}
对的字典可能更有意义。在编辑:例如,如果要从每页中选择第三个表并将其与日期连接到一个数据帧中,可以执行以下操作:
变量}属于
year
、month
和{<class 'pandas.core.series.Series'>
类型。你需要在循环时访问它们。考虑下面的代码。在注意:在运行这段代码时,您提到的
IndexError
已得到解决,但我在weather_list = weather_list[4]
行上得到了错误。我检查过了,len(weather_list)
总是4。当然,这是一个单独的问题,因为list index out of range
在这种情况下肯定会发生。在相关问题 更多 >
编程相关推荐