如何根据输入将数据附加到现有Excel文件中?

2024-04-28 23:38:29 发布

您现在位置:Python中文网/ 问答频道 /正文

我目前正在编写一个Scrapy Webcrawler,用于从站点页面提取数据,并将这些数据附加到现有excel(“.tmp.xlsx”)文件中。该文件带有预先填充的列标题,如“姓名”、“国家”、“州”、“邮政编码”、“地址”、“电话号码”。大多数时候我将要删除的站点不会有填充所有列的数据。有些数据只包含“国家”、“州”、“邮政编码”和“电话号码”。。 我需要帮助设置我的pipelines.py,以便根据我从im爬网站点获取的数据类型将其附加到文件中


Tags: 文件数据标题站点地址电话号码页面国家
2条回答

这段代码可能对你有帮助 把这个放在setting.py中

FEED_FORMAT = 'csv'  #format
FEED_URI =  "tmp.csv" #the path of output
# put this in the last of spider 
    def close(self, reason):
        df=pd.read_csv("tmp.csv")
        df.to_excel("tmp.xlsx",index=False) #to do not  make index

如果你需要帮助,请尽管开口

一个选项(可能不是您想要的)是只将数据附加到CSV(使用Scrapy的内置CsvItemExporter)。然后在close_spider方法中,将其转换为excel文件(例如使用pandas

相关问题 更多 >