2024-04-28 23:38:29 发布
网友
我目前正在编写一个Scrapy Webcrawler,用于从站点页面提取数据,并将这些数据附加到现有excel(“.tmp.xlsx”)文件中。该文件带有预先填充的列标题,如“姓名”、“国家”、“州”、“邮政编码”、“地址”、“电话号码”。大多数时候我将要删除的站点不会有填充所有列的数据。有些数据只包含“国家”、“州”、“邮政编码”和“电话号码”。。 我需要帮助设置我的pipelines.py,以便根据我从im爬网站点获取的数据类型将其附加到文件中
这段代码可能对你有帮助 把这个放在setting.py中
FEED_FORMAT = 'csv' #format FEED_URI = "tmp.csv" #the path of output
# put this in the last of spider def close(self, reason): df=pd.read_csv("tmp.csv") df.to_excel("tmp.xlsx",index=False) #to do not make index
如果你需要帮助,请尽管开口
一个选项(可能不是您想要的)是只将数据附加到CSV(使用Scrapy的内置CsvItemExporter)。然后在close_spider方法中,将其转换为excel文件(例如使用pandas)
CsvItemExporter
close_spider
pandas
这段代码可能对你有帮助 把这个放在setting.py中
如果你需要帮助,请尽管开口
一个选项(可能不是您想要的)是只将数据附加到CSV(使用Scrapy的内置
CsvItemExporter
)。然后在close_spider
方法中,将其转换为excel文件(例如使用pandas
)相关问题 更多 >
编程相关推荐