用Python在web上抓取csv的最佳方法

1条回答

网友

1楼 · 发布于 2024-04-26 00:06:09

这有点宽泛，但让我们把它分成不同的任务

My question is what is needed to scrape a CSV

如果您的意思是从已知的url下载CSVs文件，那么只需使用urllib。如果你没有CSVs的网址，你将不得不以某种方式获得它们。如果您想从网页获取url，beautifulsoup通常用于解析HTML。scrapy用于更大规模的刮削。你知道吗

save the data.
Do I need a dedicated database or can I save the data a different way?

一点也不。您可以将CSV文件直接保存到磁盘，用pickle存储它们，将它们序列化为JSON或使用关系数据库或NoSQL数据库。您应该使用什么在很大程度上取决于您想做什么以及您需要对数据进行什么样的访问（本地/远程、集中/分布式）。你知道吗

and use it elsewhere in a web application using Python

您可能需要学习如何使用web框架来实现这一点（django、flask和cherrypy是常见的选择）。如果您不需要并发写访问，我提到的任何存储方法都可以使用这些方法