用Python在web上抓取csv的最佳方法

2024-04-26 00:06:09 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在寻找取代雅虎查询语言与一些更易于管理和可靠的。现在,我们使用它来抓取公共CSV文件,并使用web应用程序中的信息。你知道吗

目前,我很难找到一个替代方案,似乎用Python刮网站是最好的选择。但是我甚至不知道从哪里开始。你知道吗

我的问题是,在使用Python的web应用程序中,刮取CSV、保存数据并在其他地方使用它需要什么?我需要一个专用的数据库还是我可以用不同的方式保存数据?你知道吗

请简单解释


Tags: 文件csv数据web信息数据库应用程序网站
1条回答
网友
1楼 · 发布于 2024-04-26 00:06:09

这有点宽泛,但让我们把它分成不同的任务

My question is what is needed to scrape a CSV

如果您的意思是从已知的url下载CSVs文件,那么只需使用urllib。如果你没有CSVs的网址,你将不得不以某种方式获得它们。如果您想从网页获取url,beautifulsoup通常用于解析HTML。scrapy用于更大规模的刮削。你知道吗

save the data.

Do I need a dedicated database or can I save the data a different way?

一点也不。您可以将CSV文件直接保存到磁盘,用pickle存储它们,将它们序列化为JSON或使用关系数据库或NoSQL数据库。您应该使用什么在很大程度上取决于您想做什么以及您需要对数据进行什么样的访问(本地/远程、集中/分布式)。你知道吗

and use it elsewhere in a web application using Python

您可能需要学习如何使用web框架来实现这一点(djangoflaskcherrypy是常见的选择)。如果您不需要并发写访问,我提到的任何存储方法都可以使用这些方法

相关问题 更多 >