正确的方法来存储刮下的HTML重新分析?

2024-05-15 05:09:32 发布

您现在位置:Python中文网/ 问答频道 /正文

我抓取了大量的页面,将源代码存储在Postgres数据库中,然后确定要解析的信息位,要么用Postgres自己的regex(非常快)解析,要么用Python和BeautifulSoup逐行解析,这可能更“合适”,但要慢得多

我想知道是否应该将源代码转换为JSON并存储在JSONB字段中。似乎更快,因为所有的JSON都可以被索引…我错了吗?或者换成MongoDB?我只是觉得一定有更快的办法。为了论证的目的,让我们假设我不能预先确定需要解析的所有数据。建议


Tags: 数据目的信息数据库json源代码mongodbpostgres

热门问题