寻找从不同网站收集信息/数据的方法

2024-04-24 10:41:03 发布

您现在位置:Python中文网/ 问答频道 /正文

我是一个刚从大学毕业的程序员,有一些Python和Javascript方面的经验,我正在尝试开发一个网站,或者只是一个后端系统,它可以从没有任何API(或者我没有找到任何API)的在线市场网站聚合信息。理想情况下,我还希望系统能够写入本地存储,以跟踪某种数据库中数据随时间的变化,但这有点困难。你知道吗

我已经开发出了一些javascript,可以获取我想要的数据,但显然由于数据安全保护,似乎没有办法访问或处理来自其他网站的数据,或者将数据保存到本地存储以便从其他页面读取。我知道有一些方法可以聚合数据,就像我见过的其他网站那样。你知道吗

我可以使用urllib2加载Python中的网站,并使用正则表达式解析一些页面中的内容,但是在一些需要的网站上,我需要先登录到该网站,然后才能访问我想要收集的数据。你知道吗

由于我对编程比较陌生,有没有一种理想的工具/编程语言可以简化我的工作?你知道吗

如果不是的话,你能给我指出正确的方向吗?在进行了一些搜索之后,似乎普遍缺乏跨域数据收集和聚合。也许我甚至没有用正确的术语来描述我要做的事情。你知道吗

不管你怎么看,请帮帮我!:-)


Tags: 数据api信息数据库市场网站系统情况
1条回答
网友
1楼 · 发布于 2024-04-24 10:41:03

我建议您使用seleniumwebdriver登录以获取cookie,并使用requests库来废弃留言。那个我的公司是怎么做的系统.if您只需使用selenium webdriver,就需要大量的内存和cpu容量。 如果您擅长html和js,那么使用请求库来模拟日志记录是一种很好的方法。 对于你必须登录的网站来说,最重要的是获取cookie。你知道吗

相关问题 更多 >