安全地登录到web服务器并从HTML中提取数据的程序

2024-05-16 13:31:45 发布

您现在位置:Python中文网/ 问答频道 /正文

我希望构建一个程序,从各种外部服务器安全地提取数据,然后将这些信息放入标准化的数据库(可能是MySQL)。我知道这是对一个程序的一个非常一般的描述,但是我试着在一些不同的情况下构建它

示例)我的学校使用两种不同的网络服务(有时教授会建立自己的网站)为学生列出家庭作业。我想我的程序登录到每个网站,拉作业,截止日期等,并把它放在一个数据库,使所有的家庭作业可以显示在一个页面上,添加到日历等

第一个问题)如何安全地执行此操作。有些网站要求我使用非常重要的用户名/密码对登录。有些cites甚至需要不同的用户名/密码对。如何登录到站点而不在源代码的某个地方列出密码(显然这将是一个糟糕的设计选择)。这些网站不提供API来实现这一点。假设我需要使用20-30个用户名/密码组合从站点中抽取。最好的办法是用一个通用密码加密我所有的用户名密码组合列表吗


Tags: 数据程序服务器信息数据库密码示例站点
1条回答
网友
1楼 · 发布于 2024-05-16 13:31:45

scrapy已经在评论中提到,这是进一步研究使用python进行刮取的第一个好提示。就我个人而言,我更喜欢直接用pycurlBeautifulSoup编程,但这是一个品味问题

关于授权,您应该调查您将要删除的网站是否支持Basic身份验证。如果是这样,您可以轻松地在头中传递user/password(这在pycurl中很简单,这就是我喜欢它的原因)。如果需要Form based登录,身份验证将需要更多的编码。祷告没有人坚持要证书。。。在任何情况下,您都应该小心地确保使用https而不是http,以避免通过互联网发送您的可自由读取的密码

相关问题 更多 >