我希望构建一个程序,从各种外部服务器安全地提取数据,然后将这些信息放入标准化的数据库(可能是MySQL)。我知道这是对一个程序的一个非常一般的描述,但是我试着在一些不同的情况下构建它
示例)我的学校使用两种不同的网络服务(有时教授会建立自己的网站)为学生列出家庭作业。我想我的程序登录到每个网站,拉作业,截止日期等,并把它放在一个数据库,使所有的家庭作业可以显示在一个页面上,添加到日历等
第一个问题)如何安全地执行此操作。有些网站要求我使用非常重要的用户名/密码对登录。有些cites甚至需要不同的用户名/密码对。如何登录到站点而不在源代码的某个地方列出密码(显然这将是一个糟糕的设计选择)。这些网站不提供API来实现这一点。假设我需要使用20-30个用户名/密码组合从站点中抽取。最好的办法是用一个通用密码加密我所有的用户名密码组合列表吗
scrapy
已经在评论中提到,这是进一步研究使用python
进行刮取的第一个好提示。就我个人而言,我更喜欢直接用pycurl
和BeautifulSoup
编程,但这是一个品味问题关于授权,您应该调查您将要删除的网站是否支持
Basic
身份验证。如果是这样,您可以轻松地在头中传递user/password(这在pycurl
中很简单,这就是我喜欢它的原因)。如果需要Form based
登录,身份验证将需要更多的编码。祷告没有人坚持要证书。。。在任何情况下,您都应该小心地确保使用https
而不是http
,以避免通过互联网发送您的可自由读取的密码相关问题 更多 >
编程相关推荐