我正在创建一个web应用程序,它根据用户搜索的内容从其他一些网站上刮取数据
我计划在Hostgator或Namecheap等托管网站上托管此应用程序
目前,该应用程序共包含2页。一个是index.html
,另一个是tool.py
index.html
通过表单获取输入并将其发布到tool.py
tool.py
负责web抓取。我有两个问题:
1)假设两个用户同时访问我的网站并进行搜索。哪些IP将去这些网站是要刮?它是用户自己的IP地址还是脚本IP地址(本例中tool.py位于哪个服务器IP地址)
2)如果100个用户同时搜索,tool.py
脚本将如何反应?有没有更好的方法来防止单个脚本负载过大?可能随机分发和挑选脚本(例如:tool1.py、tool2.py、tool3.py等)
好的,按顺序回答你的问题
正如@GalAbra上面提到的,它取决于工具的设计。不过,从听起来,如果
index.html
强制浏览器将数据发布到tool.py
,那么tool.py
所在的IP将是请求页面的IP理想的方法是在工具中内置一个查询系统。您可以让客户机将其请求添加到队列(可能在数据库中),然后让
tool.py
监视队列中的新条目,然后让它请求。可能在队列中有多个新请求的情况下使用线程,这取决于您认为该工具将看到多少活动希望这有帮助
相关问题 更多 >
编程相关推荐