我对Python有点陌生,对Scrapy也很陌生。
我已经设置了一个蜘蛛来抓取我需要的所有信息。但是,我需要将url的.txt文件传递给start-URLs变量。
对于exmaple:
class LinkChecker(BaseSpider):
name = 'linkchecker'
start_urls = [] #Here I want the list to start crawling a list of urls from a text file a pass via the command line.
我做了一点调查,一直空手而归。我见过这种类型的示例(How to pass a user defined argument in scrapy spider),但我认为对于传递文本文件来说,这不起作用。
您只需读入.txt文件即可:
如果最后是尾随的换行符,请尝试:
希望这有帮助
使用
-a
选项运行蜘蛛,如:然后在蜘蛛的
__init__
方法中读取文件并定义start_urls
:希望能有所帮助。
如果你的网址是行分隔的
然后这几行代码将给出url。
相关问题 更多 >
编程相关推荐