通过.txt fi向Scrapy Spider传递要爬网的URL列表

3条回答

网友

1楼 · 编辑于 2024-06-01 00:15:39

您只需读入.txt文件即可：

with open('your_file.txt') as f:
    start_urls = f.readlines()

如果最后是尾随的换行符，请尝试：

with open('your_file.txt') as f:
    start_urls = [url.strip() for url in f.readlines()]

希望这有帮助

网友

2楼 · 编辑于 2024-06-01 00:15:39

使用-a选项运行蜘蛛，如：

scrapy crawl myspider -a filename=text.txt

然后在蜘蛛的__init__方法中读取文件并定义start_urls：

class MySpider(BaseSpider):
    name = 'myspider'

    def __init__(self, filename=None):
        if filename:
            with open(filename, 'r') as f:
                self.start_urls = f.readlines()

希望能有所帮助。

网友

3楼 · 编辑于 2024-06-01 00:15:39

如果你的网址是行分隔的

def get_urls(filename):
        f = open(filename).read().split()
        urls = []
        for i in f:
                urls.append(i)
        return urls

然后这几行代码将给出url。

相关问题更多 >

编程相关推荐

热门问题

热门文章

通过.txt fi向Scrapy Spider传递要爬网的URL列表

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >