我可以在scrapy上的web爬虫中创建多个URL吗？

1条回答

网友

1楼 · 发布于 2024-05-23 22:38:50

试试这个

from simplified_scrapy import Spider, SimplifiedDoc, SimplifiedMain

class WebsiteSpider(Spider):
    name = 'my_spider'
    allowed_domains = ['example1.com','example2.com']
    start_urls = ['https://www.example1.com','https://www.example2.com']

    # refresh_urls = True  # For debug. If efresh_urls = True, start_urls will be crawled again.

    def extract(self, url, html, models, modelNames):
        doc = SimplifiedDoc(html)
        lstA = doc.listA(
            url=url["url"])  # Get link data for subsequent crawling
        data = [{"title": doc.title.text}]  # Get target data

        return {"Urls": lstA, "Data": data}  # Return data to framework


SimplifiedMain.startThread(WebsiteSpider())

编程相关推荐

JAVAutil。整数java的扫描器键盘输入
java通知运行后立即崩溃
java如何在一个只能由类修改而不能由其实例修改的类中生成静态变量？
数据库Java字段猜测
返回值周围的java括号为什么？
java Android更新通讯录中的联系人
一个消费者正在读取数据
java是否可以通过编程方式为蓝牙配对设置pin？
java Spring引导和buildResponseEntity（）
java为什么序列化可以在没有实现可序列化的情况下工作

相关问题更多 >

编程相关推荐

热门问题

热门文章

我可以在scrapy上的web爬虫中创建多个URL吗？

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >