我基本上有一个标题列表可以在一个网站上搜索,它存储在 csv。在
我提取这些值,然后尝试将它们添加到start_urls
函数中的搜索链接。在
但是,当我运行脚本时,它只接受列表的最后一个值。 有什么特别的原因吗?在
class MySpider(CrawlSpider):
name = "test"
allowed_domains = ["example.com"]
import pandas as pd
df = pd.read_csv('test.csv')
saved_column = df.ProductName
for a in saved_column:
start_urls = ["http://www.example.com/search?noOfResults=20&keyword="+str(a)"]
def parse(self,response):
代码中存在概念错误。您正在进行循环,但除了旋转URL之外没有任何操作。所以parse函数是用循环的最后一个值来调用的。在
另一种可能的方法是重写spider的“start_requests”方法:
从这里得到的想法:How to generate the start_urls dynamically in crawling?
相关问题 更多 >
编程相关推荐