我试图抓取多个PDF文件以进行数据处理,但是当我试图将num发送给给定的查询时,像这样https://www.google.com/search?q=filetype:PDF+%PDF-+aa&num=100&start=0
接下来&start=1
等等,但我总是有相同的值5
import string
ext = "pdf"
magic_header = "%PDF-"
ltrs = string.ascii_lowercase
build_query = [''.join([a,b]) for a in ltrs for b in ltrs]
max_results = 10
counter = 0
while counter < max_results:
while True:
if counter == 0:
for query in build_query:
print('https://www.google.com/search?q=filetype:{}+{}+{}&num=100&start={}'.format(ext, magic_header, query,counter))
break
print(counter)
counter += 1
break
问题是
while True
循环、if counter == 0
和break
语句的使用。这将确保counter
在循环期间始终递增编辑以下有关讨论的内容:
为什么循环如此复杂
这里有一个简单的解决方案。我已要求您只对列表中的前10项进行大查询
相关问题 更多 >
编程相关推荐