URL列表的多个抓取平面文件

import requests from bs4 import BeautifulSoup urls = ['https://www.someurla','https://www.someurlb'] for url in urls: res = requests.get(url) soup = BeautifulSoup(res.content,'html.parser') if len(soup.find_all('li',class_='out-of-stock')) > 0: print(soup.title)

1条回答

网友

1楼 · 发布于 2024-05-14 06:13:34

使用一个简单的JSON文件。大概是这样的：

import os
import json

url_file = '<path>/urls.json'
urls = []

if os.path.isfile(url_file):
    with open(url_file, 'rb') as f:
        urls = json.load(f)['urls']
else:
    print('No URLs found to load')

print(urls)

# hook in your script here...

此特定示例的JSON结构：

{
    "urls": [
        "http://example.com",
        "http://google.com"
    ]
}

编程相关推荐

orm如何在Java中实现规范化映射？
java以编程方式修改Xtext生成的Mwe2工作流
java正在覆盖外部文件中的现有数据，如何停止？
java在ANTLR BNF语法符号中epsilon的等价物是什么？
java如何使用Hibernate@Anyrelated注释？
代码生成生成java类并在运行时加载它
java Maven无法在本地jar文件中收集依赖项
java NetBeans IDE 8.2不显示错误消息
java Selenium web驱动程序找不到元素
java如何修复“拒绝访问属性”invoke“”的权限？

相关问题更多 >

编程相关推荐

热门问题

热门文章

URL列表的多个抓取平面文件

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >