我正在做网页抓取,到目前为止已经做过了-
page = requests.get('http://abcdefgh.in')
print(page.status_code)
soup = BeautifulSoup(page.content, 'html.parser')
all_p = soup.find_all(class_="p-list-sec")
print((all_p))
这样做之后,当我打印所有
<div class = "p-list-sec">
<UI> <li> < a href = "link1", title = "tltle1">title1<a/></li>
<li> < a href = "link2", title = "tltle2">title2<a/></li>
<li> < a href = "link3", title = "tltle3">title3<a/></li>
</ui>
</div>
<div class = "p-list-sec">
<UI> <li> < a href = "link1", title = "tltle1">title1<a/></li>
<li> < a href = "link2", title = "tltle2">title2<a/></li>
<li> < a href = "link3", title = "tltle3">title3<a/></li>
</ui>
</div>
<div class = "p-list-sec">
<UI> <li> < a href = "link1", title = "tltle1">title1<a/></li>
<li> < a href = "link2", title = "tltle2">title2<a/></li>
<li> < a href = "link3", title = "tltle3">title3<a/></li>
</ui>
</div> and so on up to around 40 div classes.
现在我想提取类p-list-sec中的所有a href和title,并将它们存储到文件中。我知道如何将它们存储到文件中,但从all p-list-sec类中提取所有a href和title对我来说是个问题。 我正在使用Python3.9,并使用命令提示符在Windows10中使用请求和美化组库
谢谢, 阿克希
如果您不介意div名称,这里有一条单行线:
输出:
否则:
这样,您就可以保存一个文件,在其中跟踪信息和节名
输出:
这样行吗
以防万一
为了避免两次循环,还可以使用BeautifulSoup css选择器和链
class
和<a>
。因此,拿起你的汤,像这样选择:要形成您想要处理的信息,您可以使用一个for循环或一个列表来理解一行中的所有内容:
输出
要将其存储在csv中,请随意将其推入
pandas
或csv
熊猫:
CSV:
相关问题 更多 >
编程相关推荐