在python3中解析HTML,re,html.parser或者别的什么?

2024-05-15 16:25:51 发布

您现在位置:Python中文网/ 问答频道 /正文

我想得到一个craigslist州和它们的相关网址的列表。别担心,我没有打算发邮件,如果你想知道这是为了什么,请看下面的*。在

我要提取的是“美国州”之后的一行,是下一个50个州的。我通读了一遍html.parser的文档,这似乎太低了,更主要的目标是在ide中创建dom解析器或语法高亮显示/格式化,而不是搜索,这让我觉得我最好的选择是使用re包含在标准库中只是为了学习。我不是在请求别人帮我写正则表达式,我会自己解决的,只是在花时间在写正则表达式之前确保没有更好的方法。在

*这是我的第一个程序或任何超越简单python脚本的程序。我正在制作一个c++程序来管理我的帖子,并在帖子过期时提醒我,以防我想重新发布它们;我还制作了一个python脚本来下载美国所有州和城市/地区的列表,以便在gui中填充一个组合框。我真的不需要它,但我的目标是使这个'生产准备'/功能完善,作为一个学习练习和创建一个投资组合,可能得到一份工作。我不知道我是否会公开这个程序,这显然有可能被误用,而且可能会违反他们的ToS。在


Tags: 文档程序脚本parser解析器目标列表html
2条回答

使用^{}。它是最好的python html解析器。它支持xpath!在

Python标准库中有一个xml.etreeXML解析器。不应使用regex来解析xml。转到特定的节点,在那里找到信息并从中提取链接。在

相关问题 更多 >