使用正则表达式将属性解析的值与beauthulsoup匹配 - 问答 - Python中文网

使用正则表达式将属性解析的值与beauthulsoup匹配

2024-05-20 01:06:50 发布

您现在位置：Python中文网/ 问答频道 /正文

男 | 程序猿一只，喜欢编程写python代码。

来自丛林的嗨

我在分析一个论坛。更具体地说，线程的名称。在

这些线程由论坛引擎（vbulletin）提供，如下所示

<a href="http://www.example.com/showthread.php?t=555555" id="thread_title_555555">NAME OF THE TITLE</a>

使用python和beautifulsoup，我在其他领域也取得了成功。但是，我不能使用regex解析“id”属性。我需要解析器的这些行找到每个具有六位数id的“a”元素并从中获取文本

像这样的东西

^{pr2}$

或者在pseudopython中：

for elements in soup.finAll("a", {"id": "thread_title_".*}):
    print element.text

我试了几十种变体，都没有用。我能做什么？在

提前谢谢

Tags：引擎名称 com id http title example www

2条回答

网友

1楼 · 编辑于 2024-05-20 01:06:50

您可以在调用findAll()时将id与regex匹配。。。在

for element in soup.findAll("a", id=re.compile("^thread_title_")):
    print element.text

网友

2楼 · 编辑于 2024-05-20 01:06:50

\D*(\d{6})

这不符合你的要求吗？如果没有，你还试过什么？在

EDITED：如果线程标题可以包含上面不匹配的数字，那么考虑使用regex \w*(\d{6})

区别在于\D匹配所有非数字，而{}匹配任何字母、数字或下划线。在

相关问题更多 >

编程相关推荐

热门问题

热门文章