来自丛林的嗨
我在分析一个论坛。更具体地说,线程的名称。在
这些线程由论坛引擎(vbulletin)提供,如下所示
<a href="http://www.example.com/showthread.php?t=555555" id="thread_title_555555">NAME OF THE TITLE</a>
使用python和beautifulsoup,我在其他领域也取得了成功。但是,我不能使用regex解析“id”属性。我需要解析器的这些行找到每个具有六位数id的“a”元素并从中获取文本
像这样的东西
^{pr2}$或者在pseudopython中:
for elements in soup.finAll("a", {"id": "thread_title_".*}):
print element.text
我试了几十种变体,都没有用。我能做什么?在
提前谢谢
您可以在调用
findAll()
时将id与regex匹配。。。在\D*(\d{6})
这不符合你的要求吗?如果没有,你还试过什么?在
EDITED:如果线程标题可以包含上面不匹配的数字,那么考虑使用regex
\w*(\d{6})
区别在于}匹配任何字母、数字或下划线。在
\D
匹配所有非数字,而{相关问题 更多 >
编程相关推荐