解析HTML以获取Python中的特定标记

2024-04-19 19:56:33 发布

男 | 程序猿一只，喜欢编程写python代码。

我正在尝试用Python解析HTML源代码。我使用BeautifulSoup就是为了这个目的。我需要得到的是以nameX格式获得所有带有ID的td标记，其中X从1开始。因此它们的数量是我们拥有的数量的name1, name2, ...

我怎样才能做到这一点？我使用regex的简单代码不起作用

soup = BeautifulSoup(response.text,"lxml")
resp=soup.find_all("td",{"id":'name*'})

错误：

IndexError: list index out of range

Tags：代码标记目的 id 数量源代码 html 格式

1条回答

网友

1楼 · 发布于 2024-04-19 19:56:33

使用lambda+startswith

soup.find_all('td', id=lambda x: x and x.startswith('name'))

或正则表达式

 soup.find_all('td', id=re.compile('^name'))