lxml - 忽略HTML中的<br>标签

6 投票

1 回答

3706 浏览

数据工程师

提问于 2025-04-17 17:30

我用Python和lxml写了一个小的HTML解析器，觉得挺好用的，但遇到了一些问题。

我有以下这段代码：

tags = doc.xpath('//table//tr/td[@align="right"]/b')
for tag in tags:
    print(x.text.strip())

这段代码运行得很好。但是如果在一个标签里面有一个
标签，比如这样：

<b> first-half <br> second-half </b>

这段代码只会把first-half打印到标签里面。

我该怎么做才能把标签里面的所有文字都提取出来，即使里面有
标签呢？

谢谢。

html解析网页解析代码示例文本提取标签处理 lxml库

1 个回答

6

使用 text_content() 可以提取标签内所有不带格式的文本。把 x.text 替换成 x.text_content() 就可以了。

回答于 2025-04-17 由 Python大师

分享举报

撰写回答

您的回答

推荐教程

MongoDB：如何插入单条与多条文档

用 Python 和 MySQL 对查询结果排序

Python 复制列表

Python 正则表达式

MySQL查询WHERE子句

Python迭代器

MongoDB：如何创建数据库

Python 字典 Dcit

Python 字典(Dictionary)内置方法

Python 集合（Set）

Python集合(Set)合并与交集、差集运算

Python 修改字符串

热门标签

python json 大数据内存优化 pandas 性能优化数据处理文件处理

最新问题

使用Django的m2m_changed在pre_add时修改保存内容
1 回答 · 20623 浏览

如何在Python中按降序排序数字？
1 回答 · 2301 浏览

Python按数字分割字符串
2 回答 · 3786 浏览

如何在Python boto中判断我的AWS账户是否“拥有”某个IP地址
2 回答 · 2139 浏览

可以在Python中加载模型一次并重复使用吗？
2 回答 · 4169 浏览

关于我们

关于Python问答

团队介绍

加入我们

帮助中心

常见问题

使用指南

反馈建议

社区

技术博客

活动中心

用户故事

联系方式

联系我们

商务合作

微信公众号

© 2013~2025 Python问答社区 | 京ICP备07000037号