我正在构建一个scraper,我想从一些标签中提取数据,因为它没有任何转换。但是beauthulsoup将一些十六进制值改为ASCII。例如,这个代码被转换成ASCII
html = """\
<title>Billing address - PayPal</title>
<title>Billing address - PayPal</title>"""
下面是代码的一个小示例
^{pr2}$但我想提取相同形式的数据。我相信BeautifulSoup4自动转换HTML实体,这是我不想要的。任何帮助都将不胜感激。在
顺便说一句,我使用的是python3.5和beautifulsoup4
您可以尝试使用
re
模块( Regular Expressions )。例如,下面的代码将提取title标记信息而不进行转换:(我假设您之前声明了html变量)您也可以对其他标记执行相同的操作
相关问题 更多 >
编程相关推荐