使用Python解析DOM以提取数据 - 问答 - Python中文网

使用Python解析DOM以提取数据

2024-05-15 01:22:48 发布

您现在位置：Python中文网/ 问答频道 /正文

男 | 程序猿一只，喜欢编程写python代码。

我有以下代码输出从<div>标记提取的数据

s = BeautifulSoup(driver.page_source, "lxml")

best_price_tags = s.findAll('div', "flt-subhead1 gws-flights-results__price gws-flights-results__cheapest-price")
best_prices = []
for tag in best_price_tags:
    best_prices.append(tag.text.replace('€', '').strip())

变量best_price_tags的第一个元素包含以下内容：

<div class="flt-subhead1 gws-flights-results__price gws-flights-results__cheapest-price">      1 820 €   </div>

我期望上述代码只输出值1821

上述代码块在输出下列情况时存在问题，考虑^ {< CD3>}，^ {< CD4>}。

我尝试了以下方法，但不幸的是没有成功

for tag in best_price_tags:
    best_prices.append(int(tag.text.replace('€', '').strip()))

寻找不使用NLP模块的自动化解决方案

注意：我已经编辑了<div>标记的确切值。过去是<div class='...'>1 820 €</div>，现在是<div class='...'> 1 820 € </div>

Tags：代码标记 div tag tags price results class

1条回答

网友

1楼 · 发布于 2024-05-15 01:22:48

1821中的空格似乎是不间断空格（导致输出中出现\u202f），请尝试对此进行替换。顺便说一句，我不知道这个字符在键盘上的什么位置，但是复制/粘贴就足够了

相关问题更多 >

编程相关推荐

热门问题

热门文章