分析特定单词的html

2024-04-19 11:23:29 发布

您现在位置:Python中文网/ 问答频道 /正文

我正试着给一个网站打电话,在网站上搜索特定的词。你知道吗

现在我有:

import urllib.request
from bs4 import BeautifulSoup

response = urllib.request.urlopen("https://www.mtb.com")
page_source = response.read()
soup = BeautifulSoup(page_source, 'lxml')

我想在html中搜索“Chat”这个词(实际上是一长串不同的词)。你知道吗

如果我做了这样的事

"Chat" in soup
False

"Chat" in page_source
TypeError: 'str' does not support the buffer interface

查看网站的源代码,我可以看到它确实有Chat。我想看看这个词是否存在于html中(他们使用的是聊天工具),而不是如果这个词作为文本存在于网页上。(如果网页上也有则罚款)

enter image description here


Tags: infromimport网页source网站responserequest
1条回答
网友
1楼 · 发布于 2024-04-19 11:23:29

您也可以不使用BeautifulSoup来实现这一点,只需使用正则表达式即可。由于刮取的页面以类似字节的对象的格式返回,因此x = page_source.decode()将类似字节的对象转换为字符串

完整代码:

import urllib.request

from urllib.request import urlopen

import re

response = urllib.request.urlopen("https://www.mtb.com")

page_source = response.read()

x = page_source.decode()

y = re.findall(r'[C][h][a][t]', x)

print(y)

相关问题 更多 >