正则表达式以在htm中查找特定类型的类

2024-03-28 12:11:21 发布

您现在位置:Python中文网/ 问答频道 /正文

你好

我有一个html作为字符串,在这里我需要找到任何类,其中有'内容'这个词。你知道吗

例如:

class='?content?'

其中?-任意数量的符号或字符。你知道吗

我想用正确的字符串传递变量,而不是“entry content”。但是,我不能输入'div[class*=“content”]-它不适合我。你知道吗

如果有一种方法可以将所有类与“content”匹配,而不必对html进行预处理,那将是完美的。只是预处理是我最初的想法。你知道吗

import pandas as pd import requests from bs4 import BeautifulSoup import sys import urllib USER_AGENT = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/61.0.3163.100 Safari/537.36'} import re resultText = '' url = 'http://kakzarabativat.ru/soveti/s-chego-nachat-biznes-ili-poshagovyj-plan-starta-biznesa/' html = urllib.request.urlopen(url).read() content = soup.find('div', {'class': 'entry-content'}) raw = content.find_all('p') for item in raw: text = BeautifulSoup(str(item), 'html.parser').get_text() resultText += text + ' ' resultText = resultText.replace("\n", "") resultText = resultText.replace("\xa0", "") resultText = resultText.replace("\n\n ", "")

抱歉,如果这是个愚蠢的问题,或者我完全错了。你知道吗


Tags: 字符串textimportdivurlrawhtmlcontent