你好
我有一个html作为字符串,在这里我需要找到任何类,其中有'内容'这个词。你知道吗
例如:
class='?content?'
其中?
-任意数量的符号或字符。你知道吗
我想用正确的字符串传递变量,而不是“entry content”。但是,我不能输入'div[class*=“content”]-它不适合我。你知道吗
如果有一种方法可以将所有类与“content”匹配,而不必对html进行预处理,那将是完美的。只是预处理是我最初的想法。你知道吗
import pandas as pd
import requests
from bs4 import BeautifulSoup
import sys
import urllib
USER_AGENT = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/61.0.3163.100 Safari/537.36'}
import re
resultText = ''
url = 'http://kakzarabativat.ru/soveti/s-chego-nachat-biznes-ili-poshagovyj-plan-starta-biznesa/'
html = urllib.request.urlopen(url).read()
content = soup.find('div', {'class': 'entry-content'})
raw = content.find_all('p')
for item in raw:
text = BeautifulSoup(str(item), 'html.parser').get_text()
resultText += text + ' '
resultText = resultText.replace("\n", "")
resultText = resultText.replace("\xa0", "")
resultText = resultText.replace("\n\n ", "")
抱歉,如果这是个愚蠢的问题,或者我完全错了。你知道吗
目前没有回答
相关问题 更多 >
编程相关推荐