从BeautifulSoup对象中删除非BMP字符

import bs4 as bs import string import urllib.request str = 'http://www.storypick.com/harshad-mehta-scam-web-series/' #myurl source = urllib.request.urlopen(str); soup = bs.BeautifulSoup(source,'lxml'); match=soup.find('div',class_='td-post-content'); str=soup.title.text+"\n"; name=soup.title.text; for paragraph in match.find_all(['p' , 'h4' , 'h3' , 'h2' , 'blockquote']): str+=paragraph.text+"\n"; print(str);

2条回答

网友

1楼 · 编辑于 2024-05-14 00:44:35

我改为使用requests，这使事情更简单。这是一个比您所要做的更简单的例子，但是它确实有效。你现在完成你的剧本应该没有问题。在

import requests
from bs4 import BeautifulSoup

requestURL = 'http://www.storypick.com/harshad-mehta-scam-web-series'
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.186 Safari/537.36'}

with requests.Session() as session:
    r = session.get(requestURL, headers=headers)
    if r.ok:
        soup = BeautifulSoup(r.content, 'lxml')
        for paragraph in soup.find_all('p'):
            print (paragraph)

网友

2楼 · 编辑于 2024-05-14 00:44:35

完美地为我工作！我修改了一下代码

import bs4 as bs
import string
import urllib

str = 'http://www.storypick.com/harshad-mehta-scam-web-series/' #myurl
source = urllib.urlopen(str);
soup = bs.BeautifulSoup(source);

match=soup.find('div',class_='td-post-content');
str=soup.title.text+"\n";
name=soup.title.text;
for paragraph in match.find_all(['p' , 'h4' , 'h3' , 'h2' , 'blockquote']):
    str+=paragraph.text+"\n";
print(str);

相关问题更多 >

编程相关推荐

热门问题

热门文章