我是python的初学者。我正在使用BeautifulSoup从网站中提取数据。但是每当页面的源代码包含表情符号时,我的程序就会停止。在解析时/之前,我应该做些什么,以便删除表情符号/非BMP字符并刮除页面。在
import bs4 as bs
import string
import urllib.request
str = 'http://www.storypick.com/harshad-mehta-scam-web-series/' #myurl
source = urllib.request.urlopen(str);
soup = bs.BeautifulSoup(source,'lxml');
match=soup.find('div',class_='td-post-content');
str=soup.title.text+"\n";
name=soup.title.text;
for paragraph in match.find_all(['p' , 'h4' , 'h3' , 'h2' , 'blockquote']):
str+=paragraph.text+"\n";
print(str);
输出:
^{2}$
我改为使用requests,这使事情更简单。这是一个比您所要做的更简单的例子,但是它确实有效。你现在完成你的剧本应该没有问题。在
完美地为我工作!我修改了一下代码
相关问题 更多 >
编程相关推荐