我在网上抓取网页的某些元素时遇到了一些奇怪的字符。出现错误的字符有:
? ????Á¢¢Á? /?? />? /??? ?/¢¥Á ??%% ?Á ?????Á? ?> /???¥??> ¥? ¥©Á ?>¢¥/%%/¥??> ? >Á? Â?Á ©???¢ ñ%Á?¥???/% Á%Á?¥??>?? />? Â??Á? ??¥?? ??¢¥????¥??> ¢`¢¥Á¢ ??%% ?Á ??À?/?Á? ¥? _ÁÁ¥ ?>??Á/¢?>À Á????Á>¥ ????¥Á? />? ??__?>??/¥??>¢ ?Á
我的代码如下
url= "http://www.nsf.gov#######@#@#@##";
#webbrowser.open(url,new =new );
flagcnt+=1
if flagcnt%20==0: #autosleep for avoiding shut-out
print "flagcount: "
print flagcnt
time.sleep(5)
#Program Code extraction
r = requests.get (url)
sp=BeautifulSoup(r.content)
页码:http://www.nsf.gov/awardsearch
我阅读了关于这个错误的所有页面,其中一些页面建议解码和编码,但它们似乎没有帮助。我不知道这里使用的是哪种编码。尝试了降低BS版本,但没有帮助。 如有任何帮助,我们将不胜感激。 Python2.7 BS 4
这对我有效:
相关问题 更多 >
编程相关推荐