我有一个关于python3.5土耳其语字符的问题。在
你们可以在图片中看到这个问题。我该怎么解决这个问题?在
我的密码在下面。您可以看到最后一行print(blink1.text)
给出了字符问题,但是{
from bs4 import BeautifulSoup
import requests
r = requests.get("http://www.ensonhaber.com/son-dakika")
soup = BeautifulSoup(r.text)
for tag in soup.find_all("ul",attrs={"class":"ui-list"}):
for link1 in tag.find_all('li'):
for link2 in link1.find_all('a',href=True):
print("www.ensonhaber.com" + link2['href'])
print("\n")
print(link2['title'])
for link3 in link1.find_all('span',attrs={"class":"spot"}):
# özet kısmı print(link3.text)
print("\n")
rbodysite = "http://www.ensonhaber.com"+link2['href']
rbody = requests.get(rbodysite)
soupbody = BeautifulSoup(rbody.text)
for btag in soupbody.find_all("article",attrs={"class":""}):
for blink1 in btag.find_all("p"):
print(blink1.text)
print("çÇğĞıİuÜoÖşŞ")
我的输出:
^{pr2}$
问题当然是错误的代码页。Python与代码页无关,print和beautifulsoup都不会为您修复它。在
这个网站似乎服务于UTF-8的所有页面,所以我认为你的终端是另外一个东西。我不知道哪个字符集有ı,但损坏字符的位置和它们的值表明是Windows-1254。您需要调用iconv,但首先需要读取meta标记
<meta charset=
,因为它并不总是UTF-8。另一方面,你也需要知道你的终端的编码,但这很难得到。在相关问题 更多 >
编程相关推荐