我一直在尝试使用lxml库从一些网站获取数据。和Python3。但在网页抓取过程中,我得到了一些奇怪的字符,而不是土耳其字符。奇怪的字符如下所示
但它们本应如下所示
我从不同的网站上得到了每一句话。我不知道怎样才能把它们转换成土耳其语文本
这是我的密码
import cssselect
import requests
from lxml import html
def parse_html(url, selector):
page = requests.get(url)
tree = html.fromstring(page.content)
titles = tree.cssselect(selector)
for title in titles:
print(title.text_content().strip())
版本
答案
为什么
unicode字符“ı”(U+0131)在UTF-8中编码为0xC4B1。2字节
page.content
返回一个Binary Response Content0xC4B1变为0xC4(U+00C4'Ä')和0xB1(U+00B1'±')
而U+00FC'ü'(UTF-8编码:0xC3BC)变成0xC3(U+00C3'Ã')和0xBC(U+00BC'¼')
相关问题 更多 >
编程相关推荐