我正在尝试创建一个txt文件包含整个文本的托拉。 我在谷歌上能找到的最好的来源是:http://www.mechon-mamre.org/i/t/t0101.htm。在
这给我的章节,我将不得不连接和写在我的文件。在
在运行以下脚本时使用urxvt(支持unicode的终端)时,我会胡言乱语:
import requests
from bs4 import BeautifulSoup
url = 'http://www.mechon-mamre.org/i/t/t0101.htm'
response = requests.get(url)
soup = BeautifulSoup(response.text)
paragraphs = soup.find_all('p')
print paragraphs[1]
输出:
^{pr2}$我试图在默认情况下强制输出使用unicode,但得到的输出完全相同:
print unicode(paragraphs[1])
BeautfulSoup和Python请求都声称可以处理unicode,因此问题可能出在我的代码上。如果我用手把浏览器中的希伯来语文本粘贴到urxvt,我就得到了真正的希伯来语。因此终端不是问题所在。在
服务器不报告内容的编码,并且
requests
(或者更确切地说chardet
)误会了内容编码。使用原始字节:
相关问题 更多 >
编程相关推荐