擅长:python、mysql、java
<p>在我看来,这是一个关于源文件编码的问题。你知道吗</p>
<p>加载文档时,BeautifulSoup使用名为<a href="https://www.crummy.com/software/BeautifulSoup/bs4/doc/#unicode-dammit" rel="nofollow noreferrer">Unicode Dammit</a>的子库将其转换为UTF-8格式。你知道吗</p>
<p>可能是您的文件已使用不同的编码保存,并且在转换过程中发生了某种错误。你知道吗</p>
<p>由于我手头没有您的html,我可以建议您调查您的文件是ASCII还是Unicode或任何其他编码,然后用以下代码解析文件:</p>
<pre><code>encoding = <your encoding here> (example "iso-8859-8")
parser = BeautifulSoup(file,'html.parser', from_encoding=encoding)
</code></pre>
<p>其他编码选项可以找到<a href="https://www.crummy.com/software/BeautifulSoup/bs4/doc/#encodings" rel="nofollow noreferrer">here</a></p>
<p>敬礼</p>
<p><strong>更新</p>
<p>同时尝试:</p>
<pre><code>parser = BeautifulSoup(file,'html.parser', from_encoding='utf-8')
</code></pre>