如何规范Python字符串编码问题的回答

如何规范Python字符串编码

回答此问题可获得 20 贡献值，回答如果被采纳可获得 50 分。

我有一个带字符串的文本文件。这些字符串最终表示URL路径（不是完整的URL），但已经用多种方式编码。以下是文件摘录： <pre><code>25_%D1%80%D0%B0%D1%88%D3%99%D0%B0%D1%80%D0%B0 2_\xD1\x80\xD0\xB0\xD1\x88\xD3\x99\xD0\xB0\xD1\x80\xD0\xB0 5_%D1%80%D0%B0%D1%88%D3%99%D0%B0%D1%80%D0%B0 \xD0\x90\xD0\xBA\xD0\xB0\xD0\xB1\xD0\xB0 \xD0\x90\xD1\x88\xD3\x99\xD0\xB0\xD1\x85\xD1\x8C\xD0\xB0 function.fopen Бразилиа Валерии_Маиромиан Rome,_Italy Rome%2C_Italy </code></pre> 我想保证所有这些字符串都有一个通用格式，因为在加载文件之后，我需要进行字符串比较（例如，<code>Rome%2C_Italy</code>应该等于<code>Rome,_Italy</code>）。在 有些行是URL编码的，可以很容易地<code>unquoted</code>： ^{pr2}$ 前一个代码的输出是： <pre><code>25_рашәара 2_\xD1\x80\xD0\xB0\xD1\x88\xD3\x99\xD0\xB0\xD1\x80\xD0\xB0 5_рашәара \xD0\x90\xD0\xBA\xD0\xB0\xD0\xB1\xD0\xB0 \xD0\x90\xD1\x88\xD3\x99\xD0\xB0\xD1\x85\xD1\x8C\xD0\xB0 function.fopen Бразилиа Валерии_Маиромиан Rome,_Italy Rome,_Italy </code></pre> 我最好的尝试是使用以下代码： <pre><code>import urllib with open("input.txt") as f: for line in f: str = urllib.unquote(line.rstrip()).encode("utf8") print str </code></pre> 输出如下： <pre><code>25_рашәара 2_\xD1\x80\xD0\xB0\xD1\x88\xD3\x99\xD0\xB0\xD1\x80\xD0\xB0 5_рашәара \xD0\x90\xD0\xBA\xD0\xB0\xD0\xB1\xD0\xB0 \xD0\x90\xD1\x88\xD3\x99\xD0\xB0\xD1\x85\xD1\x8C\xD0\xB0 function.fopen Бразилиа Валерии_Маиромиан Rome,_Italy Rome,_Italy </code></pre> 好像忽略了一些台词！在 在任何情况下，我认为最好是简单地对所有这些字符串进行URL编码（与<code>1</code>行一样），但是<code>urllib.quote()</code>方法在已经是URL编码的行上不能很好地工作（它将再次对<code>%</code>进行编码！）。在 如果你能帮我澄清我的困惑，我将不胜感激！在

0 条评论
分类：Python问答

默认排序时间排序

1 个回答

匿名 1天前

　擅长：python、mysql、java

如何规范Python字符串编码

1 个回答

相关Python问题