如何在Python中从文件中读取时修复此意外行为

import codecs f = codecs.open("input2.txt", 'r', encoding='utf8') lst = [] t1 = f.readline().rstrip('\n') t2 = f.readline().rstrip('\n') res1 = "" res2 = "" for i in xrange(0,len(t1)): if ord(t1[i]) == 8764: res1 += "~" else: res1 += chr(ord(t1[i])) for i in xrange(0,len(t2)): if ord(t2[i]) == 8764: res2 += "~" else: res2 += chr(ord(t2[i])) lst.append(res1) lst.append(res2) print lst

1条回答

网友
1楼 · 发布于 2024-05-29 05:59:36

该文件包含UTF-8编码的数据。tilda字符实际上是由'\xe2\x88\xbc'字符串编码的。当您打印它时，它看起来“正常”，因为某些东西正在将这些字符转换为它的等效unicode字形。你知道吗
使用codecs.open或decode函数获取所需的数据。例如
f = codecs.open("input.txt", 'r', 'utf8')
你应该看到u'\u223c'而不是'\xe2\x88\xbc'
还要注意，您的文件中有代码点U+223C，但您可能打算使用U+007E。你知道吗

编程相关推荐

如何使用Java中的扫描仪读取文本文件中的特定字符？
java如果我们在hibernate中开始事务但不提交它，会发生什么？
Azure CosmosDB Java Springboot中的无服务器帐户不支持spring boot设置提供吞吐量或容器自动导航
附加到新对象的Java注释？
java如何将自定义文本视图添加到。在Kotlin中添加通知操作
java Shibboleth添加_OpenSAMLcookies，导致HTTP头大小>8k
分布式传感器数据（~40Hz）的高效Java观测器设计
java如何在while循环外声明数组，但在while循环中初始化它？
用@XmlElementRef注释的java元素没有显示在JAXB编组字符串中？
java替换二维数组的值

相关问题更多 >

编程相关推荐

热门问题

热门文章