我有使用utf-8编码的文本文件,其中包含诸如“ore”、“ü”等字符。我想解析这些文件中的文本,但无法使标记器正常工作。如果我使用标准的nltk标记器:
f = open('C:\Python26\text.txt', 'r') # text = 'müsli pöök rääk'
text = f.read()
f.close
items = text.decode('utf8')
a = nltk.word_tokenize(items)
输出:[u'\ufeff', u'm', u'\xfc', u'sli', u'p', u'\xf6', u'\xf6', u'k', u'r', u'\xe4', u'\xe4', u'k']
朋克标记器似乎做得更好:
f = open('C:\Python26\text.txt', 'r') # text = 'müsli pöök rääk'
text = f.read()
f.close
items = text.decode('utf8')
a = PunktWordTokenizer().tokenize(items)
输出:[u'\ufeffm\xfcsli', u'p\xf6\xf6k', u'r\xe4\xe4k']
在第一个标记之前仍然有'\ufeff',我无法确定(不是说我无法删除它)。我做错什么了?非常感谢您的帮助。
UFEE代码是一个“零宽度不间断空格”字符,这不被
re
模块视为空格,因此使用带unicode和dotall标志的regexr'\w+|[^\w\s]+'
的PunktWordTokenizer()
将此字符识别为一个单词。如果不想手动删除字符,可以使用以下标记器:您应该确保将unicode字符串传递给nltk标记器。我得到了字符串的以下相同的标记化,在我的一端有两个标记化器:
很可能}是不推荐使用的Byte Order Mark形式。如果它出现在其他任何地方,则将其视为zero width non-break space。
\uFEFF
字符是从文件读取的内容的一部分。我怀疑是代币商插入的。^文件开头的{文件是由微软记事本写的吗?来自the codecs module docs:
尝试使用^{} 读取文件。注意使用BOM的
"utf-8-sig"
编码。实验:
相关问题 更多 >
编程相关推荐