pgsql/python编码问题?
我从我的PostgreSQL数据库里取了一堆文本记录,打算在分析这些文本之前先对它们进行一些预处理。
我想把这些文档进行分词,但在分词的时候遇到了一些问题。
#some other bunch of regex replacements
#toToken is the text string
toTokens = self.regexClitics1.sub(" \\1",toTokens)
toTokens = self.regexClitics2.sub(" \\1 \\2",toTokens)
toTokens = str.strip(toTokens)
错误信息是 TypeError: descriptor 'strip' requires a 'str' object but received a 'unicode'
我很好奇,为什么会出现这个错误,明明数据库的编码是UTF-8呢?
1 个回答
4
你为什么不使用 toTokens.strip()
呢?这样就不需要用到 str 模块了。
在 Python 里,有两种字符串类型,分别是 str 和 unicode。想了解更多,可以看看 这个链接。