pgsql/python编码问题?

0 投票
1 回答
1727 浏览
提问于 2025-04-16 20:08

我从我的PostgreSQL数据库里取了一堆文本记录,打算在分析这些文本之前先对它们进行一些预处理。

我想把这些文档进行分词,但在分词的时候遇到了一些问题。

    #some other bunch of regex replacements
    #toToken is the text string    
    toTokens = self.regexClitics1.sub(" \\1",toTokens)                   
    toTokens = self.regexClitics2.sub(" \\1 \\2",toTokens)

    toTokens = str.strip(toTokens)

错误信息是 TypeError: descriptor 'strip' requires a 'str' object but received a 'unicode' 我很好奇,为什么会出现这个错误,明明数据库的编码是UTF-8呢?

1 个回答

4

你为什么不使用 toTokens.strip() 呢?这样就不需要用到 str 模块了。

在 Python 里,有两种字符串类型,分别是 str 和 unicode。想了解更多,可以看看 这个链接

撰写回答