pgsql/python编码问题？

0 投票

1 回答

1727 浏览

提问于 2025-04-16 20:08

我从我的PostgreSQL数据库里取了一堆文本记录，打算在分析这些文本之前先对它们进行一些预处理。

我想把这些文档进行分词，但在分词的时候遇到了一些问题。

    #some other bunch of regex replacements
    #toToken is the text string    
    toTokens = self.regexClitics1.sub(" \\1",toTokens)                   
    toTokens = self.regexClitics2.sub(" \\1 \\2",toTokens)

    toTokens = str.strip(toTokens)

错误信息是 TypeError: descriptor 'strip' requires a 'str' object but received a 'unicode' 我很好奇，为什么会出现这个错误，明明数据库的编码是UTF-8呢？

数据库文本处理 postgresql 编码问题分词

1 个回答

你为什么不使用 toTokens.strip() 呢？这样就不需要用到 str 模块了。

在 Python 里，有两种字符串类型，分别是 str 和 unicode。想了解更多，可以看看这个链接。

回答于 2025-04-16 由 Python大师

分享举报

pgsql/python编码问题？

1 个回答

撰写回答