给定不正确的字符串:
s="rate implies depreciation. Th e straight lines show eff ective linear time trends in the nominal (dashed "
我想输出正确的字符串,如:
s="rate implies depreciation. The straight lines show effective linear time trends in the nominal (dashed"
如果我尝试使用以下命令删除所有分隔符:
re.sub("\\s*","",s)
它将给我: “费率意味着折旧。铁路线显示出有效的线性部分以虚线表示”,这不是我想要的
您可以尝试检查单词拼写,例如使用pyspellchecker
(pip安装pyspellchecker)
然后检查一个单词是否不存在,但前一个单词+单词是否存在:
但在这里,因为e在字典中作为一个词存在,所以它不连接th和e
所以,如果上一个单词+单词在字典中的使用频率(远)高于单词,您还可以比较单词频率,并将上一个单词与单词连接起来:
相关问题 更多 >
编程相关推荐