嗨,我有一个字符串数据集,有些字符串有混合词,例如:
سلام12World
دوربینdigital
سال2012good
。。。 我想要的结果是:
12 سلام world
دوربین digital
2012 سال good
这是我的密码:
def spliteKeyWord(str):
regex = r"[\u200b-\u200c]|[0-9]+|[a-zA-Z]+\'*[a-z]*"
matches = re.findall(regex, str, re.UNICODE)
return matches
但是这个代码没有显示我想要的输出。有可能得到这样的输出吗?你知道吗
可以将
re.findall
与交替模式一起使用:引用this question,可以使用此正则表达式解析非ascii字符:
这将在非ascii字之间分割所有内容。你知道吗
相关问题 更多 >
编程相关推荐