2024-05-23 08:14:27 发布
网友
我有这样的文字:a n a l I z e,c l a s等,但也有正常的文字。我需要去掉单词字母之间的空格。你知道吗
reg_let = re.compile('\s[А-Яа-яёЁa-zA-Z](\s)', re.DOTALL) text = 'T h i s is exactly w h a t I needed' text = re.sub(reg_let, '', text) text
输出: “Tiis exactlyhtneeded”(虽然我需要-“这正是我需要的)
这个问题没有简单的解决办法。你知道吗
我能想到的唯一解决办法是用字典检查一个词是否正确(英文字典里有)。你知道吗
但即使这样你也会得到很多假阳性。例如,如果我得到文本:
a n a n a s
文字:
在英语词典里都是正确的。如何拆分文本?对我来说,作为一个能读课文的人,这里的词显然是ananas。但我们可以这样分割文本:
an an as
这在语法上是正确的,但在英语中没有意义。正确性由上下文给出。一、 作为人类,我能理解上下文。人们可以用不同的方法拆分、合并字符串,以检查它是否有意义。但不幸的是,没有库或简单的过程可以理解上下文。你知道吗
机器学习可能是一种方法,但没有完美的解决方案。你知道吗
据我所知,没有一个简单的方法可以做到这一点,因为你最大的问题是要区分有意义的词,换句话说,你需要一些语义引擎来告诉你哪个词对句子有意义。你知道吗
我唯一能想到的是一个单词嵌入模型,如果没有类似的东西,你可以清除尽可能多的空格,但你不能区分单词,这意味着你永远不知道哪些空格不能删除。你知道吗
如果有一个更简单的方法我不知道,如果有人会修理我,我会很高兴的。你知道吗
这个问题没有简单的解决办法。你知道吗
我能想到的唯一解决办法是用字典检查一个词是否正确(英文字典里有)。你知道吗
但即使这样你也会得到很多假阳性。例如,如果我得到文本:
文字:
在英语词典里都是正确的。如何拆分文本?对我来说,作为一个能读课文的人,这里的词显然是ananas。但我们可以这样分割文本:
这在语法上是正确的,但在英语中没有意义。正确性由上下文给出。一、 作为人类,我能理解上下文。人们可以用不同的方法拆分、合并字符串,以检查它是否有意义。但不幸的是,没有库或简单的过程可以理解上下文。你知道吗
机器学习可能是一种方法,但没有完美的解决方案。你知道吗
据我所知,没有一个简单的方法可以做到这一点,因为你最大的问题是要区分有意义的词,换句话说,你需要一些语义引擎来告诉你哪个词对句子有意义。你知道吗
我唯一能想到的是一个单词嵌入模型,如果没有类似的东西,你可以清除尽可能多的空格,但你不能区分单词,这意味着你永远不知道哪些空格不能删除。你知道吗
如果有一个更简单的方法我不知道,如果有人会修理我,我会很高兴的。你知道吗
相关问题 更多 >
编程相关推荐