Python正则表达式删除收缩中的撇号

def remove_contraction_apostrophes(input): text = re.sub('can.t', 'cant', input) text = re.sub('isn.t', 'isnt', text) text = re.sub('won.t', 'wont', text) text = re.sub('aren.t', 'arent', text) return text

3条回答

网友

1楼 · 编辑于 2024-04-20 03:05:28

您可以简单地这样做：

t="test1 test2 can't test3 test4 won't"
re.sub("\'","",t)

网友

2楼 · 编辑于 2024-04-20 03:05:28

我会这样做

import re

def remove_contraction_apostraphes(input):
    text = re.sub('([A-Za-z]+)[\'`]([A-Za-z]+)', r'\1'r'\2', input)                                       
    return text

print(remove_contraction_apostraphes("can't"))

它匹配一个或多个字母[A-Za-z]+

方括号中的内容表示这些字符中的一个，加号表示前面的至少一个或多个字符

后跟以下'或`
后跟一个或多个字母

并将其替换为

在第一组括号中找到了什么r'\1'

r'\1'返回第一个([A-Za-z]+)匹配的模式

然后是在第二组括号中找到的内容r'\2'

如果您有其他字符，例如�, 你们知道它们都是什么，你们可以把它们放在方括号里。这一行将匹配这些字符中的任何一个，并通过撇号解释出现空白的可能性

text = re.sub('([A-Za-z]+)\s?[\'`�]\s?([A-Za-z]+)', r'\1'r'\2', input)

/s:有空白吗
？：上一个的0或1

您也可以使用[^A-Za-z0-9]

    text = re.sub('([A-Za-z]+)[^A-Za-z0-9]([A-Za-z]+)', r'\1'r'\2', input)

匹配任意数量的字符，后跟非字母或数字的任何字符，后跟任意数量的字符。如果您想在其中添加\s?，我建议您添加\.、\?、\!、\:。。。给你的正则表达式做'([A-Za-z]+)\s?[^A-Za-z0-9\.\!\?\:]s?([A-Za-z]+)'，因为否则你的正则表达式会匹配句子的结尾，而不是收缩

这将匹配任何收缩，无论撇号之前或之后有多大字母。您需要将所有不同的撇号放在['`]块中

网友

3楼 · 编辑于 2024-04-20 03:05:28

正则表达式可以让您轻松列出一组备选方案

def remove_contraction_apostrophes(input):
    text = re.sub(r'\b(are|ca|is|wo)n.t\b', r'\1nt', input)
    text = re.sub(r'\b(I|[hw]e|it|she|they|you).ll\b', r'\1ll', text)

在re.sub中，后面的引用\1也在替换中调用与第一个括号内的子表达式匹配的文本。（\2获取第二个，以此类推）

注意还添加单词边界锚{{CD4}}以防止正则表达式在较长单词的中间匹配，如VOL>强> CANIT Y。p>

相关问题更多 >

编程相关推荐

热门问题

热门文章