2024-04-25 04:59:34 发布
网友
我正在努力寻找短文本字段之间几乎重复。例如,文本字段如下所示:
TUBING,SHRINK: 3/8",4' LG,FLEXIBLE POLYOLEFIN,HEAT,2:1
在我的例子中,这些特殊的字符和数字是有意义的,删除它们可能会影响找到正确的重复项。在文本相似性的情况下如何处理这类信息。提前谢谢
如果你不需要这些数字和特殊字符,你可以过滤掉它们:
import string a = 'TUBING,SHRINK: 3/8",4\' LG,FLEXIBLE POLYOLEFIN,HEAT,2:1' # Keep letters, ',' and ' ' characters ''.join(filter(lambda x: x in string.ascii_letters + ' ,', a))
输出:
TUBING,SHRINK , LG,FLEXIBLE POLYOLEFIN,HEAT,
并在筛选的字符串之间搜索重复项
如果你不需要这些数字和特殊字符,你可以过滤掉它们:
输出:
TUBING,SHRINK , LG,FLEXIBLE POLYOLEFIN,HEAT,
并在筛选的字符串之间搜索重复项
相关问题 更多 >
编程相关推荐