如何在文本中包含大量数字和产品尺寸时应用 NLP

2024-04-25 04:59:34 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在努力寻找短文本字段之间几乎重复。例如,文本字段如下所示:

TUBING,SHRINK: 3/8",4' LG,FLEXIBLE POLYOLEFIN,HEAT,2:1

在我的例子中,这些特殊的字符和数字是有意义的,删除它们可能会影响找到正确的重复项。在文本相似性的情况下如何处理这类信息。提前谢谢


Tags: 文本信息情况数字字符相似性例子意义
1条回答
网友
1楼 · 发布于 2024-04-25 04:59:34

如果你不需要这些数字和特殊字符,你可以过滤掉它们:

import string

a = 'TUBING,SHRINK: 3/8",4\' LG,FLEXIBLE POLYOLEFIN,HEAT,2:1'

# Keep letters, ',' and ' ' characters
''.join(filter(lambda x: x in string.ascii_letters + ' ,', a))

输出:

TUBING,SHRINK , LG,FLEXIBLE POLYOLEFIN,HEAT,

并在筛选的字符串之间搜索重复项

相关问题 更多 >