如果两个单词的变体按字母顺序不匹配，则相互匹配

网友

1楼 · 编辑于 2024-06-16 11:17:42

我不认为这是一个编程挑战，但看起来更像一个NLP挑战本身。拼写变化通常是预处理过程中遇到的一个障碍

我建议您使用基于Edit-distance的方法来识别允许某些变体的词对。特别是对于您上面描述的问题，我建议使用“Jaro Winkler Distance”。这种方法允许在单词对之间给出更高的相似度，以显示特定字符对之间的变化，比如y和i

所有这些方法都在Jellyfish library中实现。你也可以看看fuzzywuzzy package。希望这有帮助

网友

2楼 · 编辑于 2024-06-16 11:17:42

所以这就完成了我的任务，有点简单，我想不是很好的解决方案，但它是有效的：

wordlist = open("data.txt", "r", encoding='utf-8')
y_words = open("y_wordlist.txt", "w+", encoding='utf-8')
all_words = []
y_words = []

for word in wordlist:
    word = word.lower()
    all_words.append(word)

for word in all_words:
    if "y" in word:
        y_words.append(word)

word_dict = {}

for word in y_words:
    newwith1y = word.replace("y", "i",1)
    newwith2y = word.replace("y", "i",2)
    newyback = word[::-1].replace("y", "i",1)
    newyback = newyback[::-1]
    word_dict[word] = newwith1y
    word_dict[word] = newwith2y
    word_dict[word] = newyback

for key, value in word_dict.items():
    if value in all_words:
        y_wordlist.write(key)
        y_wordlist.write(" - ")
        y_wordlist.write(value)
        y_wordlist.write("\n")

网友

3楼 · 编辑于 2024-06-16 11:17:42

尝试以下操作：

s = "trydfydfgfay"
l = list(s)
candidateWords = []
for idx, c in enumerate(l):
    if c=='y':
        newList = l.copy()
        newList[idx] = "i"
        candidateWord = "".join(newList)
        candidateWords.append(candidateWord)
print(candidateWords)
#['tridfydfgfay', 'trydfidfgfay', 'trydfydfgfai']
#look up these words to see if they are real words

相关问题更多 >

编程相关推荐

热门问题

热门文章

如果两个单词的变体按字母顺序不匹配，则相互匹配

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >