商家名称的特征选择与机器学习

2024-05-14 00:31:31 发布

您现在位置:Python中文网/ 问答频道 /正文

我想把成百上千万行的商户名称分类/分类/聚类/分组到他们的标准商户名称中。例如, 1沃尔玛 2纽约沃尔玛 三。沃尔玛12安 4沃尔3马特 5山姆俱乐部

都属于“沃尔玛”的标准名称。我有数百万行的商家名称,标准名称(接近60k),每个月都会有新的商家名称出现。商家名称可以是拼写错误、大商家的子公司、并购、捷径等等

有没有办法,我们可以训练一个机器学习算法来对这些企业名称进行分类。在

我的初步想法是将属于一个标准化名称的所有商户名称表示为一组向量,然后使用支持向量机在所有不同的标准化商户名称之间绘制一个超平面,当一个新的商户名称出现时,将其表示为一个向量,并查看哪个标准化商户名称组,这个新的商家名称最接近使用相似性评分(比如余弦距离)。在

但是,我想知道是否有任何其他的方式来表示这些商家的名称作为任何其他算法的特征,我可以用在这个问题陈述。任何头脑风暴都会很感激的。提前谢谢


Tags: 名称算法机器标准分类聚类向量企业