在大Pandas中把很少或没有异常的名字聚成一团问题的回答

在大Pandas中把很少或没有异常的名字聚成一团

回答此问题可获得 20 贡献值，回答如果被采纳可获得 50 分。

我有一个dataframe，其中names字段为： <pre><code>print(df) names -------------------------------- 0 U.S.A. 1 United States of America 2 USA 4 US America 5 Kenyan Footbal League 6 Kenyan Football League 7 Kenya Football League Assoc. 8 Kenya Footbal League Association 9 Tata Motors 10 Tat Motor 11 Tata Motors Ltd. 12 Tata Motor Limited 13 REL 14 Reliance Limited 15 Reliance Co. </code></pre> 现在我想将所有这些类似的名称合并到一个类别中，这样最终的数据帧看起来像这样： <pre><code>print(df) names group_name --------------------------------------------- 0 U.S.A. USA 1 United States of America USA 2 USA USA 4 US America USA 5 Kenyan Footbal League Kenya Football League 6 Kenyan Football League Kenya Football League 7 Kenya Football League Assoc. Kenya Football League 8 Kenya Footbal League Association Kenya Football League 9 Tata Motors Tata Motors 10 Tat Motor Tata Motors 11 Tata Motors Ltd. Tata Motors 12 Tata Motor Limited Tata Motors 13 REL Reliance 14 Reliance Limited. Reliance 15 Reliance Co. Reliance </code></pre> 现在只有16条记录，所以很容易查找所有可能的名称和名称中的异常，并创建一个映射字典。但实际上，我有一个包含5800个唯一名称的数据框（注意：在说明唯一名称的计数时，“USA”和“U.S.a.”被算作不同的实体）。 那么，有什么程序化的方法来解决这种情况吗？你知道吗 我尝试使用<code>difflib</code>和<code>fuzzywuzzy</code>库运行fuzzy match，但即使是它的最终结果也不具体。通常情况下，<code>difflib</code>只会根据“limited”、“association”等词进行匹配，即使它们指的是两个不同的名称，其中只有“association”或“limited”作为常用词。 感谢您的帮助。你知道吗 编辑： 即使我创建了一个包含“association”、“limited”、“cooprations”、“group”等单词的停止词列表，当以不同方式提及时，也有可能遗漏这些停止词名称。例如，如果“association”和“limited”只是指“assoc.”、“ltd”和“ltd.”，那么我很可能会错过将其中一些添加到停止词列表中的机会。你知道吗 我已经尝试过，用LDA和NMF进行主题建模，结果与我之前使用<code>difflib</code>和<code>fuzzywuzzy</code>库所获得的结果非常相似。是的，在这些方法之前，我做了所有的预处理（转换成小写，leamtization，额外的空格处理）

0 条评论
分类：Python问答

默认排序时间排序

1 个回答

匿名 1天前

　擅长：python、mysql、java

在大Pandas中把很少或没有异常的名字聚成一团

1 个回答

相关Python问题