匹配字符串和计数频率

CompanyName Employees Microsoft China 1 Microsoft India 1 Microsoft Europe 1 Apple Inc 1 Apple Data Inc 1 Apple Customer Service Inc 1 Data Corp 1 Data SHCH 1 Data India 1 City Corp 1 Data City 1

2条回答

网友

1楼 · 编辑于 2024-05-14 15:27:40

按照你在评论中的要求
- 如果公司始终是CompanyName中的第一个单词

# extract company as word at index 0
df.CompanyName = df.CompanyName.str.split(expand=True)[0]

# groupby company name and count
dfg = df.groupby('CompanyName').agg({'CompanyName': 'count'})

# display(dfg)
             CompanyName
CompanyName             
Apple                  3
City                   1
Data                   4
Microsoft              3

网友

2楼 · 编辑于 2024-05-14 15:27:40

我不认为有一个“非常”简单的方法来做你想做的事。但也不太复杂

首先，您需要明确定义~标准，以确定哪些名称是相同的“公司”。我们可以尝试“获得第一世界，看看它是否匹配”，显然这不是一个完美的方法，但现在就可以了

然后，您可以创建一个对象来存储新数据。我推荐一本字典，里面有company: (total employees)这样的词条

现在，您将使用apply和一个函数遍历数据帧的行，以执行您想要的操作。看起来是这样的：

dict = {}

def aggregator(row):
    word1 = row.company.split(" ")[0]
    
    if word1 in dict.keys:
       dict[word1] += row.employees

    else:
        dict[word1] = row.employees

dataframe.apply(aggregator, axis = 1)

相关问题更多 >

编程相关推荐

热门问题

热门文章

匹配字符串和计数频率

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >