基于其他列中数据的列表中单词的频率

Directions to Starbucks 1045 Show me directions to Starbucks 754 Give me directions to Starbucks 612 Navigate me to Starbucks 498 Display navigation to Starbucks 376 Direct me to Starbucks 201 Navigate to Starbucks 180

3条回答

网友

1楼 · 编辑于 2024-05-26 09:18:15

我认为需要：

df = (df.set_index('Frequency')['Utterance']
        .str.split(expand=True)
        .stack()
        .groupby(level=0)
        .value_counts()
        .reset_index(name='new')
        .assign(Frequency = lambda x: x.Frequency * x['new'])
        .groupby('level_1', as_index=False)['Frequency'].sum()
        .rename(columns={'level_1':'Words'})
        )
print (df)
         Words  Frequency
0       Direct        201
1   Directions       1045
2      Display        376
3         Give        612
4     Navigate        678
5         Show        754
6    Starbucks       3666
7   directions       1366
8           me       2065
9   navigation        376
10          to       3666

如果每行仅包含唯一的单词，则解决方案是简化：

df = (df.set_index('Frequency')['Utterance']
        .str.split(expand=True)
        .stack()
        .reset_index(name='Words')
        .groupby('Words', as_index=False)['Frequency'].sum()
        )
print (df)
         Words  Frequency
0       Direct        201
1   Directions       1045
2      Display        376
3         Give        612
4     Navigate        678
5         Show        754
6    Starbucks       3666
7   directions       1366
8           me       2065
9   navigation        376
10          to       3666

解释：

从列Frequency创建索引
^{}句到词到DataFrame
按^{}重塑形状
按^{}获取每个组的计数
具有Frequency乘^{}的多重计数列
用^{}按单词聚合sum

网友

2楼 · 编辑于 2024-05-26 09:18:15

对于O（n）复杂性解决方案，使用collections.Counter。你知道吗

from collections import Counter
import pandas as pd

df = pd.DataFrame([['Directions to Starbucks', 1045],
                   ['Show me directions to Starbucks', 754],
                   ['Give me directions to Starbucks', 612],
                   ['Navigate me to Starbucks', 498],
                   ['Display navigation to Starbucks', 376],
                   ['Direct me to Starbucks', 201],
                   ['Navigate to Starbucks', 180]],
                  columns = ['Utterance', 'Frequency'])

c = Counter()

for row in df.itertuples():
    for i in row[1].split():
        c[i] += row[2]

res = pd.DataFrame.from_dict(c, orient='index')\
        .rename(columns={0: 'Count'})\
        .sort_values('Count', ascending=False)

结果

            Count
to           3666
Starbucks    3666
me           2065
directions   1366
Directions   1045
Show          754
Navigate      678
Give          612
Display       376
navigation    376
Direct        201

解释

循环浏览每一行和每一行中的每一个单词。你知道吗
对于每个单词，使用单词作为键递增计数器。你知道吗
从结果字典创建数据帧。你知道吗

网友

3楼 · 编辑于 2024-05-26 09:18:15

这应该可以做到：

output = {}
for i in ['starbucks','directions','navigate']:
    output[i] = df[df['Utterance'].str.lower().str.contains(i)]['Frequency'].sum()

收益率：

{'starbucks': 3666, 'directions': 2411, 'navigate': 678}

相关问题更多 >

编程相关推荐

热门问题

热门文章

基于其他列中数据的列表中单词的频率

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >