基于列类别从数据框中的行创建文本列表

all_words = {} for cata in df['category']: all_words['wordlist_%s'% cata]=[] for cata in df['category']: df_cata = df.loc[df['category'] == cata] all_words['wordlist_%s'% cata].append(df_cata['strings'].str.cat(sep=' ').split())

2条回答

网友

1楼 · 编辑于 2024-06-01 04:24:38

这应该够了

df.groupby('category').strings.apply(' '.join).str.split()

category
candy    [chocolate, frog, jelly, beans, lollipops]
pets              [leash, cat, dog, cat, dog, frog]
Name: strings, dtype: object

额外学分获取唯一列表

df.groupby('category').strings.apply(' '.join).str.split().apply(np.unique)

category
candy    [beans, chocolate, frog, jelly, lollipops]
pets                        [cat, dog, frog, leash]
Name: strings, dtype: object

优等生 value_counts因为我觉得这很有趣

df.groupby('category').strings.apply(' '.join).str.split(expand=True) \
    .stack().groupby(level=0).apply(pd.value_counts)

 category           
candy     jelly        1
          frog         1
          lollipops    1
          beans        1
          chocolate    1
pets      cat          2
          dog          2
          leash        1
          frog         1
dtype: int64

网友

2楼 · 编辑于 2024-06-01 04:24:38

您可以先设置索引，然后对索引进行拆分，然后对索引进行分组，并用sum连接所有列表，并用它生成一个dict。你知道吗

df.set_index('category').strings.str.split().groupby(level='category').sum().to_dict()

输出

{'candy': ['chocolate', 'frog', 'jelly', 'beans', 'lollipops'],
 'pets': ['leash', 'cat', 'dog', 'cat', 'dog', 'frog']}

相关问题更多 >

编程相关推荐

热门问题

热门文章

基于列类别从数据框中的行创建文本列表

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >