使用python/pandas循环日期和每天数单词

2024-03-29 09:10:06 发布

您现在位置:Python中文网/ 问答频道 /正文

我有一个日期框,有一列Y-M-D和一列文本。你知道吗

我想迭代行并确定每天特定单词(在列表中预定义)的频率。然后,这应该进入一个字典,每一个单词的频率每天。你知道吗

我要把这些字数在一张单子上

words = ['monkey', 'cat'] pd.Series((df.text.str.contains(r).sum() for r in words), words, name='count')

我已经创建了一个索引:

df.index
DatetimeIndex(['1958-12-20', '1958-11-08', '1959-11-13', '1959-01-13',
             '1959-06-05', '1959-06-25', '1959-10-27', '1959-11-14',
             '1959-01-14', '1960-07-02',
             ...
             '1979-07-28', '1979-04-27', '1979-05-19', '1979-01-11',
             '1979-03-17', '1979-12-13', '1979-11-17', '1979-03-17',
             '1979-07-25', '1979-10-20'],
             dtype='datetime64[ns]', length=4481, freq=None)

我对groupby和iterrows略知一二,但我不知道如何将它们结合起来并将输出放入字典中。你知道吗


Tags: text文本df列表字典单词catmonkey