Pandas：如果某个字符串存在于多个列中的任何一列中，我想求和一个计数，并将此计数添加到另一个具有搜索项的数据帧中

import pandas as pd videos = [(1, 'cool video','drama','horror'), (2, 'great video','sports','drama'), (3,'super video','comedy','horror')] df = pd.DataFrame(data=videos, columns=['video_id', 'title','tag_1','tag_2']) video_id title tag_1 tag_2 0 1 cool video drama horror 1 2 great video sports drama 2 3 super video comedy horror

search_terms = [('drama',0), ('horror',0), ('sports',0)] df_search_terms = pd.DataFrame(data=search_terms, columns=['search_term', 'number_matching_videos']) search_term number_matching_videos drama 0 horror 0 sports 0

2条回答

网友

1楼 · 编辑于 2024-06-02 09:08:44

试试这个：

(df_search_terms['number_matching_videos'] = 
 df_search_terms['search_term'].map(df.set_index('video_id')
                                    .stack()
                                    .str.get_dummies()
                                    .sum()))

还有一种方法：

df_search_terms['number_matching_videos'] = (df_search_terms['search_term']
                                             .map((df.loc[:,df.columns.str.contains('tag')]
                                                   .stack()
                                                   .str.extractall('({})'.format(df_search_terms['search_term'].str.cat(sep='|')))[0]
                                                   .str.get_dummies()
                                                   .sum())))

网友

2楼 · 编辑于 2024-06-02 09:08:44

使用正则表达式搜索和计算所有匹配项

search_re = '(' + df_search_terms.search_term.str.cat(sep=')|(') + ')'

将所有标记列合并为单个字符串并进行搜索

df_search_terms['number_matching_videos'] = (
    df.filter(regex='tag_*')
    .agg(' '.join, axis=1)
    .str.extractall(search_re)
    .notnull().sum()
)

输出

  search_term  number_matching_videos
0       drama                       2
1      horror                       2
2      sports                       1

相关问题更多 >

编程相关推荐

热门问题

热门文章