将行列表转换为中的频率表

import pandas as pd from collections import Counter,defaultdict df = pd.DataFrame({'items':[['a'],['a','b'], ['d','e','f','f'],['d','f','e'], ['c','a','b']]}) alist = sum(sum(df.values.tolist(),[]),[]) # flatten the list unique_list = sorted(set(alist)) # get unique value for column names unique_list b = defaultdict(list) for row in sum(df.values.tolist(),[]): counts = Counter(row) for name in unique_list: if name in counts.keys(): b[name].append(counts[name]) else: b[name].append(0) pd.DataFrame(b)

2条回答

网友

1楼 · 编辑于 2024-05-15 16:49:50

因为您的子列表中有重复项，所以这更像是一个pivot问题而不是get_dummies，但是您需要首先扩展您的子列表。你知道吗

您可以在这里使用^{}后跟^{}。你知道吗

ii = df['items'].explode()

pd.crosstab(ii.index, ii)

items  a  b  c  d  e  f
row_0
0      1  0  0  0  0  0
1      1  1  0  0  0  0
2      0  0  0  1  1  2
3      0  0  0  1  1  1
4      1  1  1  0  0  0

性能

df = pd.concat([df]*10_000, ignore_index=True)

In [91]: %timeit chris(df)
1.07 s ± 5.3 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

In [92]: %timeit user11871120(df)
15.8 s ± 124 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

In [93]: %timeit ricky_kim(df)
56.4 s ± 1.1 s per loop (mean ± std. dev. of 7 runs, 1 loop each)

网友

2楼 · 编辑于 2024-05-15 16:49:50

另一种使用^{}和^{}的方法：

df['items'].apply(pd.value_counts).fillna(0).astype(int)

输出：

   a  b  f  d  e  c
0  1  0  0  0  0  0
1  1  1  0  0  0  0
2  0  0  2  1  1  0
3  0  0  1  1  1  0
4  1  1  0  0  0  1

相关问题更多 >

编程相关推荐

热门问题

热门文章