在pandas dataframe上使用Groupby，并根据列中值的频率用逗号连接字符串问题的回答

在pandas dataframe上使用Groupby，并根据列中值的频率用逗号连接字符串

回答此问题可获得 20 贡献值，回答如果被采纳可获得 50 分。

这是对我的数据帧结构的更新，我匆忙地制定了结构，我检查了一个用户并模拟了这个结构。@lilistence的评论：“数据意外满足这个条件”也是正确的，value_counts和cum_sum（）解决了这个问题。但是用户的用户名也会发生变化，如果不同的用户有相同的文本，那么他们可以拥有相同的meet_id。在 更新的数据帧结构： <pre><code> mytable = pd.DataFrame({'user_id': [ '3c', '3c', '3c', '3c','3c', '3c', '3c', '3c', '3c', '3c', '3c', '3c', '3c', '3d', '3d', '3d', '3d', '3e', '3e', '3r', '3w', '3w', '3w', '3w'], 'meet_id': [1,1,1,1,1,1,1,2,2,2,2,2,2,3,3,3,3,4,5,6,1,2,1,1], 'text': ['abc', 'abc', 'abc', 'abc', 'abc', 'abc', 'abc', 'xyz', 'xyz', 'xyz', 'xyz', 'xyz', 'xyz', 'npq', 'npq', 'npq', 'npq', 'tt', 'op', 'li', 'abc', 'xyz', 'abc', 'abc'], 'label': ['A', 'A', 'A', 'A', 'A','B', 'B', 'B', 'B', 'B', 'C', 'C', 'A', 'G', 'H', 'H', 'H', 'A', 'A', 'B', 'E', 'G', 'B', 'B']}) mytable = mytable[['user_id', 'meet_id', 'text', 'label']] # ordering columns in the way I would like to be printed out. user_id meet_id text label 3c 1 abc A 3c 1 abc A 3c 1 abc A 3c 1 abc A 3c 1 abc A 3c 1 abc B 3c 1 abc B 3c 2 xyz B 3c 2 xyz B 3c 2 xyz B 3c 2 xyz C 3c 2 xyz C 3c 2 xyz A 3d 3 npq G 3d 3 npq H 3d 3 npq H 3d 3 npq H 3e 4 tt A 3e 5 op A 3r 6 li B 3w 1 abc E 3w 2 xyz G 3w 1 abc B 3w 1 abc B </code></pre> 我想在[user_id&meet_id]列上分组，并以这样的方式连接label列，使该组中频率较高的标签保持不变，而第二个最频繁的标签将连接第一个标签，最后一个标签将连接所有标签。在 更新的数据帧输出是我正在寻找的 ^{pr2}$ 这样可以得到： <pre><code> user_id meet_id text label 3c 1 abc A 3c 1 abc A 3c 1 abc A 3c 1 abc A 3c 1 abc A 3c 1 abc B,A 3c 1 abc B,A 3c 2 xyz B 3c 2 xyz B 3c 2 xyz B 3c 2 xyz B, C 3c 2 xyz B, C 3c 2 xyz A,B,C 3d 3 npq H,G 3d 3 npq H 3d 3 npq H 3d 3 npq H 3e 4 tt A 3e 5 op A 3r 6 li B 3w 1 abc E,B 3w 2 xyz G 3w 1 abc B 3w 1 abc B </code></pre> @piRSquared给出的答案是： <pre><code> mytable.groupby('meet_id').label.value_counts().groupby('meet_id').apply( lambda d: d.index.to_series().str[1].cumsum().str.join(', ')) </code></pre> 是我问错问题的正确答案，非常感谢，非常抱歉。它解决了前面提到的排序问题，但是如果不同的用户具有相同的meet_id，则不会起作用。为了详尽起见，如果一个组的标签频率是相等的，那么哪个标签得到另一个标签的连接并不重要。在 它提供： <pre><code> user_id meet_id text label 3c 1 abc A 3c 1 abc A 3c 1 abc A 3c 1 abc A 3c 1 abc A 3c 1 abc A, B 3c 1 abc A, B 3c 2 xyz B 3c 2 xyz B 3c 2 xyz B 3c 2 xyz B, C 3c 2 xyz B, C 3c 2 xyz B, C, A 3d 3 npq H, G 3d 3 npq H 3d 3 npq H 3d 3 npq H 3e 4 tt A 3e 5 op A 3r 6 li B 3w 1 abc A, B, E 3w 2 xyz B, C, A, G 3w 1 abc A, B 3w 1 abc A, B </code></pre> 3w的标签是关闭的，因为meet_id的标签是被拾取的，忽略了用户的不同。我的错！在 现在，由于还必须考虑用户_id，我尝试了以下操作： <pre><code> s = mytable.groupby(['user_id', 'meet_id']).label.value_counts().groupby(['user_id, 'meet_id']).apply( lambda d: d.index.to_series().str[1].cumsum().str.join(', ')) </code></pre> 这会引发： <pre><code> AttributeError: Can only use .str accessor with string values, which use np.object_ dtype in pandas </code></pre> 啊！另一个小的更新，实际上我的标签栏中有文字。在 <pre><code> dummy_boo = pd.DataFrame({'user_id': ['3g', '3g', '3g'], 'meet_id': [9,9,9], 'text': ['baby', 'baby', 'baby'], 'label':['hello', 'hello', 'why']} </code></pre> 输出： <pre><code> user_id meet_id text label 3g 9 baby hello 3g 9 baby hello 3g 9 baby why </code></pre> 应用上述代码将导致每个字符用逗号分隔。在 <pre><code> user_id meet_id text label 3g 9 baby h, e, l, l, o 3g 9 baby h, e, l, l, o 3g 9 baby h, e, l, l, o, w, h, y </code></pre> 相反，我需要： <pre><code> user_id meet_id text label 3g 9 baby hello 3g 9 baby hello 3g 9 baby hello, why </code></pre> 标签的数据类型为object。我们应该改用astype吗。非常感谢大家帮助我。在

0 条评论
分类：Python问答

默认排序时间排序

1 个回答

匿名 1天前

　擅长：python、mysql、java

在pandas dataframe上使用Groupby，并根据列中值的频率用逗号连接字符串

1 个回答

相关Python问题