计算pandas中文本列中最常用的短语

2条回答

网友

1楼 · 编辑于 2024-04-27 22:52:27

请尝试：

from collections import Counter
# df["text"] = df["text"].str.split(" | ")
df["text"] = df["text"].apply(lambda x: [s.strip() for s in x.split("|")])
c = Counter([item for row in df.text for item in row])
c.most_common(3)
[('Andy', 3), ('pal', 2), ('toy 2011', 2)]

网友

2楼 · 编辑于 2024-04-27 22:52:27

这是另一种获得答案的方法

df['text'].str.lower().str.split('|').explode().str.strip().value_counts().nlargest(3)

编程相关推荐

Java泛型重写抽象方法并具有子类的返回类型
Java中的字符串反转字符，同时保留一些字符
java将系统时间与我获取它的时间进行比较
java解析ODATA URL以在准备entityset之前读取ID值
java中的有界通配符下界泛型即使在传递超类时也不会编译
c#Java的JVM和Java的内部工作方式有什么不同。NET的CLR？
java如何在windows7上指定JDK的版本？
Java：列出单个目录中的所有文件（1020000+）
java使用Logback和Lombok
安卓谷歌玩java。lang.NullPointerException

相关问题更多 >

编程相关推荐

热门问题

热门文章

计算pandas中文本列中最常用的短语

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >