如何在python中对数据帧的标记化列进行元素化?

2024-05-16 06:45:16 发布

您现在位置:Python中文网/ 问答频道 /正文

我试图在一个数据帧中将列“标记化”元素化。“标记化”列的一个单元格如下所示"是的,简单的苏黎世普通服务认为媒体平淡的咖喱类支付良好的爱用过的煮过的油腻的地方精心制作的不雅致的停留在不显眼的机构素食印度无能的离开希尔特任何人服务支持素食普通的强者值得侮辱的不是米饭厨房知道习惯的食物美食神奇的粉丝时间术语赞助人“

当我运行代码时,它会返回如下内容:“,,e,n,d,e,d,,,p,a,y,I”这不是我想要的。我如何将完整的单词进行语法化

这是我的代码:

reviews_english['tokenized_lem'] = reviews_english['tokenized'].apply(
                    lambda lst:[lmtzr.lemmatize(word) for word in lst])
reviews_english

Tags: 数据代码标记元素english地方中将媒体
1条回答
网友
1楼 · 发布于 2024-05-16 06:45:16

问题是您的“标记化”列看起来不适合应用柠檬化步骤,因为它包含一个字符串,而不是一个标记列表。换句话说,不是

" yeah simply zurich generic serving ..."

您应该在dataframetokenized单元格中有一个标记列表(由您的第一句中的标记器生成),如中所示

["yeah", "simply", "zurich", "generic", "serving", ...]

如果您的dataframe单元格中没有正确的标记列表,python将在apply/lambda列表中逐字符迭代,这显然不是您想要的

相关问题 更多 >