我试图在一个数据帧中将列“标记化”元素化。“标记化”列的一个单元格如下所示"是的,简单的苏黎世普通服务认为媒体平淡的咖喱类支付良好的爱用过的煮过的油腻的地方精心制作的不雅致的停留在不显眼的机构素食印度无能的离开希尔特任何人服务支持素食普通的强者值得侮辱的不是米饭厨房知道习惯的食物美食神奇的粉丝时间术语赞助人“
当我运行代码时,它会返回如下内容:“,,e,n,d,e,d,,,p,a,y,I”这不是我想要的。我如何将完整的单词进行语法化
这是我的代码:
reviews_english['tokenized_lem'] = reviews_english['tokenized'].apply(
lambda lst:[lmtzr.lemmatize(word) for word in lst])
reviews_english
问题是您的“标记化”列看起来不适合应用柠檬化步骤,因为它包含一个字符串,而不是一个标记列表。换句话说,不是
您应该在dataframe
tokenized
单元格中有一个标记列表(由您的第一句中的标记器生成),如中所示如果您的dataframe单元格中没有正确的标记列表,python将在
apply
/lambda
列表中逐字符迭代,这显然不是您想要的相关问题 更多 >
编程相关推荐