大Pandas细胞的金属化

2条回答

网友

1楼 · 编辑于 2024-05-22 21:44:56

可以使用pandas中的apply函数对给定字符串中的每个单词进行元素化。注意，有很多方法可以标记文本。如果使用空白标记器，则可能必须删除像.这样的符号。

下面，我将给出一个关于如何对示例dataframe的列进行元素化的示例。

import nltk

w_tokenizer = nltk.tokenize.WhitespaceTokenizer()
lemmatizer = nltk.stem.WordNetLemmatizer()

def lemmatize_text(text):
    return [lemmatizer.lemmatize(w) for w in w_tokenizer.tokenize(text)]

df = pd.DataFrame(['this was cheesy', 'she likes these books', 'wow this is great'], columns=['text'])
df['text_lemmatized'] = df.text.apply(lemmatize_text)

网友

2楼 · 编辑于 2024-05-22 21:44:56

|col| 
['Sushi Bars', 'Restaurants']
['Burgers', 'Fast Food', 'Restaurants']

wnl = WordNetLemmatizer()

下面创建一个函数，该函数接受单词列表并返回元素化单词列表。这应该管用。

def lemmatize(s):
'''For lemmatizing the word
'''
     s = [wnl.lemmatize(word) for word in s]
     return s

dataset = dataset.assign(col_lemma = dataset.col.apply(lambda x: lemmatize(x))

相关问题更多 >

编程相关推荐

热门问题

热门文章

大Pandas细胞的金属化

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >