我正在研究text data具有(14640,16)的形状,使用Pandas和Spacy进行预处理,但在文本的柠檬化形式方面存在问题。此外,如果我使用只包含文本列的pandas系列(即只有一列的dataframe),也会有不同的问题。你知道吗
Code:(Dataframe)
nlp = spacy.load("en_core_web_sm")
df['parsed_tweets'] = df['text'].apply(lambda x: nlp(x))
df[:3]
在这之后,我用解析的_tweets对列进行迭代,以获得lemmetized数据,但得到错误。你知道吗
Code:
for token in df['parsed_tweets']:
print(token.lemma_)
Code: (Pandas Series)
df1['tweets'] = df['text']
nlp = spacy.load("en_core_web_sm")
for text in nlp.pipe(iter(df1), batch_size = 1000, n_threads=-1):
print(text)
有人能帮我改正错误吗?我尝试了其他stackoverflow解决方案,但无法让Spacy的doc对象对其进行迭代并获取标记和柠檬化标记。 我做错什么了?你知道吗
相关问题 更多 >
编程相关推荐