文本分析，DocumentTermMatrix在R中翻译成Python

text<- c("amazing flight", "got there early", "great prices on flights??") mydata_1<- data.frame(text) library(tm) corpus<- Corpus(DataframeSource(mydata_1)) corpus<- tm_map(corpus, content_transformer(tolower)) corpus<- tm_map(corpus, removePunctuation) corpus<- tm_map(corpus, removeWords, stopwords("english")) corpus<- tm_map(corpus, stripWhitespace) dtm_1<- DocumentTermMatrix(corpus) final_output<- as.matrix(dtm_1)

Docs amazing early flight flights got great prices 1 1 0 1 0 0 0 0 2 0 1 0 0 1 0 0 3 0 0 0 1 0 1 1

1条回答

网友

1楼 · 发布于 2024-04-24 06:02:42

我找到了答案。Python中的DocumentTermMatrix等价物称为CountVectorizer

text= ["amazing flight","got there early","great prices on flights??"]

from sklearn.feature_extraction.text import CountVectorizer
import pandas as pd

vectorizer= CountVectorizer() 
X= vectorizer.fit_transform(text)
Y= vectorizer.get_feature_names()
final_output= pd.DataFrame(X.toarray(),columns=Y)

结果如下：

       amazing  early  flight  flights  got  great  on  prices  there
0      1        0      1       0        0    0      0   0       0
1      0        1      0       0        1    0      0   0       1
2      0        0      0       1        0    1      1   1       0

相关问题更多 >

编程相关推荐

热门问题

热门文章