我想用Python分析我的第一个深度学习模型,为了这样做,我必须首先将我的语料库(8807篇文章)分成句子。我的语料库构建如下:
## Libraries to download
from nltk.tokenize import RegexpTokenizer
from nltk.corpus import stopwords
from nltk.stem.porter import PorterStemmer
from gensim import corpora, models
import gensim
import json
import nltk
import re
import pandas
appended_data = []
#for i in range(20014,2016):
# df0 = pandas.DataFrame([json.loads(l) for l in open('SDM_%d.json' % i)])
# appended_data.append(df0)
for i in range(2005,2016):
if i > 2013:
df0 = pandas.DataFrame([json.loads(l) for l in open('SDM_%d.json' % i)])
appended_data.append(df0)
df1 = pandas.DataFrame([json.loads(l) for l in open('Scot_%d.json' % i)])
df2 = pandas.DataFrame([json.loads(l) for l in open('APJ_%d.json' % i)])
df3 = pandas.DataFrame([json.loads(l) for l in open('TH500_%d.json' % i)])
df4 = pandas.DataFrame([json.loads(l) for l in open('DRSM_%d.json' % i)])
appended_data.append(df1)
appended_data.append(df2)
appended_data.append(df3)
appended_data.append(df4)
appended_data = pandas.concat(appended_data)
# doc_set = df1.body
doc_set = appended_data.body
我试图使用库gensim.models
中的函数Word2Vec.load_word2vec_format
,但我必须首先将我的语料库(doc_set
)拆分成句子。在
有什么建议吗?在
干杯
因此,Gensim的
Word2Vec
需要以下格式作为它的训练输入:sentences = [['first', 'sentence'], ['second', 'sentence']]
。在我想你的文件不止一句话。首先应该按句子进行拆分,可以使用nltk进行拆分(可能需要先下载模型)。然后将每个句子标记化,把所有的东西放在一个列表中。在
不幸的是,我和熊猫相处的不够好,无法以“放荡”的方式完成所有的手术。在
多注意
Word2Vec
的参数,正确选择它们会产生巨大的差异。在相关问题 更多 >
编程相关推荐