训练word2vec模型从文件流数据并标记到senten

# initialize tokenizer for processing sentences class Raw_Sentences(object): def __init__(self, dirname): self.dirname = dirname def __iter__(self): for file in file_loads: ## Note: file_loads includes directory name of files (e.g. 'C:/Users/text-file1.txt') with open(file,'r', encoding='utf-8') as t: # print(tokenizer.tokenize(t.read().replace('\n', ' '))) storage = tokenizer.tokenize(t.read().replace('\n', ' ')) # I tried to temporary store the list of sentences to a list for an iteration for sentence in storage: print(nltk.word_tokenize(sentence)) yield nltk.word_tokenize(sentence)´

1条回答

网友

1楼 · 发布于 2024-04-25 06:21:02

嗯。。。在写下来重新考虑之后。。。我想我自己解决了问题。如果我错了，请纠正我：

要迭代nltk punkt语句标记器创建的每个句子，必须将其直接传递给for循环：

def __iter__(self):
    for file in file_loads:
       with open(file,'r') as t:
           for sentence in tokenizer.tokenize(t.read().replace('\n',' ')):
                yield nltk.word_tokenize(sentence)

一如既往，也有yield gensim.utils.simple_preprocess(sentence, deacc= True)的替代品

将其输入sentence = Raw_Sentences(directory)中可构建一个正确的工作字2vec gensim.models.Word2Vec(sentences)

相关问题更多 >

编程相关推荐

热门问题

热门文章