如何在斯坦福节（StanfordNLP）中加载文档而不是字符串？

2条回答

网友

1楼 · 编辑于 2024-06-01 00:23:20

@fpohlmann的答案应该可以，但不会关闭文件句柄

只需对原始代码段进行最少的编辑，就可以通过以下方式处理文件：

nlp_pos = stanza.Pipeline('it',processors='tokenize,mwt,pos,lemma,depparse')
filename = "example.txt"
with open(filename, 'r') as f:
    doc = nlp_pos(f.read())

和访问注释信息的方式与处理字符串时doc对象的方式相同。实际上，这个代码段只是将该文件的全部内容读入一个字符串，并将其传递到节中

网友

2楼 · 编辑于 2024-06-01 00:23:20

下面是一个示例，稍微改编自小节文档。我创建了一个文件句柄，并将其传递给doc=nlp（..）。注意：我没有写入原始文件（Stanza_No_Tags.txt），而是写入新文件（Stanza_Tokenized.txt）。YMMV

nlp = stanza.Pipeline(lang='zh', processors='tokenize')
Stanza_doc_open = open('Stanza_No_Tags.txt', 'r').read()

doc = nlp(Stanza_doc_open)
for i, sentence in doc.sentences:
    print(f'====== Sentence {i+1} =======', file=open('Stanza_Tokenized.txt', 'a'))

相关问题更多 >

编程相关推荐

热门问题

热门文章

如何在斯坦福节（StanfordNLP）中加载文档而不是字符串？

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >