R通过Reticu解析Python-NLTK树

library(reticulate) nltk <- import("nltk") sent_tokenize <- function(text, language = "english") { nltk$tokenize$sent_tokenize(text, language) } word_tokenize <- function(text, language = "english", preserve_line = FALSE) { nltk$tokenize$word_tokenize(text, language, preserve_line) } pos_tag <- function(tokens, tagset = NULL, language = "eng") { nltk$pos_tag(tokens, tagset, language) } ne_chunk <- function(tagged_tokens, binary = FALSE) { nltk$ne_chunk(tagged_tokens, binary) } text <- "Christopher is having a difficult time parsing NLTK Trees in R." tokens <- word_tokenize(text) tagged_tokens <- pos_tag(tokens) ne_tagged_tokens <- ne_chunk(tagged_tokens)

1条回答

网友

1楼 · 发布于 2024-06-16 13:22:03

我想问题在于reticulate无法读取定制的Python对象，这是很常见的，因此您必须在R和Python接口之间传递与本机Python类型相同的Python对象。在

有一种方法可以使用Tree.pformat()将ne_chunks的输出格式更改为字符串（bracketed parse format）：

>>> from nltk import word_tokenize, pos_tag, ne_chunk
>>> sent = "Christopher is having a difficult time parsing NLTK Trees in R."
>>> ne_chunk(pos_tag(word_tokenize(sent)))
Tree('S', [Tree('GPE', [('Christopher', 'NNP')]), ('is', 'VBZ'), ('having', 'VBG'), ('a', 'DT'), ('difficult', 'JJ'), ('time', 'NN'), ('parsing', 'VBG'), Tree('ORGANIZATION', [('NLTK', 'NNP'), ('Trees', 'NNP')]), ('in', 'IN'), Tree('GPE', [('R', 'NNP')]), ('.', '.')])
>>> ne_chunk(pos_tag(word_tokenize(sent))).pformat()
'(S\n  (GPE Christopher/NNP)\n  is/VBZ\n  having/VBG\n  a/DT\n  difficult/JJ\n  time/NN\n  parsing/VBG\n  (ORGANIZATION NLTK/NNP Trees/NNP)\n  in/IN\n  (GPE R/NNP)\n  ./.)'

要读回它，请使用Tree.fromstring()：

^{pr2}$

所以我想在R中这样做可能会奏效：

text <- "Christopher is having a difficult time parsing NLTK Trees in R."
ne_tagged_tokens <- ne_chunk(pos_tag(word_tokenize(tagged_tokens)))$pformat()
print(ne_tagged_tokens)

但是将字符串读回R对象应该是不可能的，因为它不能处理非本机Python树对象，some_func <- function(...{nltk$some_func(...)})不能与{}一起工作，因为它不是一个函数。在

如果要将ne_chunk树对象的输出操作到命名实体的列表中，那么您必须在Python中执行如下操作：NLTK Named Entity recognition to a Python list

再说一次，如果您在Python中需要太多的函数，而实际上并不想重新编码或使用其他R库，那么为什么不使用Python编写而不是坚持使用R呢

相关问题更多 >

编程相关推荐

热门问题

热门文章