不能将punkt标记器与pysp一起使用

2024-04-25 22:07:47 发布

您现在位置:Python中文网/ 问答频道 /正文

我尝试在Spark独立集群上使用NLTK包中的punkt标记器和pyspark。NLTK已经安装在各个节点上,但是NLTK_data文件夹并不位于NLTK期望的位置(/usr/share/NLTK_data)。在

我试图使用punkt标记器,它位于(whatever/my_user/nltk_data)中。在

我设定了:

envv1   = "/whatever/my_user/nltk_data"
os.environ['NLTK_DATA'] = envv1   

印刷nltk.data.path指示第一个条目是my nltk_data folder实际所在的位置。在

from nltk import word_tokenize很好,但是当调用函数word_tokenize()时,我得到了以下错误:

^{pr2}$

无论出于什么原因,我可以从自然语言库. 当我尝试的时候nltk.下载(),很明显我已经下载了punkt标记器。我甚至可以在pyspark之外使用punkt标记器。在


Tags: 标记data节点my集群sparkpysparkword

热门问题