不能将punkt标记器与pysp一起使用

2024-04-25 22:07:47 发布

男 | 程序猿一只，喜欢编程写python代码。

我尝试在Spark独立集群上使用NLTK包中的punkt标记器和pyspark。NLTK已经安装在各个节点上，但是NLTK_data文件夹并不位于NLTK期望的位置（/usr/share/NLTK_data）。在

我试图使用punkt标记器，它位于（whatever/my_user/nltk_data）中。在

我设定了：

envv1   = "/whatever/my_user/nltk_data"
os.environ['NLTK_DATA'] = envv1

印刷nltk.data.path指示第一个条目是my nltk_data folder实际所在的位置。在

from nltk import word_tokenize很好，但是当调用函数word_tokenize()时，我得到了以下错误：

^{pr2}$

无论出于什么原因，我可以从自然语言库. 当我尝试的时候nltk.下载（），很明显我已经下载了punkt标记器。我甚至可以在pyspark之外使用punkt标记器。在

Tags：标记 data 节点 my 集群 spark pyspark word

0条回答

目前没有回答