我尝试在Spark独立集群上使用NLTK包中的punkt标记器和pyspark。NLTK已经安装在各个节点上,但是NLTK_data文件夹并不位于NLTK期望的位置(/usr/share/NLTK_data)。在
我试图使用punkt标记器,它位于(whatever/my_user/nltk_data)中。在
我设定了:
envv1 = "/whatever/my_user/nltk_data"
os.environ['NLTK_DATA'] = envv1
印刷nltk.data.path指示第一个条目是my nltk_data folder实际所在的位置。在
from nltk import word_tokenize
很好,但是当调用函数word_tokenize()
时,我得到了以下错误:
无论出于什么原因,我可以从自然语言库. 当我尝试的时候nltk.下载(),很明显我已经下载了punkt标记器。我甚至可以在pyspark之外使用punkt标记器。在
目前没有回答
相关问题 更多 >
编程相关推荐