2024-06-16 12:14:06 发布
网友
我想通过Pyspark在hadoop集群上利用NLTK执行NLP任务。我们使用水蟒分布。 集群处于一个空气间隙的环境中,因此我无法运行nltk.download()。在
nltk.download()
我想我需要把数据下载到一台可以上网的辅助机器上。从哪里下载?如何在hadoop集群上安装它呢?我只是复制文件吗?或者nltk需要知道数据在哪里吗?是否需要在所有节点上复制数据?在
Where do I download it from?
您可以在您的计算机上执行nltk.download(),数据将下载到您的主目录下的文件夹nltk_data
nltk_data
And how do I install it on the hadoop cluster? Do I just copy the files? Or does nltk needs to know where the data is?
如果将nltk_data复制到执行进程的用户下的计算机上的主文件夹中,就足够了。如果不可能,可以使用NLTK_DATA环境变量来设置位置。请参见How to config nltk data directory from code?了解更多关于此的讨论
NLTK_DATA
Does the data need to be copied on all nodes?
是的
您可以在您的计算机上执行
nltk.download()
,数据将下载到您的主目录下的文件夹nltk_data
如果将
nltk_data
复制到执行进程的用户下的计算机上的主文件夹中,就足够了。如果不可能,可以使用NLTK_DATA
环境变量来设置位置。请参见How to config nltk data directory from code?了解更多关于此的讨论是的
相关问题 更多 >
编程相关推荐