在空气间隙环境中安装nltk数据

2024-06-16 12:14:06 发布

您现在位置:Python中文网/ 问答频道 /正文

我想通过Pyspark在hadoop集群上利用NLTK执行NLP任务。我们使用水蟒分布。 集群处于一个空气间隙的环境中,因此我无法运行nltk.download()。在

我想我需要把数据下载到一台可以上网的辅助机器上。从哪里下载?如何在hadoop集群上安装它呢?我只是复制文件吗?或者nltk需要知道数据在哪里吗?是否需要在所有节点上复制数据?在


Tags: 文件数据hadoop机器利用nlp环境download
1条回答
网友
1楼 · 发布于 2024-06-16 12:14:06

Where do I download it from?

您可以在您的计算机上执行nltk.download(),数据将下载到您的主目录下的文件夹nltk_data

And how do I install it on the hadoop cluster? Do I just copy the files? Or does nltk needs to know where the data is?

如果将nltk_data复制到执行进程的用户下的计算机上的主文件夹中,就足够了。如果不可能,可以使用NLTK_DATA环境变量来设置位置。请参见How to config nltk data directory from code?了解更多关于此的讨论

Does the data need to be copied on all nodes?

是的

相关问题 更多 >