在空气间隙环境中安装nltk数据 - 问答 - Python中文网

在空气间隙环境中安装nltk数据

2024-06-16 12:14:06 发布

您现在位置：Python中文网/ 问答频道 /正文

男 | 程序猿一只，喜欢编程写python代码。

我想通过Pyspark在hadoop集群上利用NLTK执行NLP任务。我们使用水蟒分布。集群处于一个空气间隙的环境中，因此我无法运行nltk.download()。在

我想我需要把数据下载到一台可以上网的辅助机器上。从哪里下载？如何在hadoop集群上安装它呢？我只是复制文件吗？或者nltk需要知道数据在哪里吗？是否需要在所有节点上复制数据？在

Tags：文件数据 hadoop 机器利用 nlp 环境 download

1条回答

网友

1楼 · 发布于 2024-06-16 12:14:06

Where do I download it from?

您可以在您的计算机上执行nltk.download()，数据将下载到您的主目录下的文件夹nltk_data

And how do I install it on the hadoop cluster? Do I just copy the files? Or does nltk needs to know where the data is?

如果将nltk_data复制到执行进程的用户下的计算机上的主文件夹中，就足够了。如果不可能，可以使用NLTK_DATA环境变量来设置位置。请参见How to config nltk data directory from code?了解更多关于此的讨论

Does the data need to be copied on all nodes?

是的

相关问题更多 >

编程相关推荐

热门问题

热门文章