Hadoop/Python:加载要在mapp中使用的引用文件

2024-04-25 16:37:59 发布

您现在位置:Python中文网/ 问答频道 /正文

我想用Hadoop处理Python中的CSV文件,但我需要引用另一个包含查找信息的文件。在

我读到我可以使用-files命令行选项来创建指向本地文件的符号链接,但是如何在Python映射器文件中引用这个文件呢?在


Tags: 文件csv命令行hadoop信息链接选项符号
1条回答
网友
1楼 · 发布于 2024-04-25 16:37:59

一旦在Amazon EMR中创建了这个作业,我就可以将该文件复制到S3并使用-cacheFile选项直接引用它:

bin/hadoop ... -cacheFile s3://my-bucket/files/cachefile.csv#reference

在Python中,我可以打开以下文件:

^{pr2}$

相关问题 更多 >

    热门问题