Python中文
首页
教程
问答
标签
搜索
登录
注册
使用(spark、python、pyspark、jupyter)将多个项目保存到HDFS
回答此问题可获得
20
贡献值,回答如果被采纳可获得
50
分。
<p>我习惯用Python编程。我的公司现在安装了一个安装了Jupyter的Hadoop集群。到现在为止,我从来没有用过Spark/Pyspark。在</p> <p>我可以轻松地从HDFS加载文件:</p> <pre><code>text_file = sc.textFile("/user/myname/student_grades.txt") </code></pre> <p>我可以这样写输出:</p> ^{pr2}$ <p>我试图实现的是使用一个简单的“for循环”逐个读取文本文件并将其内容写入一个HDFS文件。所以我试了一下:</p> <pre><code>list = ['text1.txt', 'text2.txt', 'text3.txt', 'text4.txt'] for i in list: text_file = sc.textFile("/user/myname/" + i) text_file.saveAsTextFile("/user/myname/all.txt") </code></pre> <p>因此,这适用于列表的第一个元素,但随后会显示以下错误消息:</p> <pre><code>Py4JJavaError: An error occurred while calling o714.saveAsTextFile. : org.apache.hadoop.mapred.FileAlreadyExistsException: Output directory XXXXXXXX/user/myname/all.txt already exists </code></pre> <p><em>为了避免混淆,我“脱口而出”—用XXXXXXXX说出IP地址。</em></p> <p><br/> 正确的方法是什么? 我将有大量的数据集(如'text1'、'text2'…)并希望在将它们保存到HDFS之前对每个数据集执行python函数。但我想把结果都放在“一个”输出文件中。在</p> <p>非常感谢!<br/> 毫克</p> <p>编辑: 似乎我的最终目标并不明确。我需要对每个文本文件分别应用一个函数,然后我想将输出附加到现有的输出目录中。像这样:</p> <pre><code>for i in list: text_file = sc.textFile("/user/myname/" + i) text_file = really_cool_python_function(text_file) text_file.saveAsTextFile("/user/myname/all.txt") </code></pre>
0 条评论
分类:
Python问答
请先
登录
后评论
默认排序
时间排序
1 个回答
匿名
1天前
擅长:python、mysql、java
<p>您可以读取多个文件并通过</p> <pre><code>textfile = sc.textFile(','.join(['/user/myname/'+f for f in list])) textfile.saveAsTextFile('/user/myname/all') </code></pre> <p>您将获得输出目录中的所有部件文件。在</p>
请先
登录
后评论
针对此问题:
更多的回答
关注
89
关注
收藏
1
收藏,
216
浏览
网友 提问于 2天前
相关Python问题
Python中两个字典的交集
1 回答
python中两个字符串上的异或操作数?
10 回答
Python中两个字符串中的类似句子
8 回答
Python中两个字符串之间的Hamming距离
6 回答
python中两个字符串之间的匹配模式
9 回答
python中两个字符串之间的按位或
9 回答
python中两个字符串之间的数据(字节)切片
2 回答
python中两个字符串之间的模式
3 回答
python中两个字符串作为子字符串的区别
6 回答
Python中两个字符串元组的比较
10 回答
Python中两个字符串列表中的公共字符串
7 回答
python中两个字符串的Anagram测试
6 回答
Python中两个字符串的正则匹配
4 回答
python中两个字符串的笛卡尔乘积
6 回答
Python中两个字符串相似性的比较
5 回答
python中两个字符串语义相似度的求法
5 回答
Python中两个字符置换成固定长度的字符串,每个字符的数目相等
6 回答
Python中两个对数方程之间的插值和平滑数据
2 回答
Python中两个对象之间的And/Or运算符
9 回答
python中两个嵌套字典中相似键的和值
2 回答