Spark读取/保存本地文件

原作者: [db:作者] 来自: [db:来源] 收藏邀请

本文介绍两点：
1. 如何用Spark读取本文文件内容。
2. 如何用Spark将数据写到本地，特别是将大文件写到本地。

Spark读取本地文件内容

通常情况下，如果用下面的代码读取本地文件：

val data = sc.textFile("somefile.txt")

直接这样写，系统有可能会报错，正确的读取方式：

var data = sc.textFile("file:///path to the file/")

原因：SparkContext.textFile内部调用了org.apache.hadoop.mapred.FileInputFormat.getSplits函数；当我们不设置textFile的文件模式的时候，getSplits函数又会调用org.apache.hadoop.fs.getDefaultUri；getDefaultUri这个函数从Hadoop配置中读取”fs.defaultFS”参数，这个参数通常会在HADOOP_CONF_DIR环境变量中设置为”hdfs://”, 而不是”file://”。”hdfs://”或者”file://”就是前面说的文件模式，如果textFile中不指定，则默认为”hdfs://”。

当然，将文件先拷贝到hdfs，再textFile也是个不错的选择，使用hdfs fs -put命令：

${HADOOP_COMMON_HOME}/bin/hadoop fs -put /localpath/to/data.txt  /hdfspath/to/data.txt

或者，使用hdfs fs -copyFromLocal命令：

${HADOOP_COMMON_HOME}/bin/hadoop fs -copyFromLocal /localpath/to/data.txt  /hdfspath/to/data.txt

Spark写/保存文件到本地

使用spark将hdfs上的文件保存到本地,如果文件较小,直接collect或者println都可以。如果文件较大，比如有好几个GB，就需要细致处理了，因为直接collect很可能会打爆spark driver内存。
spark写大文件到本地的正确方式应该是
1. 直接使用SparkAPI toLocalIterator(需要的本地最大内存等于最大分片占用内存):

val it = rdd.toLocalIterator
while(it.hasNext){
    println(it.next)
}

2.或者遍历每个partitions，分别collect写到本地，自己写逻辑(原理同上，可以自己控制做过滤之类的操作)

val parts = rdd.partitions
for (p <- parts) {
    val idx = p.index
    val partRdd = rdd.mapPartitionsWithIndex(a => if (a._1 == idx) a._2 else Iterator(), true)
    //The second argument is true to avoid rdd reshuffling
    val data = partRdd.collect //data contains all values from a single partition 
                               //in the form of array
    //Now you can do with the data whatever you want: iterate, save to a file, etc.
}

跟读一样，写也可以先saveAsTextFile,然后使用hdfs命令存到本地, 使用hdfs fs -get命令：

${HADOOP_COMMON_HOME}/bin/hadoop fs -get /hdfspath/to/data.txt  /localpath/to/data.txt

或者，使用hdfs fs -copyToLocal命令：

${HADOOP_COMMON_HOME}/bin/hadoop fs -copyToLocal /hdfspath/to/data.txt  /localpath/to/data.txt

————————————————————————————————————————————————————————————————————————
延伸阅读，附图：spark client模式，读写本地文件一般需要client模式。

鲜花

握手

雷人

路过

鸡蛋

专题导读

More+

10-27 六六分期app的软件客服如何联系？(六六分期

11-06 可心卡盟:win10系统火狐flash插件崩溃怎么

11-06 亲亲特价:怎么删除回收站图标

11-06 济南大学虚拟社区:鲁大师节能降温的具体办

11-06 xlueops.exe:无线网络安装向导

11-06 女斗合众国:win7系统cf与主机连接不稳定怎

11-06 0xc000022-[cf烟雾头]cf怎么调烟雾头

11-06 qizideyouhuo:应用程序无法正常启动0xc0000

11-06 ipz-185:win7系统vcf文件怎么打开

11-06 傻哥蹦迪:win10系统s4怎么打开usb调试

11-06 八神浩树gtaste:回收站清空了怎么恢复

11-06 妖尾之黑色守护:win10系统电脑没有1440x900

11-06 校园至尊魔王小说:win7系统浏览网页时字体

11-06 女斗合众国:win10系统访问共享文件夹提示请

11-06 tokyo hot n0654:恢复win7系统默认字体一招

11-06 雨酷仙境:设置win7系统转移临时文件夹腾出

11-06 阿穆纳伊之杖:win7系统开始菜单在右边还原

11-06 tunespotting:win10系统火狐flash插件总是

11-06 甘尔葛分析师：计谋网站seo关键词暴涨有什

11-06 蔡贵霖: 计谋网站seo关键词暴涨有什么秘密

11-06 博益网首页:ao3网页版进入不了解决方法

11-06 漏斗子专栏: 网站数据分析小白易懂精华篇

11-06 见证双虹怎么做:win7系统开启telnet命令的

11-06 颾狐蝶蜋:系统资源不足无法完成请求的服务

11-06 国光中学校歌:提交网站到alexa查询详细步骤

11-06 西安有情天:静态网页和动态网页的区别

11-06 红木雅尚斋:外部链接构造对网站的好处

11-06 前官礼遇：防止域名劫持–增强域安全性的10

11-06 密传二转答案: 中文分词算法有哪些

11-06 金泉家园邮编:百度快照劫持的表现及应对方

mac上安装IntelliJ IDEA配置Spark开发环境发布时间：2022-05-14

Spark创建DataFrame的三种方法发布时间：2022-05-14

剪的笔顺,诠释剪的笔画,认识剪的部首

1 六六分期app的软件客服如何联系？(六六分期

六六分期app的软件客服如何联系？不知道吗？加qq群【895510560】即可！标题：六六分期

阅读：8609|2023-10-27

2 可心卡盟:win10系统火狐flash插件崩溃怎么

今天小编告诉大家如何处理win10系统火狐flash插件总是崩溃的问题，可能很多用户都不知

阅读：6372|2022-11-06

3 亲亲特价:怎么删除回收站图标

今天小编告诉大家如何对win10系统删除桌面回收站图标进行设置，可能很多用户都不知道

阅读：5300|2022-11-06

4 济南大学虚拟社区:鲁大师节能降温的具体办

今天小编告诉大家如何对win10系统电脑设置节能降温的设置方法，想必大家都遇到过需要

阅读：5767|2022-11-06

5 xlueops.exe:无线网络安装向导

我们在使用xp系统的过程中,经常需要对xp系统无线网络安装向导设置进行设置，可能很多

阅读：5647|2022-11-06

6 女斗合众国:win7系统cf与主机连接不稳定怎

今天小编告诉大家如何处理win7系统玩cf老是与主机连接不稳定的问题，可能很多用户都不

阅读：6000|2022-11-06

7 0xc000022-[cf烟雾头]cf怎么调烟雾头

电脑对日常生活的重要性小编就不多说了，可是一旦碰到win7系统设置cf烟雾头的问题，很

阅读：5614|2022-11-06

8 qizideyouhuo:应用程序无法正常启动0xc0000

我们在日常使用电脑的时候，有的小伙伴们可能在打开应用的时候会遇见提示应用程序无法

阅读：5085|2022-11-06

9 ipz-185:win7系统vcf文件怎么打开

今天小编告诉大家如何对win7系统打开vcf文件进行设置，可能很多用户都不知道怎么对win

阅读：5428|2022-11-06

10 傻哥蹦迪:win10系统s4怎么打开usb调试

今天小编告诉大家如何对win10系统s4开启USB调试模式进行设置，可能很多用户都不知道怎

阅读：4812|2022-11-06

客服电话

电子邮件

Spark读取/保存本地文件

Spark读取本地文件内容

Spark写/保存文件到本地

上一篇：

下一篇：

krishnaik06/Machine-Learning-in-90-days

armancodv/building-energy-model-matlab:

美元符号为什么是“$”

Matlab练习——rpy2tr函数与自己实现的ZYX

FGRibreau/import-tweets-to-mastodon: How

剪的笔顺,诠释剪的笔画,认识剪的部首

florent37/ViewAnimator: A fluent Android

florent37/Shrine-MaterialDesign2: implem

CVE-2020-36276

六六分期app的软件客服如何联系？(六六分期

doraiso/Mastodon

关于我们

产品与服务

解决方案

139-2527-9053