在线时间:8:00-16:00
迪恩网络APP
随时随地掌握行业动态
扫描二维码
关注迪恩网络微信公众号
我有一个Spark Streaming(流式)应用程序,每分钟产生一个数据集。我需要保存/覆盖处理的数据的结果。 当我试图覆盖数据集时,抛异常org.apache.hadoop.mapred.FileAlreadyExistsException,然后停止执行。 我设置了Spark属性 如何覆盖或预先删除Spark文件呢? 最佳解决思路建议使用 对于旧版本尝试
在1.1.0中,您可以使用带有–conf标志的spark-submit脚本来设置conf设置。 次佳解决思路参数 你可以在保存文件之前做到这一点:
这里有更多解释:http://apache-spark-user-list.1001560.n3.nabble.com/How-can-I-make-Spark-1-0-saveAsTextFile-to-overwrite-existing-file-td6696.html 第三种解决思路从pyspark.sql.DataFrame.save文档来看(当前位于1.3.1),可以在保存DataFrame时指定
经证实,这甚至会删除分区文件。因此,如果您最初说了10个分区/文件,然后用只有6个分区的DataFrame覆盖了该文件夹,则生成的文件夹将具有6个分区/文件。 有关模式选项的更多信息,请参阅Spark SQL documentation。 第四种思路由于 使用 ‘source’可以是(“com.databricks.spark.avro” | “parquet” | “json”) 参考资料
|
2023-10-27
2022-08-15
2022-08-17
2022-09-23
2022-08-13