Spark 调优 ——cache(persist)与 checkpoint_五道口纳什的博客-程序员秘密

技术标签: Hadoop-Scala-Spark  

  • cache 是对 persist 的进一步调用;

1. 为什么要 checkpoint

  • 为了保证数据安全性,需要对运行出的中间结果进行 checkpoint
    • 最好将结果 checkpoint 到 hdfs,便于集群所有节点进行访问;
  • checkpoint 之前先进行 cache(persist),将数据放在缓存中
  • 什么时候 checkpoint:
    • 在发生 shuffle 之后做 checkpoint

2. checkpoint 的步骤

  • 建立 checkpoint 存储目录:
    • sc.setCheckpointDir(“hdfs://node01.9000/ck”)
  • rdd1.cache()
  • rdd1.checkpoint()
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/lanchunhui/article/details/86439632

智能推荐

苹果亮度突然变暗_苹果最好的旗舰手机,iPhone11Pro Max你用上了吗?_weixin_39575937的博客-程序员秘密

6.5英寸的OLED屏幕使用了“真彩技术”,这可以让屏幕更好的根据环境照明条件动态调节屏幕的白平衡和刷新率——在实际测试中屏幕内容的流畅度比起iPad Pro还差了一些。屏幕似乎还需要颜色较准,在显示纯白色内容是屏幕的颜色有些偏黄。尤其是存在另一块屏幕进行对比时这种差别尤为明显,不过单独看的时候也并不会有违和感。iPhone 11 Pro Max的屏幕素质的确属于顶级,其对比度高达2000000:...

通过递归查询指定目录下的所有文件和子文件夹下的指定文件名_松湖烟雨的博客-程序员秘密

递归查询指定目录下的指定文件路径    自己写了一个简单的小方法,通过递归的方式找到指定目录下,想要的文件,包括目录下和子目录下的所有文件。package research;import java.io.File;import java.util.ArrayList;import java.util.List;/** * @author 关世杰 * @since 2016.

js基础_QuellanAn的博客-程序员秘密

JavaScript 数据类型JavaScript 有多种数据类型:数字,字符串,数组,对象等等:var length = 16;                                  // Number 通过数字字面量赋值 var points = x * 10;                              // Number 通过表达式字面量赋

elementUi日期选择器开始时间至结束时间限制_healer-的博客-程序员秘密

开始时间不能大于结束时间;结束时间不能小于开始时间<el-date-picker v-model="startTime" size="small" style="width:200px" :picker-options="pickerBeginDate" type="date" clearable placeholder="开始时间" format="yyyy年MM月dd日" value-format="

docker安装FastDFS_客官酒来了的博客-程序员秘密

1.搜索FastDFS镜像文件 docker search fastdfs2.下载对应的镜像文件 docker pull season/fastdfs3.查看文件镜像 docker images4.创建挂载文件夹cd /datamkdirfastdfscdfastdfsmkdir tracker storagecd storagemkdir storage_datacd ../tracker/mkdir tracker_data...

随便推点

浅谈C/C++内存泄露及其检测工具[转] _c11 内存泄露_john1952的博客-程序员秘密

原文出处:http://www.cnblogs.com/taoxu0903/archive/2007/10/27/939261.html对于一个c/c++程序员来说,内存泄漏是一个常见的也是令人头疼的问题。已经有许多技术被研究出来以应对这个问题,比如 Smart Pointer,Garbage Collection等。Smart Pointer技术比较成熟,STL中已经包含支持Smart

ORA-4031 Common Analysis/Diagnostic Scripts_weixin_33997389的博客-程序员秘密

4031_diag_script.zip1. SGA中的内存池包含不同大小的内存块。当数据库启动时,就有一个大的内存块分配并被hush buckets 里的空闲列表追踪。随着时间推移,随着内存的分配和释放,内存块被按照大小在不同的hush buckets间移动。当SGA里任何一个内存池里出现不能满足内部分配请求的情况时,ORA-04031就出现了。s...

Shell--如何定义及遍历数组、字符串数组【工作笔记】_shell 遍历数组_吾日三省贾斯汀的博客-程序员秘密

脚本定义array.sh:vim array.sh添加内容如下:#!/bin/sh#!/bin/shecho "一、Shell定义数组及遍历数组=========";array=(666 777 888)for value in ${array[@]};do echo $value;done;echo "二、Shell定义字符串数组及遍历字符串数组=========";strArray=("a.del" "b.del" "c.del");for value in ${strArr

python使用turtle库画出大写的字母z_Python绘图turtle库_肖潇潇洒洒的博客-程序员秘密

turtle库是python标准库之一,入门级绘图库。导入:import turtle1、绘图窗口设置函数turtle.setup(width, height, startx, starty):参数以(宽,高,距离屏幕左边距离,距离屏幕上方距离),屏幕左上角原点,单位像素,后两个参数是可选参数,不设置默认在屏幕中心。 2.画笔函数画笔设置后一直有效,直至下次重新设置turtle.penup() ...

自定义JSP中的Taglib标签之四自定义标签中的Function函数_xlj3的博客-程序员秘密

Java代码如下:自定义JSP中的Taglib标签之四自定义标签中的Function函数package org.lxh.taglib;import java.util.List;public class FunctionTag { public static String hello(String name) { return name; } publi

推荐文章

热门文章

相关标签