Cascading介绍_目标管理中的cascated是什么意思-程序员宅基地

1.1 关于Cascading

Cascading是一个数据处理的API和查询处理计划,用于定义,共享数据处理工作流,还能在单一计算节点或分布式计算集群上执行数据处理工作流。在单一计算节点,Cascading的本地模式(local mode)可以在部署到集群之前,用于测试代码和处理本地文件。在一个部署了Apache Hadoop的分布式计算集群上,Cascading在Hadoop API上增加了一个抽象层,大大简化了Hadoop 应用程序的开发,job的创建和调度。


1.2 Cascading使用场景

为什么用Cascading?

Cascading的开发是为了使企业能够使用Hadoop快速开发复杂的数据处理应用。Cascading的典型使用需求,是以下两种情况之一:

  1. 不断增加的数据超过单个计算系统的处理能力。对此,开发商可能采取Apache的Hadoop作为基础计算设施,但发现在Hadoop上开发有用的应用程序不是件小事。Cascading减轻了这些开发商的负担,使他们能够在成比例增长的计算集群上快速创建,重构,测试和执行复杂的应用。

  2. 不断增加的数据处理复杂性导致一次性的数据处理应用随意蔓延到数据中心中任何可用的磁盘空间或CPU上。Apache Hadoop通过全局命名空间的文件系统来解决这个问题,它提供了一个单一的可靠的存储框架。在这种情况下,Cascading减轻了开发人员的学习曲线,同时能让开发者能转换现有的程序以提高可靠性和可扩展性,并顺利在Hadoop集群上执行。此外,它可以让开发人员创建可重用的库和应用程序,分析师还可用这些应用程序和类库来从Hadoop的文件系统中提取数据。

谁是Cascading的使用者?

Cascading的用户通常分为三种人:

  1. 申请执行人是一个人(例如,一个开发商或分析师)或进程(例如,cron作业),在给定的集群上运行一个数据处理应用。这通常是通过命令行完成的,使用编译的Apache的Hadoop和Cascading库预先打包的Java Jar文件。这个应用程序可以接受命令行参数来定制给定的执行,并且通常从Hadoop的文件系统中导出一个数据组用于某种特定的目的。

  2. 过程装配工是一个把数据处理的工作流装配到单一应用程序的人。这一工作一般是一个开发任务,涉及链接操作,作用于一个或多个输入数据集,产生一个或多个输出数据集。可以用原始的Cascading Java API来完成,或用脚本语言,如Scala,Clojure,Groovy,JRuby,或Jython(或通过在这些语言实现的DSL的一种)。

  3. 操作开发者是写独立的函数或操作(通常用Java)或可重复使用的组件的人,这些东西作用于数据处理工作流。一个简单的例子是一个分析器,它接受一个字符串,并将其转换为整数。操作等同于读取输入参数并返回数据的Java函数。他们可以在任何粒度执行,从简单的解析字符串,或使用第三方库在参数上执行复杂的处理过程。

所有这三个角色可以由开发人员来充当,但是因为Cascading支持这些职责完全分离,一些组织可能选择使用非开发人员在Hadoop集群上运行专门的应用程序或建立工序。


1.3 什么是Apache Hadoop?

引用自Hadoop的网站,它“是一个软件平台,可以让一身轻松编写和运行处理海量数据的应用程序”。 Hadoop提供一个数据存储层保存大量数据,并提供一个执行层运行并行的跨集群的应用程序,它通过调度存储数据的子集来实现数据处理。


1.4 Hadoop 1 VS Hadoop 1 

Cascading2.6通过提供了两个Java的依赖实现同时支持Hadoop的1.x和2.x,Cascading-hadoop.jar和Cascading-hadoop2-mr1.jar。这些依赖关系可以互换,但hadoop2-mr1.jar引入了新API并在适当的地方调用了废弃的老API。应当指出的hadoop1-mr1.jar仅支持的MapReduce1 API约定。有了这个命名方案,新API约定可以引入并避免命名冲突。


翻译链接:http://docs.cascading.org/cascading/2.6/userguide/html/

初次翻译,只是在Google翻译的基础上进行了修正,方便看而已,要求高的自觉绕过看原文。

转载注明。

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/p553443984/article/details/41698047

智能推荐

C语言实现面向接口编程-程序员宅基地

文章浏览阅读1.5k次,点赞7次,收藏13次。正文大家好,我是bug菌!今天更新的文章,我相信是大伙喜欢的,来聊聊面向接口编程。不是一直都吹嘘着面向对象编程吗?怎么今天又来一个面向接口编程,很多人要说我不讲武德了。1面向接口是啥?不用..._c语言无法实现面向接口编程

AD6 出GERBER步骤_ad6 gerber文件-程序员宅基地

文章浏览阅读1.2k次。AD6.0输出gerber文件的详细说明Altium Designer 6.0输出gerber文件的详细说明以Altium Designer 6.0 Build6.0.2.5495为例(本贴参照了综合论坛lcz8618123大侠的文章《DXP2004 输出gerber文件的详细说明》)1:画好PCB后,在PCB 的文件环境中,左键点击 文件-输出制造文件-Gerber Files,进入Gerber setup 界面. 在“常规”选项 里面,“单位”选择“英寸”,格式选择2:5 ,这个尺寸精度比较高,_ad6 gerber文件

BOOTSTRAP-程序员宅基地

文章浏览阅读43次。bootstrap1.下载 BootStrap 中文官网下载http://www.bootcss.com/2 在网页中使用 Bootstrap 例————简单的基本模版 <!DOCTYPE html> <html> <head> <title>Bootstrap</title> <...

API网关设计(一)之Token多平台身份认证方案(转载)-程序员宅基地

文章浏览阅读372次。原文:https://segmentfault.com/a/1190000018535570?utm_source=tag-newest概述今天咱们面对移动互联网的发展,系统一般是多个客户端对应一个服务端。客户端统一通过F5或者Nginx代理转发到API网关,最后发送到服务API。如下图架构图所示这个过程当中就存在多个很明显需要做的事,如下列表身份认证(登陆以及会话级用户认证)..._多个平台如何验证access_token

剑指offer(C语言)22-30_file>>head1>>head2>>head3-程序员宅基地

文章浏览阅读440次。22 链表中倒数第k个节点题目:输入一个链表,输出该链表倒数第k个节点。为了符合多数人的习惯,本题从1开始计数,即链表的尾节点是倒数第1个节点。例如,一个链表有6个节点,从头节点开始,他们的值依次是1 2 3 4 5 6.这个链表的倒数第3个节点是只为4的节点。思路:由于是单向链表,只有指向下一个的指针,没有指向上一个的指针。第一想法是先遍历链表,查出一共有n个节点,再遍历链表,找到第n-k+..._file>>head1>>head2>>head3

【PAT乙级】1039 到底买不买 (20分)_1039乙级-程序员宅基地

文章浏览阅读313次。题目描述小红想买些珠子做一串自己喜欢的珠串。卖珠子的摊主有很多串五颜六色的珠串,但是不肯把任何一串拆散了卖。于是小红要你帮忙判断一下,某串珠子里是否包含了全部自己想要的珠子?如果是,那么告诉她有多少多余的珠子;如果不是,那么告诉她缺了多少珠子。为方便起见,我们用[0-9]、[a-z]、[A-Z]范围内的字符来表示颜色。例如在图1中,第3串是小红想做的珠串;那么第1串可以买,因为包含了全部她想要的珠子,还多了8颗不需要的珠子;第2串不能买,因为没有黑色珠子,并且少了一颗红色的珠子。输入格式:每个输入包_1039乙级

随便推点

JS+IPFS+API(2)--UI界面即及上传文件_js api向ipfs上传文件-程序员宅基地

文章浏览阅读286次。1、上传数据在上篇文章中https://blog.csdn.net/weixin_42375493/article/details/118060033创建的文件打开在app.js文件中添加const ipfsAPI = require(‘ipfs-api’);const ipfs = ipfsAPI({})_js api向ipfs上传文件

ios wkwebview弹框_iOS WKWebView的javascript alert 不弹的解决方案-程序员宅基地

文章浏览阅读196次。- (void)webView:(WKWebView *)webView runJavaScriptAlertPanelWithMessage:(NSString *)message initiatedByFrame:(WKFrameInfo *)frame completionHandler:(void (^)(void))completionHandler{UIAlertController*..._ios. 内部webview调用麦克风每次都弹框

关于Dinic和当前弧优化_(:зゝ∠)__当前弧优化对复杂度的影响-程序员宅基地

文章浏览阅读2.6k次。【关于dinic与当前弧优化】蒟蒻单纯地吐槽自己的蠢错且此蠢错大概必须静态查错 23333【哭着_当前弧优化对复杂度的影响

严重: 配置应用程序监听器[org.springframework.web.util.IntrospectorCleanupListener]错误_严重: 配置应用程序监听器[org.springframework.web.util.log4jco-程序员宅基地

文章浏览阅读1.7k次。https://blog.csdn.net/qq_36461302/article/details/78708916_严重: 配置应用程序监听器[org.springframework.web.util.log4jconfiglistener]错

vue嵌套路由-程序员宅基地

文章浏览阅读136次。我先一步建立的三个vue 分别为登陆login.vue,注册res.vue,和一个main.vue;下面是我的文件夹1.配置路由将login与res配置在main下,要在嵌套的出口中渲染组件,需要在VueRouter的参数中使用children配置2.main下使用router-link当然还需要一个router-view,将数据进行输出3. login...

AT指令:AT+CPMS介绍_"at+cpms at+cnmi +cdsi: \"sr\","-程序员宅基地

文章浏览阅读1k次。有用.收藏一下.这是我在SIEMENS AT COMMAND SET里面摘录的一段:AT+CPMS Preferred SMS message storageRevision according to GSM 07.05 Version 4.7.0Test commandAT+CPMS=?Response+CPMS: (list of supported s),( li_"at+cpms at+cnmi +cdsi: \"sr\","

推荐文章

热门文章

相关标签