Cloudera的介绍-程序员宅基地

简介

Hadoop中规模最大、知名度最高的是Cloudera

由于Hadoop深受客户欢迎,许多公司都推出了各自版本的Hadoop,也有一些公司则围绕Hadoop开发产品。在Hadoop生态系统中,规模最大、知名度最高的公司则是Cloudera。

Cloudera成立于2008年,在企业和大型机构在寻求解决棘手的大数据问题时,往往会使用开源软件基础架构Hadoop的服务。

2018年10月,均为开源平台的Cloudera与Hortonworks公司宣布他们以52亿美元的价格合并。

官方网站:https://www.cloudera.com/

创建

Cloudera由来自Facebook谷歌和雅虎的前工程师杰夫·哈默巴切(Jeff Hammerbacher)、克里斯托弗·比塞格利亚(Christophe Bisciglia)、埃姆·阿瓦达拉(Amr Awadallah)以及现任CEO、甲骨文前高管迈克·奥尔森(Mike Olson)在2008年创建。

发展

这些年来,Hadoop,这个曾经飞速发展的开源平台,催生了许多公司并形成了一套供应商生态系统。

人们也一直相信一些大公司会从中脱颖而出,果然,Hortonworks在2014年上市。三年后,Cloudera也上市了。但由于市场需求减缓,今天两家公司宣布他们在昨天收市价格的基础上以52亿美元的价格合并。

尽管任何人都可以下载Hadoop,但它太复杂了。而这就是Hortonworks和Cloudera等公司所存在的意义。IT部门希望发挥Hadoop作为一个大型数据处理平台的优势,而不是从头构建Hadoop,而这一点这些公司能为他们做到。这些公司提供了不同的方法来使其变得更简单,但似乎这些基于云的大数据解决方案对Hadoop系统并无作用,甚至Cloudera、Hortonworks等公司也束手无策。

但问题恰恰在于,企业如何使用和管理Hadoop的产品,如何挖掘它的价值,推动自家业务增长。Cloudera则会提供这方面的专业服务,并从中获利。Cloudera出售基于Hadoop的软件,也发布自家版本的Hadoop产品,帮助订阅客户管理数据。 [2] 

2014年Cloudera正式进入中国。

Intel在2014年3月宣布向Cloudera投入大笔资金,总投资额增至7.4亿美元,持股比例达到18%,已经成为Cloudera最大的战略股东。据了解,双方的合作将从多个方面展开:Intel的Hadoop发行版(简称IDH)将并入Cloudera Hadoop发行版(简称CDH)。在本周五发布的CDH 5.3当中就将完全融合了IDH的所有功能,而此前IDH的用户也可以快速平滑地迁移到CDH平台上。此外,Cloudera还会和Intel在开源方面进行合作,在基于开放的Intel平台硬件上做大量优化,让Intel硬件平台成为运行大数据最好的平台。

2018年10月,均为开源平台的Cloudera与Hortonworks公司宣布他们以52亿美元的价格合并。两家公司称合并后公司将拥有2500客户、7.2亿美元收入和5亿美元现金,且没有债务。

CDH的特性

CDH是Apache Hadoop和相关项目的最完整,经过测试的流行发行版。 CDH提供了Hadoop的核心元素 - 可扩展的存储和分布式计算 - 以及基于Web的用户界面和重要的企业功能。 CDH是Apache许可的开放源码,是唯一提供统一批处理,交互式SQL和交互式搜索以及基于角色的访问控制的Hadoop解决方案。

Cloudera作为一个强大的商业版数据中心管理工具,提供了各种能够快速稳定运行的数据计算框架,如Apache Spark;使用Apache Impala做为对HDFS,HBase的高性能SQL查询引擎;也带了Hive数据仓库工具帮助用户分析数据; 用户也能用Cloudera管理安装HBase分布式列式NoSQL数据库;Cloudera还包含了原生的Hadoop搜索引擎以及Cloudera Navigator Optimizer去对Hadoop上的计算任务进行一个可视化的协调优化,提高运行效率;同时Cloudera中提供的各种组件能让用户在一个可视化的UI界面中方便地管理,配置和监控Hadoop以及其它所有相关组件,并有一定的容错容灾处理;Cloudera作为一个广泛使用的商业版数据中心管理工具更是对数据的安全决不妥协!

CDH 提供:

  • 灵活性 - 存储任何类型的数据,并使用各种不同的计算框架进行处理,包括批处理,交互式SQL,自由文本搜索,机器学习和统计计算。
  • 集成 - 在一个可与广泛的硬件和软件解决方案配合使用的完整Hadoop平台上快速启动并运行。
  • 安全 - 过程和控制敏感数据。
  • 可扩展性 - 启用广泛的应用程序并进行扩展和扩展,以满足您的需求。
  • 高可用性 - 充满信心地执行关键业务任务。
  • 兼容性 - 利用您现有的IT基础设施和资源。

这里写图片描述

1.CDH中的Apache Hive概述

Hive数据仓库软件支持在分布式存储中读取,编写和管理大型数据集。使用与SQL非常相似的Hive查询语言(HiveQL),查询被转换为一系列作业通过MapReduce或Apache Spark在Hadoop集群上执行。

用户可以使用Hive运行批处理工作负载,同时还可以在单​​个平台内使用Apache Impala或Apache Spark等工具分析交互式SQL或机器学习工作负载的相同数据。

作为CDH的一部分,Hive还受益于:

  • 统一资源管理由YARN提供
  • Cloudera Manager提供简化的部署和管理
  • 共享安全和治理,以满足Apache Sentry和Cloudera Navigator提供的合规要求

Hive的用例

由于Hive是一个基于Hadoop平台构建的PB级数据仓库系统,因此对于数据量急剧增长的环境而言,它是一个不错的选择。HDFS底层MapReduce接口很难直接编程,但Hive提供了一个SQL接口,可以使用现有的编程技巧来执行数据准备。

Hive MapReduce或Spark最适合批量数据准备或ETL:

  • 必须运行具有非常大的ETL排序并使用连接的计划批处理作业来为Hadoop准备数据。向Impala中BI用户提供的大部分数据由ETL开发人员使用Hive编写。

  • 可以运行花费数小时的数据传输或转换作业。通过Hive,如果通过这样的工作发生问题,它会恢复并继续。

  • 可以接收或提供不同格式的数据,其中Hive SerDes和各种UDF可以方便地获取和转换数据。通常,Hive的ETL过程的最后阶段可能是高性能,广泛支持的格式,例如Parquet。

Hive组件

Hive由以下组件组成:

Metastore数据库

 

Metastore数据库是Hive基础架构的一个重要方面。它是一个独立的数据库,依赖于传统的RDBMS,例如MySQL或PostgreSQL,它保存有关Hive数据库,表,列,分区和Hadoop特定信息(例如底层数据文件和HDFS块位置)的元数据。

Metastore数据库由其他组件共享。例如,Hive和Impala都可以插入,查询,更改等相同的表。尽管您可能会看到对“Hive metastore”的引用,但请注意,即使在您未使用Hive本身的情况下,Metastore数据库也会广泛用于Hadoop生态系统。

Metastore数据库相对紧凑,数据快速变化。备份,复制和其他类型的管理操作会影响此数据库。

HiveServer2

HiveServer2是一个服务器接口,它使远程客户端能够向Hive提交查询并检索结果。它取代了HiveServer1(它已被弃用,并将在未来的CDH版本中被删除)。HiveServer2支持多客户端并发,容量规划控制,Sentry授权,Kerberos身份验证,LDAP和SSL,并为JDBC和ODBC客户端提供更好的支持。

HiveServer2是Hive执行引擎的容器。对于每个客户端连接,它会创建一个新的执行上下文,用于向客户端提供Hive SQL请求。它支持JDBC客户端,例如Beeline CLI和ODBC客户端。客户端通过基于Thrift API的Hive服务连接到HiveServer2。

2.Apache Impala概述

Impala 能够直接对Apache Hadoop平台中存储在HDFS,HBase 的数据提供快速的交互式SQL查询。除了使用相同的统一存储平台之外,Impala还使用与Apache Hive相同的元数据,SQL语法(Hive SQL),ODBC驱动程序和用户界面(Hue中的Impala查询UI)。这为实时或面向批处理的查询提供了一个熟悉且统一的平台。

Impala是对可用于查询大数据的工具的补充。Impala不会取代基于MapReduce(如Hive)的批处理框架。基于MapReduce构建的Hive和其他框架最适合长时间运行的批处理作业,例如涉及批处理提取,转换和加载(ETL)类型作业的批处理作业。

Impala的好处

Impala提供:

  • 数据科学家和分析师已经知道的熟悉的SQL接口。
  • 能够在Apache Hadoop中查询大量数据(“大数据”)。
  • 集群环境中的分布式查询,便于扩展并使用经济高效的硬件。
  • 无需复制或导出/导入步骤即可在不同组件之间共享数据文件; 例如,使用Pig编写代码,使用Hive进行转换并使用Impala进行查询。Impala可以读取和写入Hive表格,使用Impala进行简单的数据交换,以便对Hive生成的数据进行分析。
  • 用于大数据处理和分析的单一系统,因此客户可以避免昂贵的建模和ETL仅用于分析。

Impala如何与CDH配合使用

下图说明了Impala如何在更广泛的Cloudera环境中定位:

显示Impala如何与其他Hadoop组件(如HDFS,Hive Metastore数据库以及客户端程序(如JDBC和ODBC应用程序)以及Hue Web UI)相关联的体系结构图。

 

Impala解决方案由以下组件组成:

  • 客户端 - 包括Hue,ODBC客户端,JDBC客户端和Impala Shell在内的实体都可以与Impala进行交互。这些接口通常用于发出查询或完成管理任务,例如连接到Impala。
  • Hive Metastore - 存储有关Impala可用数据的信息。例如,Metastore让Impala知道哪些数据库可用,以及这些数据库的结构如何。在创建,删除和更改模式对象,通过Impala SQL语句将数据加载到表等中时,相关的元数据更改将通过Impala 1.2中引入的专用目录服务自动广播到所有Impala节点。
  • Impala - 这个在DataNode上运行的进程,协调和执行查询。Impala的每个实例都可以接收,计划和协调来自Impala客户端的查询。查询分布在Impala节点中,然后这些节点充当工作人员,执行并行查询片段。
  • HBase和HDFS - 存储要查询的数据。

使用Impala执行的查询处理如下:

  1. 用户应用程序通过ODBC或JDBC向Impala发送SQL查询,这些查询提供标准化的查询接口。用户应用程序可能连接到任何impalad在集群中。这个impalad 成为查询的协调者。
  2. Impala解析查询并分析它以确定需要执行的任务 impalad整个群集中的实例。计划执行是为了获得最佳效率。
  3. 诸如HDFS和HBase等服务可以通过本地访问 impalad 实例提供数据。
  4. 每 impalad 将数据返回给协调 impalad,它将这些结果发送给客户端。

主要Impala功能

Impala为以下方面提供支持:

  • Hive Query Language(HiveQL)的大多数常见SQL功能。
  • HDFS,HBase,其中包括:
    • HDFS文件:分隔文本文件,Parquet,Avro,SequenceFile和RCFile。
    • 压缩编解码器:Snappy,GZIP,Deflate,BZIP。
  • 常见的数据访问接口包括:
    • JDBC驱动程序
    • ODBC驱动程序
    • Hue Beeswax和Impala查询UI。
  • impla-shell命令行界面
  • Kerberos身份验证

3. Cloudera Search概述

 

Cloudera Search提供简单,自然的语言访问存储或存入Hadoop,HBase或云存储的数据。最终用户和其他Web服务可以使用全文查询和下钻来分析文本,半结构化和结构化数据,以及快速筛选和聚合它,以获取业务洞察力,而无需SQL或编程技能。

Cloudera Search是Apache Solr完全集成在Cloudera平台中的产品,充分利用了CDH中包含的灵活,可扩展且强大的存储系统和数据处理框架。这消除了跨基础架构移动大型数据集以执行业务任务的需要。它进一步实现了简化的数据管道,其中搜索和文本匹配是较大工作流程的一部分。

Cloudera Search合并了Apache Solr,其中包括Apache Lucene,SolrCloud,Apache Tika和Solr Cell。Cloudera Search包含在CDH 5及更高版本中。

在CDH基础架构中使用Cloudera Search提供:

  • 简化基础设施
  • 更好的生产可视性和控制
  • 对各种数据类型有更快速的见解
  • 更快的问题解决方案
  • 为更多用户和SQL以外的用例简化交互和平台访问
  • 用于在相同数据上运行其他类型工作负载的同一平台上的搜索服务的可伸缩性,灵活性和可靠性
  • 跨所有进程访问数据的统一安全模型
  • 摄取和预处理选项的灵活性和规模

下表介绍了Cloudera搜索功能。

Cloudera搜索功能
特征 描述
使用Cloudera Manager进行统一管理和监控 Cloudera Manager为CDH和Cloudera Search提供统一和集中的管理和监控。Cloudera Manager简化了搜索服务的部署,配置和监控。许多现有的搜索解决方案缺乏管理和监控能力,并且无法深入了解利用率,系统健康状况,趋势和其他可支持性方面。
索引存储在HDFS中

Cloudera Search与HDFS集成在一起,实现了健壮,可扩展且自我修复的索引存储。由Solr / Lucene创建的索引直接使用数据写入HDFS,而不是本地磁盘,从而提供容错和冗余。

Cloudera Search经过优化,可在HDFS中快速读取和写入索引,同时通过标准Solr机制提供索引并进行查询。由于数据和索引位于同一位置,因此数据处理不需要传输或单独管理的存储。

通过MapReduce创建批索引 为了便于大数据集的索引创建,Cloudera Search内置了MapReduce作业,用于索引存储在HDFS或HBase中的数据。因此,MapReduce的线性可伸缩性应用于索引管道,从而减轻Solr索引服务资源的负担。
数据摄取的实时和可伸缩索引

Cloudera Search提供与Flume的集成以支持接近实时的索引。当新事件通过Flume层次结构并写入HDFS时,可以将这些事件直接写入Cloudera Search索引器。

此外,Flume还支持路由事件,过滤和传递给CDH的数据注释。这些功能可与Cloudera Search一起使用,以改进索引分片,索引分隔和文档级访问控制。

通过Hue轻松进行互动和数据探索 Cloudera搜索GUI作为Hue插件提供,使用户能够交互式查询数据,查看结果文件并进行分面探索。Hue还可以安排常规查询和探索索引文件。此GUI使用基于标准Solr API的Cloudera Search API。拖放仪表板界面使任何人都可以轻松创建搜索仪表板。
简化了搜索工作负载的数据处理 Cloudera Search可以使用Apache Tika解析和准备许多用于索引的标准文件格式。此外,Cloudera Search支持Avro,Hadoop Sequence和Snappy文件格式映射,以及日志文件格式,JSON,XML和HTML。

Cloudera Search还提供Morphlines,这是一个易于使用的预建库,包含常用数据预处理功能。Morphlines简化了多种文件格式索引的数据准备工作。用户可以轻松实现Flume,Kafka和HBase的Morphlines,或者将其他应用程序(如MapReduce或Spark作业)重复使用相同的Morphlines。

HBase搜索 Cloudera Search与HBase集成,支持全文搜索HBase数据,而不会影响HBase性能或复制数据存储。监听器监控来自HBase RegionServers的复制事件流,并捕获每个写入或更新复制的事件,从而启用抽取和映射(例如,使用Morphlines)。然后将事件直接发送到Solr以便在HDFS中进行索引和存储,使用与Cloudera Search的其他索引工作负载相同的过程。这些索引可以立即提供,从而实现HBase数据的自由文本搜索。

Cloudera搜索的工作原理

在接近实时的索引用例中,例如日志或事件流分析,Cloudera Search索引通过Apache Flume,Apache Kafka,Spark Streaming或HBase流式传输的事件。字段和事件映射到标准Solr可索引架构。Lucene索引传入事件,并将索引写入并存储在HDFS中的标准Lucene索引文件中。在HDFS分区中的常规流量事件路由和数据存储也可以应用。事件可以通过多个Flume代理进行路由和流式传输,并写入单独的Lucene索引器中,这些索引器可以写入单独的索引碎片,以便在索引时实现更好的扩展并在搜索时更快地响应。

索引从HDFS加载到Solr核心,就像Solr从本地磁盘读取一样。Cloudera Search设计的不同之处在于HDFS的健壮,分布式和可扩展的存储层,它有助于消除代价高昂的停机时间,并且在不移动数据的情况下实现跨工作负载的灵活性。搜索查询然后可以通过标准Solr API或通过包含在Cloudera Search中的简单搜索GUI应用程序(可以在Hue中部署)提交给Solr。

Cloudera Search面向批处理的索引功能可以满足在批量上传文件或大数据集中进行搜索的需求,这些数据集的更新频率较低,而且不需要近实时索引。它还可以方便地用于重新索引(独立Solr中常见的难题)或用于按需数据探索的临时索引。通常,批量索引定期完成(小时,每日,每周等),作为较大工作流程的一部分。

对于这种情况,Cloudera Search包含基于MapReduce或Spark的高度可扩展的索引工作流程。针对HDFS中的指定文件或文件夹或HBase中的表启动MapReduce或Spark工作流,并在映射阶段执行字段提取和Solr模式映射。Reducers使用嵌入式Lucene将数据作为单个索引或索引碎片写入,具体取决于您的配置和首选项。索引存储在HDFS中之后,可以使用标准的Solr机制来查询它们,如前面关于近实时索引用例所描述的那样。您还可以配置这些批量索引选项,以将新索引数据直接发布到由Solr提供的实时活动索引中。这GoLive 选项启用简化的数据管道,而不会中断服务以定期处理传入的批次更新。

Lily HBase Indexer Service是一个灵活的,可扩展的,容错的,事务性的,接近实时的系统,用于处理连续的HBase单元更新到实时搜索索引。Lily HBase Indexer使用Solr来索引存储在HBase中的数据。随着HBase向HBase表格单元应用插入,更新和删除操作,索引器使用标准HBase复制功能使Solr与HBase表格内容保持一致。索引器支持灵活的自定义应用程序特定规则来提取,转换和加载HBase数据到Solr。Solr搜索结果可以包含的ColumnFamily:预选赛链接回存储在HBase中的数据。这样应用程序可以使用搜索结果集来直接访问匹配的原始HBase单元。索引和搜索不会影响HBase的操作稳定性或写入吞吐量,因为索引和搜索过程与HBase是分开的和异步的。

 

了解Cloudera搜索

Cloudera Search适合用于分析大型数据集中信息的更广泛的解决方案。CDH提供了存储数据和运行查询的手段和工具。你可以通过以下方式探索数

  • MapReduce或Spark作业
  • Impala查询
  • Cloudera搜索查询

CDH通过使用MapReduce作业为大数据集提供存储和访问,但创建这些作业需要技术知识,每个作业可能需要几分钟或更长时间才能运行。与MapReduce作业相关的较长运行时间会中断探索数据的过程。

为了提供更直接的查询和响应,并消除编写MapReduce应用程序的需要,可以使用Apache Impala。Impala以秒为单位返回结果,而不是分钟。

虽然Impala是一个快速,功能强大的应用程序,但它使用基于SQL的查询语法。使用Impala对于不熟悉SQL的用户可能会遇到挑战。如果您不知道SQL,则可以使用Cloudera Search。尽管Impala,Apache Hive和Apache Pig都需要在查询时应用的结构,但搜索支持对已编制索引的任何数据或字段进行自由文本搜索。

Cloudera搜索和其他Cloudera组件

Cloudera搜索与其他Cloudera组件交互以解决不同的问题。下表列出了对搜索过程有贡献的Cloudera组件,并描述了它们如何与Cloudera Search进行交互:

零件 贡献 适用于
HDFS 存储源文件。搜索索引源文档以使其可搜索。支持Cloudera Search的文件(例如Lucene索引文件和预写日志)也存储在HDFS中。使用HDFS可在更大的基础上提供更简单的配置,冗余和容错功能。借助HDFS,Cloudera Search服务器本质上是无状态的,因此主机故障的后果极小。HDFS还提供快照,群集间复制和灾难恢复。 所有情况
MapReduce 搜索包括一个预建的基于MapReduce的作业。此作业可用于HDFS中存储的任何受支持数据集的按需索引或计划索引。此作业使用群集资源进行可伸缩批量索引。 很多情况下
Tlume Search包含一个Flume接收器,可以将事件直接写入群集中部署的索引器,从而允许在摄取期间进行数据索引。 很多情况下
Hue Hue包含一个基于GUI的搜索应用程序,该应用程序使用标准Solr API并可与HDFS中索引的数据进行交互。该应用程序为Solr标准查询语言和分面搜索功能的可视化提供支持。 很多情况下
Morphlines morphline是一个定义ETL转换链的丰富配置文件。Morphlines可以使用来自任何数据源的任何类型的数据,处理数据并将结果加载到Cloudera Search。Morphlines运行在一个小型的,可嵌入的Java运行时系统中,可用于近实时应用程序,如flume代理以及批处理应用程序,如Spark作业。 很多情况下
Zookeeper 协调数据和元数据的分布,也称为碎片。它提供自动故障转移功能以提高服务弹性。 很多情况下
Spark CrunchIndexerTool可以使用Spark将HDFS文件中的数据移动到Apache Solr中,并通过morphline运行数据以进行提取和转换。 一些案例
HBase 支持索引存储的数据,提取列,列族和关键信息作为字段。尽管HBase不使用二级索引,但Cloudera Search可以促进HBase中行和表内容的全文搜索。 一些案例
Cloudera Manager 部署,配置,管理和监控Cloudera Search进程和资源利用率,以跨群集服务。Cloudera Manager有助于简化Cloudera Search管理,但这不是必需的。 一些案例
Cloudera Navigator Cloudera Navigator为Hadoop系统提供治理,包括支持审计搜索操作。 一些案例
Sentry Sentry支持基于角色的Cloudera Search的精细授权。Sentry可以对各种操作应用一系列限制,例如访问数据,通过配置对象管理配置或创建集合。无论用户尝试完成操作的方式如何,都会始终应用限制。例如,限制对集合中数据的访问会限制访问权限,无论查询来自命令行,浏览器,Hue还是通过管理控制台。 一些案例
Oozie 自动化索引作业的调度和管理。Oozie可以检查新数据并根据需要开始索引工作。 一些案例
Impala 进一步分析搜索结果。 一些案例
Hive 进一步分析搜索结果。 一些案例
Parque 提供列式存储格式,为结构化工作负载(如Impala或Hive)提供特别快速的结果返回。Morphlines为从Parquet提取数据提供了一条高效的流水线。 一些案例
Avro 包含Cloudera Search可用于建立索引的元数据。 一些案例
Kafka 搜索使用此消息代理项目来增加吞吐量并减少处理实时数据的延迟。 一些案例
Sqoop 批量采集数据并为批量索引启用数据可用性。 一些案例

 

Cloudera搜索架构

Cloudera Search作为一组服务器上的分布式服务运行,并且每个服务器负责一部分可搜索数据。数据被分割成小块,副本由这些块组成,并且这些块分布在服务器中。这提供了两个主要优点:

  • 分割内容成小块分配索引服务器之间的内容的任务。
  • 复制整个部分可以使查询更有效地缩放,并使系统能够提供更高级别的可用性。

 

 

每个Cloudera Search服务器都可以独立处理请求。客户端可以发送请求索引文档或对任何搜索服务器执行搜索,并且该服务器将请求路由到正确的服务器。

每个搜索部署都需要:

  • ZooKeeper至少在一台主机上运行。您可以在同一台主机上安装ZooKeeper,Search和HDFS。
  • 至少有一台HDFS,但与所有主机一样多。HDFS通常安装在所有群集主机上。
  • Solr至少有一台,但与所有主机一样多。Solr通常安装在所有群集主机上。

使用Solr和HDFS的更多主机具有以下优点:

  • 更多搜索服务器处理请求。
  • 更多搜索和HDFS搭配增加了数据局部性的程度。更多的本地数据提供更快的性能并减少网络流量。

下图显示了典型部署中的一些关键元素。

 

 

该图形说明:

  1. 客户端通过HTTP提交查询。
  2. 该响应由NameNode接收,然后传递给DataNode。
  3. DataNode使用相关的分片在其他主机之间分发请求。
  4. 查询结果将被收集并返回给客户端。

另请注意:

  • Cloudera Manager将客户端和服务器配置文件提供给部署中的其他服务器。
  • ZooKeeper服务器提供有关集群状态和运行Solr的其他主机的信息。

客户必须发送信息才能完成工作:

  • 对于查询,客户端必须具有Solr服务器的主机名和要使用的端口。
  • 对于与集合相关的操作,例如添加或删除集合,集合的名称也是必需的。
  • 索引工作,如 MapReduceIndexer作业,使用启动MapReduce作业的MapReduce驱动程序。这些作业也可以处理变形线并将结果索引到Solr。

4.Apache Kudu概述

Apache Kudu是一个为Hadoop平台开发的列式存储管理器。Kudu分享Hadoop生态系统应用程序的通用技术特性:它运行在商品硬件上,可横向扩展,并支持高度可用的操作。

Apache Kudu是Apache软件基金会的顶级项目。

Kudu的好处包括:

  • 快速处理OLAP工作负载。
  • 与MapReduce,Spark,Flume和其他Hadoop生态系统组件集成。
  • 与Apache Impala紧密集成,使其成为在Apache Parquet中使用HDFS的良好可变替代方案。
  • 强大但灵活的一致性模型,允许您根据每个请求选择一致性要求,包括严格的序列化一致性选项。
  • 强大的性能可同时运行顺序和随机工作负载。
  • 通过Cloudera Manager轻松管理和管理。
  • 高可用性。平板电脑服务器和主服务器使用Raft一致性算法,只要有更多的副本可用,就可以确保可用性。只读的跟随者平板电脑即使在领先平板电脑故障的情况下也可以为其提供读取服务。
  • 结构化数据模型。

通过结合所有这些属性,Kudu的目标是支持难以或不可能在当前可用的Hadoop存储技术上实现的应用程序。Kudu是一个可行的解决方案的应用包括:

  • 报告应将新数据立即提供给最终用户的应用程序
  • 时间序列应用程序必须支持跨大量历史数据的查询,同时返回有关单个实体的细粒度查询
  • 应用程序使用预测模型进行实时决策,并根据所有历史数据定期刷新预测模型
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/English0523/article/details/83538213

智能推荐

虚拟机如何在net模式下进行联网_虚拟机net网络-程序员宅基地

文章浏览阅读1.7k次,点赞3次,收藏7次。虚拟机如何在net模式下进行联网(centos7)1.首先你需要先将虚拟机安装好,如果不会可以参考[centos7安装教程](https://blog.csdn.net/qq_44714603/article/details/88829423?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522161949204316780274178621%2522%252C%2522scm%2522%253A%252220140713.130102334…_虚拟机net网络

python中的range()函数_python range函数-程序员宅基地

文章浏览阅读6.5w次,点赞59次,收藏241次。range()函数:用于生成一个整数序列;range()的三种创建方式:第一种:只有一个参数(小括号中只给了一个数)即range(stop)例如:range(10)指的是默认从0开始,步长为1,不包括10;注意:的运行结果为:;要想输出0-9的数字序列则应该是的结果为;第二种:range(start,stop) (给了两个参数,即小括号中给了两个数)r=range(1,10) print(list(r)) 运行结果为:;第三种:range(start,stop,step):._python range函数

数据的四种基本存储方法_数据存储-程序员宅基地

文章浏览阅读2.5k次。数据的四种基本存储方法,(1)顺序存储方法(2)链接存储方法(3)索引存储方法(4)散列存储方法_数据存储

Mysql启用SSL以及JDBC连接Mysql配置_jdbc mysql ssl-程序员宅基地

文章浏览阅读6.7k次。一、Mysql启用SSL配置1.检查mysql是否支持ssl在linux端用root账号进入mysql命令行界面,查看当前版本mysql数据库是否支持ssl,如果出现以下结果表示支持,如果没有考虑更换版本,或者编译一个带有SSL版本的mysqlshell>show variables like ‘%ssl%’;2.设置用户是否使用ssl连接1.查看用户是否使用SSL连接she..._jdbc mysql ssl

java jwt使用,springboot 整合java-jwt,java jwt工具类-程序员宅基地

文章浏览阅读612次。java jwt使用,springboot 整合java-jwt,java jwt工具类================================Copyright 蕃薯耀2020-12-03https://www.cnblogs.com/fanshuyao/一、引入java-jwt的maven依赖<dependency> <groupId>..._jwtproperties

聊聊 Kafka: 在 Linux 环境上搭建 Kafka,Linux运维未来路在何方-程序员宅基地

文章浏览阅读753次,点赞21次,收藏15次。列出现有主题,创建主题,该主题包含一个分区,该分区为Leader分区,它没有Follower分区副本。启动成功,可以看到控制台输出的最后一行的started状态:此时kafka安装成功。查看zookeeper状态,zookeeper启动成功,再启动kafka。onsole-producer.sh用于生产消息**开启消费者和生产者,生产并消费消息。开启消费者和生产者,生产并消费消息。在Zookeeper中的根节点路径。创建主题,该主题包含多个分区。的地址,此处使用本地启动的。查看指定主题的详细信息。

随便推点

麒麟820也迎来鸿蒙系统,魅族适配麒麟820系统 和鸿蒙OS,魅族要入赘华为系-程序员宅基地

文章浏览阅读188次。蜗居在珠海的小厂魅族,虽然是“小厂”,但是其一路走来的历史,一直被科技圈津津乐道,而深入简出的带头大哥黄章,更是魅友的精神领袖。魅族是一个很低调的企业,但是却有这样一种魅力,总能有意无意的成为新闻的主角,比如近日知名科技大V中国IT杂谈发布了这样一条微博:魅族正在适配麒麟820和鸿蒙系统,未来还要加入华为系。关于这条信息的真实性后面再说,我们先来讨论下华为和魅族是否真的可以成为CP,共同走向人生巅..._鸿蒙420支持麒麟820吗

GoLand live template自定义模板失效问题解决_live template 在jsp中不生效-程序员宅基地

文章浏览阅读306次。GoLand live template自定义模板失效问题解决_live template 在jsp中不生效

STM32F103 外部中断(EXTI)介绍以及代码_stm32f103的exti16连接到 事件,exti17连接到 事件,exti18连接到 事件。s-程序员宅基地

文章浏览阅读603次。如果用 GPIO 作为外部中断,需要配置 AFIO,来选择是哪个端口,可以是 GPIOA/GPIOB/GPIOC/GPIOD/GPIOE/GPIOF/GPIOG,需要注意的是,对于同一个 Pin 脚,只能选择配置一个端口,例如我配置 Pin15 为 GPIOC,那么就不能再用用 GPIOA/B/D/E/F/G 15 作为 EXTI ,如下图所示。②Edge Detect :边缘检测,可以是上升沿触发,也可以是下降沿触发,还可以是上升沿和下降沿都可以分别触发,对应图中 ②-1 和 ②-2。_stm32f103的exti16连接到 事件,exti17连接到 事件,exti18连接到 事件。stm32f

在anaconda环境中使用conda命令安装cuda、cudnn、tensorflow(-gpu)、pytorch_conda安装cudnn-程序员宅基地

文章浏览阅读9.2w次,点赞109次,收藏364次。conda环境中使用conda命令安装cuda、cudnn、tensorflow(-gpu)、pytorch_conda安装cudnn

2742: 【数据结构】【栈】字符串匹配问题-程序员宅基地

文章浏览阅读346次,点赞6次,收藏8次。字符串中只含有括号 (),[],,{},判断输入的字符串中括号是否匹配。如果括号有互相包含的形式,从内到外必须是,(),[],{},例如。输入: [()] 输出:YES,而输入([]), ([])都应该输出NO。文件的第一行为一个整数n(0

CSS的继承性和层叠式_css继承与层叠-程序员宅基地

文章浏览阅读689次。color、text-开头的、line-开头的,font-开头的这些关于文字样式的,都可以继承;所有的盒子的、定位的、布局属性都不能继承。多个选择器同时作用在同一个元素上时候,看权重,那个高,最后显示那个,优先级从高到低分别是:先比较ID选择器数量,在比较类选择器数量,最后比较标签选择器数量最后显示的绿色,因为ID选择器数量优先级高,所以以2为准了,如果都一样,谁写在后面,谁的生效。如果不能直接选中某个元素权重是0,如通过继承而来的权重是0,开始数权重之前一定要看看是不是真的选中文字所在的最内层的标签,没选_css继承与层叠