CDH集群离线部署(CM6.3.1 + CDH6.3.2 + CentOS7)_cm6.3.1-centos7-程序员宅基地

技术标签: cloudera  大数据平台搭建  Linux  centos  

1.1原生Hadoop的问题

  1. 版本管理过于混乱
  2. 部署过程较为繁琐,升级难度较大
  3. 兼容性差
  4. 安全性低

1.2CDHCM(Cloudera Manager)

  1. CDH(Cloudera’s Distribution Including Apache Hadoop),是Hadoop众多分中的一种,由Cloudera公司维护,基于稳定版本的Apache Hadoop构建,并集成了很多补丁,可以直接用于生产环境。就是Hadoop等大数据安装包的第三方版本的集合,提供了Hadoop等大数据服务的安装包。
  2. CM(Cloudera Manager)提供了一个管理和监控Hadoop等大数据服务的web界面,能让我们方便安装大数据生态圈的大部分服务。

1.3Hadoop自动化部署和管理平台

主流的有Apache Ambari和Cloudera Manager,相对应的Hadoop的发行版为HDP和CDH。这种自动化部署平台的功能一般如下:

  1. 提供Hadoop大数据集群
  2. 管理Hadoop大数据集群
  3. 监控Hadoop大数据集群

PS:HDP的公司(hortonworks)已经被CDH公司(Cloudera)收购了

1.4Cloudera Manager架构

                

  1. Server:负责软件安装、配置,启动和停止服务,管理服务运行的群集。核心
  1. Agent:安装在每台主机上。负责启动和停止进程,配置,监控主机。
  1. Management Service:由一组执行各种监控,警报和报告功能角色的服务。图表的生成和管理
  1. Database:存储配置和监视信息。
  1. Cloudera Repository:软件由Cloudera 管理分布存储库。(有点类似Maven的中心仓库;在线安装(从中心仓库拉取)和离线安装(离线库)
  1. Clients:是用于与服务器进行交互的接口(API和Admin Console)

1.5CDH下载

官方下载地址:https://archive.cloudera.com

  1. CM下载

https://archive.cloudera.com/cm6/6.3.1/redhat7/yum/RPMS/x86_64/

                    

  1. CDH下载

https://archive.cloudera.com/cdh6/6.3.2/parcels/

               

注意:CDH的版本一定要和CM的版本对应

2.环境准备

使用VMware模拟多台主机,由于主机条件有限,只演示三台机器,配置如下:

主机名

系统

IP

内存

磁盘

cdh-1

Centos7

192.168.100.10

4G

60G

cdh-2

Centos7

192.168.100.20

2G

60G

cdh-3

Centos7

192.168.100.30

2G

60G

2.1修改主机名(所有节点)

hostnamectl set-hostname cdh-1

hostnamectl set-hostname cdh-2

hostnamectl set-hostname cdh-3

2.2关闭防火墙(所有节点)

systemctl stop firewalld

systemctl disable firewalld

2.3关闭SELinux(所有节点)

setenforce 0 #临时关闭

#永久关闭 将SELINUX= enforcing 修改为SELINUX=disabled

vi /etc/selinux/config

SELINUX=disabled 

PS: 可以使用sed -i s/SELINUX=enforcing/SELINUX=disabled/g /etc/selinux/config

2.4配置IP到主机的映射(所有节点)

vi /etc/hosts

192.168.100.10 cdh-1

192.168.100.20 cdh-2

192.168.100.30 cdh-3

2.5配置免密码登录(cdh-1)

# 生成公钥和私钥 三次回车

ssh-keygen

# 复制公钥和私钥

ssh-copy-id cdh-1

ssh-copy-id cdh-2

ssh-copy-id cdh-3

2.6设置用户最大可打开文件数,进程数,内存占用(所有节点)

vi /etc/security/limits.conf

*    soft    nofile   32728

*    hard    nofile   1024999

*    soft    nproc   65535

*    hard    noroc    unlimited

*    soft    memlock    unlimited

*    hard    memlock    unlimited

sysctl -p

2.7设置swap空间(所有节点)

echo "vm.swappiness = 0" >> /etc/sysctl.conf

Cloudera建议将交换空间设置为0,过多的交换空间会引起GC耗时的激增。

2.8关闭大页面压缩(所有节点)

echo never > /sys/kernel/mm/transparent_hugepage/enabled

echo never > /sys/kernel/mm/transparent_hugepage/defrag

3.安装

将下载好的CDH包和CM的包使用sftp上传到cdh-1

3.1配置本地yum

CDH的安装包都是rpm包如果使用rpm安装方式安装起来是比较复杂的,会有很多依赖问题需要解决,就需要使用yum帮助我们解决依赖问题。

                    

1.配置centos源(cdh-1)

#挂载centos7镜像

mount /dev/cdrom /mnt/

#删除系统自带的源

rm -rf /etc/yum.repos.d/*

#新建一个本地yum源

cat >> /etc/yum.repos.d/local.repo << EOF

[centos]

name=centos

baseurl=file:///mnt

gpgcheck=0

EOF

#验证

yum repolist

2.安装httpd服务(cdh-1

# 安装

yum install -y httpd

# 启动

systemctl start httpd

#开机自启

systemctl enable httpd

http服务可以帮助我们传输文件,默认静态资源的目录为/var/www/html

3.centos源配置为http方式获取(cdh-1

#在http服务的静态资源目录创建centos目录

mkdir /var/www/html/centos

#将centos的镜像文件复制到centos目录

cp -rvf /mnt/* /var/www/html/centos/

#可以通过http访问了

http://192.168.100.10/centos/

#修改cdh-1的本地centos源的配置

vi /etc/yum.repos.d/local.repo

baseurl=http://cdh-1/centos

#取消挂载

umount /dev/cdrom /mnt

其他节点配置(cdh-1,cdh-2)

cat >> /etc/yum.repos.d/local.repo << EOF

[centos]

name=centos

baseurl=http://cdh-1/centos

gpgcheck=0

EOF

#验证

yum repolist

4.配置CM

  1. 移动文件安装包文件到http服务器静态文件目录(cdh-1)

#在/var/www/html创建存放cm包的文件夹和cdh安装包的文件夹

mkdir /var/www/html/{cm,cdh}

#将cdh的安装包和cm的包移动到创建的目录

#移动cm安装包

mv cloudera-manager-* /var/www/html/cm/

mv  enterprise-debuginfo-6.3.1-1466458.el7.x86_64.rpm oracle-j2sdk1.8-1.8.0+update181-1.x86_64.rpm /var/www/html/cm

#移动cdh安装包和元数据文件

mv CDH-6.3.2-1.cdh6.3.2.p0.1605554-el7.parcel manifest.json /var/www/html/cdh/

  1. 制作CM源生成repodata文件,需要用到createrepo这个包(cdh-1)

#安装

yum install -y createrepo

#进入到cm的rpm包存放目录

cd /var/www/html/cm

# 生成repodata文件夹

createrepo .

  1. 配置yum源(所有节点

cat >> /etc/yum.repos.d/cm.repo << EOF

[CM]

name=cm

baseurl=http://cdh-1/cm/

gpgcheck=0

EOF

3.2安装

                      

1.安装依赖(所有节点)

yum install -y bind-utils libxslt cyrus-sasl-plain cyrus-sasl-gssapi portmap fuse-libs /lib/lsb/init-functions httpd mod_ssl openssl-devel python-psycopg2 Mysql-python fuse

2.安装Cloudera Manager和Cloudera Agent(cdh-1)

#安装JDK

yum install -y oracle-j2sdk1.8.x86_64

#安装cloudera-manager

yum install  -y cloudera-manager-agent cloudera-manager-daemons cloudera-manager-server cloudera-manager-server-db-2 postgresq-server

3.安装Mariadb

#安装

yum install -y mariadb-server

#启动和开机自启

systemctl start mariadb && systemctl enable mariadb

#配置Mariadb数据库

mysql_secure_installation

                              

4.初始化管理节点(cdh-1)

  1. 复制mysql的jdbc驱动包到/usr/share/java目录

需要使用sftp上传jar包到cdh-1节点上

#创建/usr/share/java目录

mkdir -p /usr/share/java

#复制jar包到/usr/share/java下

cp mysql-connector-java-5.1.48.jar /usr/share/java/

#注意:需要改名为mysql-connector-java.jar

mv /usr/share/java/mysql-connector-java-5.1.48.jar /usr/share/java/mysql-connector-java.jar

  1. 初始化数据库

/opt/cloudera/cm/schema/scm_prepare_database.sh mysql -h localhost -uroot -proot --scm-host localhost scm root root

5.安装agent节点

只需要在chd-2cdh-3节点上安装

#安装jdk

yum install -y oracle-j2sdk1.8.x86_64

#安装agent

yum install cloudera-manager-daemons cloudera-manager-agent -y

6.修改配置文件(所有节点)

修改Cloudera Agent配置文件/etc/cloudera-scm-agent/config.ini,配置server_host为主节点cdh-1

#通过vi命令修改

vi /etc/cloudera-scm-agent/config.ini

server_host=cdh-1

#也可以通过sed命令修改

sed -i "s/server_host=localhost/server_host=cdh-1/g" /etc/cloudera-scm-agent/config.ini

注意:只用使用一种命令修改就行了,推荐使用sed

7.配置JAVA_HOME(所有节点)

vi /etc/profile

export JAVA_HOME=/usr/java/jdk1.8.0_181-cloudera/

export PATH=$PATH:$JAVA_HOME/bin

3.3启动

1.启动Cloudera Manager(cdh-1)

在主节点启动Cloudera Manager

#启动

systemctl start cloudera-scm-server

#设置开机自启

systemctl enable cloudera-scm-server

2.启动Cloudera Agent(所有节点)

#启动

systemctl start cloudera-scm-agent

#开机自启

systemctl enable cloudera-scm-agent

可以访问http://192.168.100.10:7180用户名密码都是admin

4.使用

4.1登录

                           

                           

  • 选择试用版

                      

4.2配置集群

                                 

  • 设置集群的名称

                          

  • 选择集群主机

                     

  • 配置CDH安装包

                     

  • 配置CDH parcel的位置

                   

  • 选择我们配置好的

                    

  • 等待下载包

                    

  • 检查主机性能

              

              

4.3安装Zookeeper

  • 安装选项

               

                

  • 选择服务安装主机

              

  • 数据库配置

                

  • 需要创建数据库(cdh-1)

#建库

create database activity;

create database reports;

create database audit;

create database metadata;

#授权

grant all on activity.* to cdh@localhost identified by 'cdh';

grant all on activity.* to cdh@'%' identified by 'cdh';

grant all on reports.* to cdh@localhost identified by 'cdh';

grant all on reports.* to cdh@'%' identified by 'cdh';

grant all on audit.* to cdh@localhost identified by 'cdh';

grant all on audit.* to cdh@'%' identified by 'cdh';

grant all on metadata.* to cdh@localhost identified by 'cdh';

grant all on metadata.* to cdh@'%' identified by 'cdh';

  • 测试连接

                  

  • 可以配置邮件报警

                

  • 安装

              

  • 安装完成

              

     

问题

内存 CPU过小 配置问题

                

总结

  •           安装过程还是比较简单的,只需要配置yum就可以使用yum安装
  •           由于电脑的配置有限,导致出现了一些问题,内存尽量能给大一点就给大一点

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/qq_40856560/article/details/109007683

智能推荐

【史上最易懂】马尔科夫链-蒙特卡洛方法:基于马尔科夫链的采样方法,从概率分布中随机抽取样本,从而得到分布的近似_马尔科夫链期望怎么求-程序员宅基地

文章浏览阅读1.3k次,点赞40次,收藏19次。虽然你不能直接计算每个房间的人数,但通过马尔科夫链的蒙特卡洛方法,你可以从任意状态(房间)开始采样,并最终收敛到目标分布(人数分布)。然后,根据一个规则(假设转移概率是基于房间的人数,人数较多的房间具有较高的转移概率),你随机选择一个相邻的房间作为下一个状态。比如在巨大城堡,里面有很多房间,找到每个房间里的人数分布情况(每个房间被访问的次数),但是你不能一次进入所有的房间并计数。但是,当你重复这个过程很多次时,你会发现你更有可能停留在人数更多的房间,而在人数较少的房间停留的次数较少。_马尔科夫链期望怎么求

linux以root登陆命令,su命令和sudo命令,以及限制root用户登录-程序员宅基地

文章浏览阅读3.9k次。一、su命令su命令用于切换当前用户身份到其他用户身份,变更时须输入所要变更的用户帐号与密码。命令su的格式为:su [-] username1、后面可以跟 ‘-‘ 也可以不跟,普通用户su不加username时就是切换到root用户,当然root用户同样可以su到普通用户。 ‘-‘ 这个字符的作用是,加上后会初始化当前用户的各种环境变量。下面看下加‘-’和不加‘-’的区别:root用户切换到普通..._限制su root登陆

精通VC与Matlab联合编程(六)_精通vc和matlab联合编程 六-程序员宅基地

文章浏览阅读1.2k次。精通VC与Matlab联合编程(六)作者:邓科下载源代码浅析VC与MATLAB联合编程浅析VC与MATLAB联合编程浅析VC与MATLAB联合编程浅析VC与MATLAB联合编程浅析VC与MATLAB联合编程  Matlab C/C++函数库是Matlab扩展功能重要的组成部分,包含了大量的用C/C++语言重新编写的Matlab函数,主要包括初等数学函数、线形代数函数、矩阵操作函数、数值计算函数_精通vc和matlab联合编程 六

Asp.Net MVC2中扩展ModelMetadata的DescriptionAttribute。-程序员宅基地

文章浏览阅读128次。在MVC2中默认并没有实现DescriptionAttribute(虽然可以找到这个属性,通过阅读MVC源码,发现并没有实现方法),这很不方便,特别是我们使用EditorForModel的时候,我们需要对字段进行简要的介绍,下面来扩展这个属性。新建类 DescriptionMetadataProvider然后重写DataAnnotationsModelMetadataPro..._asp.net mvc 模型description

领域模型架构 eShopOnWeb项目分析 上-程序员宅基地

文章浏览阅读1.3k次。一.概述  本篇继续探讨web应用架构,讲基于DDD风格下最初的领域模型架构,不同于DDD风格下CQRS架构,二者架构主要区别是领域层的变化。 架构的演变是从领域模型到C..._eshoponweb

Springboot中使用kafka_springboot kafka-程序员宅基地

文章浏览阅读2.6w次,点赞23次,收藏85次。首先说明,本人之前没用过zookeeper、kafka等,尚硅谷十几个小时的教程实在没有耐心看,现在我也不知道分区、副本之类的概念。用kafka只是听说他比RabbitMQ快,我也是昨天晚上刚使用,下文中若有讲错的地方或者我的理解与它的本质有偏差的地方请包涵。此文背景的环境是windows,linux流程也差不多。 官网下载kafka,选择Binary downloads Apache Kafka 解压在D盘下或者什么地方,注意不要放在桌面等绝对路径太长的地方 打开conf_springboot kafka

随便推点

VS2008+水晶报表 发布后可能无法打印的解决办法_水晶报表 不能打印-程序员宅基地

文章浏览阅读1k次。编好水晶报表代码,用的是ActiveX模式,在本机运行,第一次运行提示安装ActiveX控件,安装后,一切正常,能正常打印,但发布到网站那边运行,可能是一闪而过,连提示安装ActiveX控件也没有,甚至相关的功能图标都不能正常显示,再点"打印图标"也是没反应解决方法是: 1.先下载"PrintControl.cab" http://support.businessobjects.c_水晶报表 不能打印

一. UC/OS-Ⅱ简介_ucos-程序员宅基地

文章浏览阅读1.3k次。绝大部分UC/OS-II的源码是用移植性很强的ANSI C写的。也就是说某产品可以只使用很少几个UC/OS-II调用,而另一个产品则使用了几乎所有UC/OS-II的功能,这样可以减少产品中的UC/OS-II所需的存储器空间(RAM和ROM)。UC/OS-II是为嵌入式应用而设计的,这就意味着,只要用户有固化手段(C编译、连接、下载和固化), UC/OS-II可以嵌入到用户的产品中成为产品的一部分。1998年uC/OS-II,目前的版本uC/OS -II V2.61,2.72。1.UC/OS-Ⅱ简介。_ucos

python自动化运维要学什么,python自动化运维项目_运维学python该学些什么-程序员宅基地

文章浏览阅读614次,点赞22次,收藏11次。大家好,本文将围绕python自动化运维需要掌握的技能展开说明,python自动化运维从入门到精通是一个很多人都想弄明白的事情,想搞清楚python自动化运维快速入门 pdf需要先了解以下几个事情。这篇文章主要介绍了一个有趣的事情,具有一定借鉴价值,需要的朋友可以参考下。希望大家阅读完这篇文章后大有收获,下面让小编带着大家一起了解一下。_运维学python该学些什么

解决IISASP调用XmlHTTP出现msxml3.dll (0x80070005) 拒绝访问的错误-程序员宅基地

文章浏览阅读524次。2019独角兽企业重金招聘Python工程师标准>>> ..._hotfix for msxml 4.0 service pack 2 - kb832414

python和易语言的脚本哪门更实用?_易语言还是python适合辅助-程序员宅基地

文章浏览阅读546次。python和易语言的脚本哪门更实用?_易语言还是python适合辅助

redis watch使用场景_详解redis中的锁以及使用场景-程序员宅基地

文章浏览阅读134次。详解redis中的锁以及使用场景,指令,事务,分布式,命令,时间详解redis中的锁以及使用场景易采站长站,站长之家为您整理了详解redis中的锁以及使用场景的相关内容。分布式锁什么是分布式锁?分布式锁是控制分布式系统之间同步访问共享资源的一种方式。为什么要使用分布式锁?​ 为了保证共享资源的数据一致性。什么场景下使用分布式锁?​ 数据重要且要保证一致性如何实现分布式锁?主要介绍使用redis来实..._redis setnx watch

推荐文章

热门文章

相关标签