学校课程要求学习Hadoop,老师说要用VM虚拟机,搭建至少3个结点的集群,我寻思使用Docker不是更方便快捷吗,一来不用重复配置了,二来可能趁此机会学习Docker用法,于是就开始折腾了。
作此文,供学习记录。
如果只是希望尽快搭建好环境,可以参见文章 “通过已有镜像极速搭建” 部分,直接使用打包并配置好的镜像。
Dockers20.10.7 + Hadoop3.3
其它工具:VS Code的Dockers插件
hdfs dfsadmin -safemode leave
本次折腾参考了这篇19年的文章:使用Docker搭建Hadoop集群(伪分布式与完全分布式)
注意,本文与上述参考文章有所不同(都是趟过的坑)
mkdir centos-hadoop
cd centos-hadoop
# 上传hadoop和jdk,略
参考链接:编写Dockerfile
sudo yum install vim
vim Dockerfile #这里docker build时缺省名为Dockerfile
Dockerfile内容
FROM centos:centos7
# 安装openssh-server和sudo软件包,并且将sshd的UsePAM参数设置成no
RUN yum install -y openssh-server sudo
RUN sed -i 's/UsePAM yes/UsePAM no/g' /etc/ssh/sshd_config
#安装openssh-clients
RUN yum install -y openssh-clients
# 添加测试用户root,密码root,并且将此用户添加到sudoers里
RUN echo "root:root" | chpasswd
RUN echo "root ALL=(ALL) ALL" >> /etc/sudoers
RUN ssh-keygen -t dsa -f /etc/ssh/ssh_host_dsa_key
RUN ssh-keygen -t rsa -f /etc/ssh/ssh_host_rsa_key
# 启动sshd服务并且暴露22端口
RUN mkdir /var/run/sshd
EXPOSE 22
CMD ["/usr/sbin/sshd", "-D"]
ADD jdk-8u321-linux-x64.tar.gz /usr/local/
RUN mv /usr/local/jdk1.8.0_321 /usr/local/jdk1.8
ENV JAVA_HOME /usr/local/jdk1.8
ENV PATH $JAVA_HOME/bin:$PATH
ADD hadoop-3.3.1.tar.gz /usr/local
RUN mv /usr/local/hadoop-3.3.1 /usr/local/hadoop
ENV HADOOP_HOME /usr/local/hadoop
ENV PATH $HADOOP_HOME/bin:$PATH
构建镜像
docker build -t centos-hadoop ./ # docker build -t ImageName:TagName dir
查看镜像
docker image ls
网络结构分别为:
创建子网
docker network create --subnet=192.168.1.0/24 hadoopnet
启动容器
docker run -itd --name hadoop0 --net hadoopnet --ip 192.168.1.2 -p 8088:8088 -p 9870:9870 centos-hadoop #hadoop0对外开放端口8088
docker run -itd --name hadoop1 --net hadoopnet --ip 192.168.1.3 centos-hadoop
docker run -itd --name hadoop2 --net hadoopnet --ip 192.168.1.4 centos-hadoop
docker ps # 查看刚刚启动的3个容器
ps:以下操作均是对hadoop0主节点配置
docker exec -it hadoop0 /bin/bash
此时,在启动容器这一步时,docker容器的hadoopnet网络已经添加了主机名与IP映射的映射关系,因此不需要往hosts文件中添加ip和主机名的映射。
可以通过ping命令检查是否已有映射关系:
ping hadoop0
ping hadoop1
ping hadoop2
如果没ping通,可以尝试往hosts文件添加以下内容(hosts文件目录:/etc/hosts)
192.168.1.2 hadoop0
192.168.1.3 hadoop1
192.168.1.4 hadoop2
ssh-keygen
#剩下的一路回车即可
# 以下3条都不能省,请根据提示输入yes以及主机密码,开头我们设置的是root/root
ssh-copy-id hadoop0
ssh-copy-id hadoop1
ssh-copy-id hadoop2
进入/usr/local/hadoop/etc/hadoop目录,涉及的配置文件有:core-site.xml、hdfs-site.xml、yarn-site.xml、mapred-site.xml、workers
hadoop-env.sh
export JAVA_HOME=/usr/local/jdk1.8 # 修改JAVA_HOME(往该文件内添加即可)
core-site.xml
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://hadoop0:9000</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/usr/local/hadoop/tmp</value>
</property>
<property>
<name>fs.trash.interval</name>
<value>1440</value>
</property>
</configuration>
hdfs-site.xml
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<property>
<name>dfs.permissions</name>
<value>false</value>
</property>
</configuration>
yarn-site.xml
<configuration>
<!-- Site specific YARN configuration properties -->
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.log-aggregation-enable</name>
<value>true</value>
</property>
<property>
<description>The hostname of the RM.</description>
<name>yarn.resourcemanager.hostname</name>
<value>hadoop0</value>
</property>
</configuration>
mapred-site.xml
<configuration>
<property>
<name>yarn.app.mapreduce.am.env</name>
<value>HADOOP_MAPRED_HOME=${HADOOP_HOME}</value>
</property>
<property>
<name>mapreduce.map.env</name>
<value>HADOOP_MAPRED_HOME=${HADOOP_HOME}</value>
</property>
<property>
<name>mapreduce.reduce.env</name>
<value>HADOOP_MAPRED_HOME=${HADOOP_HOME}</value>
</property>
</configuration>
进入进入到/usr/local/hadoop目录下
!!!格式化操作不能重复执行
bin/hdfs namenode -format
进入/usr/local/hadoop
修改workers文件
(若为老版本的hadoop,则是slaves文件)
删除原来的所有内容,修改为如下
hadoop1
hadoop2
拷贝至其他两个节点
scp -rq /usr/local/hadoop/etc hadoop1:/usr/local/hadoop
scp -rq /usr/local/hadoop/etc hadoop2:/usr/local/hadoop
添加变量
进入到目录/usr/local/hadoop/sbin
## 在start-yarn.sh、stop-yarn.sh顶部添加
YARN_RESOURCEMANAGER_USER=root
HDFS_DATANODE_SECURE_USER=yarn
YARN_NODEMANAGER_USER=root
## 在start-dfs.sh、stop-dfs.sh顶部添加
HDFS_DATANODE_USER=root
HDFS_DATANODE_SECURE_USER=hdfs
HDFS_NAMENODE_USER=root
HDFS_SECONDARYNAMENODE_USER=root
若不进行变量的添加,会报错找不到变量。
启动hadoop分布式集群服务
# 执行
sbin/start-all.sh
若需要中止hadoop分布式集群服务
# 执行
sbin/stop-all.sh
hadoop0主节点需要有以下进程
hadoop1、hadoop2从节点需要有以下进程
运示例程序
运行计算PI示例程序,注意不同版本hadoop的路径可能不一样
hadoop jar /usr/local/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.1.jar pi 10 10
待完成…
文章浏览阅读1.5k次。一、EasyUI组件的简单介绍 easyUI提供了很多组件让我们使用,如下图所示: 使用这些组件可以帮助我们快速地进行项目开发,下面以一个用户登录程序为例讲解EasyUI组件的使用二、EasyUI组件的使用2.1、创建测试的JavaWeb项目 2.2、编写测试代码 编写一个用户登录页面Login1.html,用于输入用户名_easy-ring
文章浏览阅读902次。【填空题】Python 源代码程序编译后的文件扩展名为_________。【单选题】1. Why did the old Watchdog say that the sun will teach the Snow Man how to run?【论述题】老师10月份中上旬的花费。存在文件中的数据读取后,需要抽取10月中上旬的信息中的关于花费的信息,办法很多,可以用split等,也可以用正则表达式来..._源代码程序编译后的文件扩展名。
文章浏览阅读10w+次。scoped_session防止内存泄漏,保护性session的创建。SQLAlchemy 的 scoped_session 是啥玩意通常我们用 SQLAlchemy 写数据的时候要创建 Session 对象来维护数据库会话,用完了再关掉。但是听说还有个叫scoped_session的玩意,这是做啥用的?这东西其实与 web 应用有一些关系。我们在使用 Django 的 ORM 的时候怎..._scoped_session query 关闭
文章浏览阅读782次。文章目录第二十六章 Caché 使用%Dictionary类类定义类简介浏览类定义更改类定义第二十六章 Caché 使用%Dictionary类本附录讨论了类定义类,这是一组持久类,它们提供对所有类定义的对象和SQL访问。类定义类简介类定义类提供对Caché统一字典的对象和SQL访问。使用这些类,可以以编程方式检查类定义,修改类定义,创建新类,甚至编写自动生成文档的程序。这些类包含在%Di..._cache数据库%dictionary
文章浏览阅读120次。图片热点: 规划出图片上的一个区域,可以做出超链接,直接点击图片区域就可以完成跳转的效果 网页划区: 在一个网页里,规划出一个区域用来展示另一个网页的内容。 网..._图片“热点”
文章浏览阅读9.6k次,点赞2次,收藏18次。Windows系统下:jenkins+selenium+TestNG一步搞定简单自动化持续集成注意!注意!本篇只介绍Windows系统下的操作!1.安装jenkins,最好从官网下载并安装:https://jenkins.io/download/,安装过程很简单,一路下一步就可以。安装过程中的小插曲,如图:然后按照导航默认选择的进行启动jenkins服务即可。【_jenkins+selenium+java持续集成
文章浏览阅读1.1k次。jQuery Ajax 代码:_jquery 无刷新提交表单
文章浏览阅读634次。Google I/O 2017 上将Kotlin升级为Android开发的官方语言,关于Kotlin的特点之类的建议去官网自行了解Kotlin官网。 我所使用的开发工具是AndroidStudio,如果你用IDE相差也不大。下面开始进行开发环境的搭建。1.下载Kotlin插件 Settings -> plugins -> BrowseRepositories,_kotlin-gradle-plugin存放在哪里
文章浏览阅读2.9w次,点赞17次,收藏104次。概述:交代一下背景,这算是一次项目经验吧,属于公司一个已上线平台的功能,这算是离职人员挖下的坑,随着数据越来越多,原本的SQL查询变得越来越慢,用户体验特别差,因此SQL优化任务交到了我手上。这个SQL查询关联两个数据表,一个是攻击IP用户表主要是记录IP的信息,如第一次攻击时间,地址,IP等等,一个是IP攻击次数表主要是记录每天IP攻击次数。而需求是获取某天攻击IP信息和次数。(以下SQL..._千万级外连接查询
文章浏览阅读951次。原标题:10大Java开发必备的Eclipse插件今天小编来给大家介绍10个Java开发人员必备的Eclipse 插件,它们有各自的优势,你可以从中选择适合你的那款。 1. EGitEGit是 Java 开发的必备插件。它可以从 GitHub 下载代码,并为 Eclipse 提供 Git 集成。还能快速而灵活地搜索和查询历史记录。2. Spring ToolsSpring 是最流行的 Java 框..._eclipse 必装插件
文章浏览阅读273次。Title//字面量的方式var box = [1,"老王","老宋",true,undefined,6,8];//new操作符的方式var box1 = new Array("老王","老宋","hello",123);alert(box1[1]);alert(box[1]);Title//字面量的方式var box = [1,"老王","老宋",true,undefined,6,8];//ne..._html从字典里通过下标获取数据
文章浏览阅读86次。Problem StatementGiven two stringssandt, determine if they are isomorphic.Two strings are isomorphic if the characters inscan be replaced to gett.All occurrences of a character ...