Hadoop分布式 之 Hbase集群搭建_hadoop hbase集群_sinat_34022298的博客-程序员秘密

技术标签: Hadoop  hadoop  hbase  

HBase简介

  HBase是Apache Hadoop中的一个子项目,是一个HBase是一个开源的、分布式的、多版本的、面向列的、非关系(NoSQL)的、可伸缩性分布式数据存储模型,Hbase依托于Hadoop的HDFS作为最基本存储基础单元。HBase的服务器体系结构遵从简单的主从服务器架构,它由HRegion Server群和HMaster Server构成。HMaster Server负责管理所有的HRegion Server,而HBase中的所有Server都是通过Zookeeper进行的分布式信息共享与任务协调的工作。HMaster Server本身并不存储HBase中的任何数据,HBase逻辑上的表可能会被划分成多个Region,然后存储到HRegionServer群中,HRegionServer响应用户I/O请求,向HDFS文件系统中读写数据。HBase Master Server中存储的是从数据到HRegion Server的映射。

  下面一幅图是Hbase在Hadoop Ecosystem中的位置

  
  上图描述了Hadoop EcoSystem中的各层系统,其中HBase位于结构化存储层,Hadoop HDFS为HBase提供了高可靠性的底层存储支持,Hadoop MapReduce为HBase提供了高性能的计算能力,Zookeeper为HBase提供了稳定服务和failover机制。 此外,Pig和Hive还为HBase提供了高层语言支持,使得在HBase上进行数据统计处理变的非常简单。 Sqoop则为HBase提供了方便的RDBMS数据导入功能,使得传统数据库数据向HBase中迁移变的非常方便。

1,系统环境配置

  • 安装hadoop
  • 安装zookeeper 

2,下载与安装:

  • Hbase 版本必需 与 Hadoop 版本匹配,否则会安装失败或不能正常使用。关于两者何种版本能正常匹配,可以看官方文档查看 hbase 官方文档(http://hbase.apache.org/book.html#basic.prerequisites),找到与 hadoop 版本对应的 hbase 并下载(http://archive.apache.org/dist/hbase/
  • 使用tar解压hbase
    1
    2
    3
    cd /usr/local
    tar -zxvf hbase-1.2.1-bin.tar.gz
    mv /home/hbase
  • 使用vi /etc/profile设置环境变量

3,系统参数配置

配置工作具体如下:

  • 使用 vi /home/hbase/conf/hbase-env.sh 修改系统环境
    1
    2
    3
    export JAVA_HOME=/usr/local/jdk1. 8
    export HBASE_PID_DIR=/home/hbase/pid #使用mkdir /home/hbase/pid命令先创建
    export HBASE_MANAGES_ZK= false #不适用内置zookeeper,使用我们自己安装的(具体指定使用哪个zookeeper是通过/etc/profile中的ZK_HOME变量来指定的)
  • vi conf/hbase-site.xml 配置系统参数
    复制代码
    <configuration>
      <property>
        <name>hbase.rootdir</name>
        <value>hdfs://master:9000/hbase</value>
        <description>设置 hbase 数据库存放数据的目录,这里是放在hadoop hdfs上,这里要与hadoop的core-site.xml文件中的fs.default.name中的值一致,然后在后面添加自己的子目录,我这里定义是hbase</description>
      </property>
      <property>
        <name>hbase.cluster.distributed</name>
        <value>true</value>
        <description>打开 hbase 分布模式</description>
      </property>
      <property>
        <name>hbase.master</name>
        <value>master</value>
        <description>指定 hbase 集群主控节点</description>
      </property>
      <property>
        <name>hbase.tmp.dir</name>
        <value>/home/user/tmp/hbase</value>
        <description>hbase的一些临时文件存放目录。</description>
       </property>
      <property>
        <name>hbase.zookeeper.quorum</name>
        <value>master,slave1,slave2</value>
        <description> 指定 zookeeper 集群节点名 , 因为是由 zookeeper 表决算法决定的</description>
      </property>
      <property>
        <name>hbase.zookeeper.property.clientPort</name>
        <value>2181</value>
       <description> 连接到zookeeper的端口,默认是2181</description>
      </property>
    </configuration>
    复制代码
  • vi  conf/regionservers 该文件指定了HRegionServer进程将在哪些节点上运行
    msater
    slave1
    slave2
  如果有多个master,需要执行  vi conf/backup-masters,加入备份master节点,这里可以参考: http://blog.sina.com.cn/s/blog_474edf960101aetr.html
  • 向其他节点传递安装,使用下列命令
    1
    2
    scp /home/hbase root @slave1 :/home/
    scp /home/hbase root @slave2 :/home/

    完成后使用vi /etc/profile 设置各自节点的环境变量

4,启动hbase服务

启动hbase前要确保,hadoop,zookeeper已经启动,进入$HBASE_HOME/bin目录下,输入命令start-hbase.sh

执行jps查看系统进程

其他节点

启动日志会输出到/home/hbase/logs/hbase-root-master-master.log中,可以查看排除异常

5,测试

启动完成后,执行如下命令可以进入到hbase shell界面,使用命令status检查集群节点状态

这里可以使用 hbase shell命令执行数据库操作,具体参考 http://www.cnblogs.com/nexiyi/p/hbase_shell.html 

另外也可以直接打开网址:http://192.168.137.122:16010/master-status,在web中查看集群状态,其中192.168.137.122是master所在节点的IP,16010为hbase默认端口(老版本中为60010)

 

6,错误

本次安装测试中主要出现了一下几个错误:

  • 各节点节点时间不一致
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    org.apache.hadoop.hbase.ClockOutOfSyncException: org.apache.hadoop.hbase.ClockOutOfSyncException: Server hadoopslave2, 60020 , 1372320861420 has been rejected; Reported time is too far out of sync with master.  Time difference of 143732ms > max allowed of 30000ms
             at sun.reflect.NativeConstructorAccessorImpl.newInstance0(Native Method)
             at sun.reflect.NativeConstructorAccessorImpl.newInstance(NativeConstructorAccessorImpl.java: 57 )
             at sun.reflect.DelegatingConstructorAccessorImpl.newInstance(DelegatingConstructorAccessorImpl.java: 45 )
             at java.lang.reflect.Constructor.newInstance(Constructor.java: 525 )
             at org.apache.hadoop.ipc.RemoteException.instantiateException(RemoteException.java: 95 )
             at org.apache.hadoop.ipc.RemoteException.unwrapRemoteException(RemoteException.java: 79 )
             at org.apache.hadoop.hbase.regionserver.HRegionServer.reportForDuty(HRegionServer.java: 2093 )
             at org.apache.hadoop.hbase.regionserver.HRegionServer.run(HRegionServer.java: 744 )
             at java.lang.Thread.run(Thread.java: 722 )
    Caused by: org.apache.hadoop.ipc.RemoteException: org.apache.hadoop.hbase.ClockOutOfSyncException: Server hadoopslave2, 60020 , 1372320861420 has been rejected; Reported time is too far out of sync with master.  Time difference of 143732ms > max allowed of 30000ms

    在各节点的hbase-site.xml文件中加入下列代码

       <property>
         <name>hbase.master.maxclockskew</name>
         <value>200000</value>
       </property>
  • Directory is not empty
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    29
    30
    31
    32
    33
    34
    35
    36
    37
    38
    39
    40
    41
    42
    43
    44
    45
    46
    47
    48
    49
    50
    51
    52
    53
    54
    55
    56
    org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.fs.PathIsNotEmptyDirectoryException): `/hbase/WALs/slave1, 16000 , 1446046595488 -splitting is non empty': Directory is not empty
         at org.apache.hadoop.hdfs.server.namenode.FSNamesystem.deleteInternal(FSNamesystem.java: 3524 )
         at org.apache.hadoop.hdfs.server.namenode.FSNamesystem.deleteInt(FSNamesystem.java: 3479 )
         at org.apache.hadoop.hdfs.server.namenode.FSNamesystem.delete(FSNamesystem.java: 3463 )
         at org.apache.hadoop.hdfs.server.namenode.NameNodeRpcServer.delete(NameNodeRpcServer.java: 751 )
         at org.apache.hadoop.hdfs.protocolPB.ClientNamenodeProtocolServerSideTranslatorPB.delete(ClientNamenodeProtocolServerSideTranslatorPB.java: 562 )
         at org.apache.hadoop.hdfs.protocol.proto.ClientNamenodeProtocolProtos$ClientNamenodeProtocol$ 2 .callBlockingMethod(ClientNamenodeProtocolProtos.java)
         at org.apache.hadoop.ipc.ProtobufRpcEngine$Server$ProtoBufRpcInvoker.call(ProtobufRpcEngine.java: 585 )
         at org.apache.hadoop.ipc.RPC$Server.call(RPC.java: 928 )
         at org.apache.hadoop.ipc.Server$Handler$ 1 .run(Server.java: 2013 )
         at org.apache.hadoop.ipc.Server$Handler$ 1 .run(Server.java: 2009 )
         at java.security.AccessController.doPrivileged(Native Method)
         at javax.security.auth.Subject.doAs(Subject.java: 415 )
         at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java: 1614 )
         at org.apache.hadoop.ipc.Server$Handler.run(Server.java: 2007 )
     
         at org.apache.hadoop.ipc.Client.call(Client.java: 1411 )
         at org.apache.hadoop.ipc.Client.call(Client.java: 1364 )
         at org.apache.hadoop.ipc.ProtobufRpcEngine$Invoker.invoke(ProtobufRpcEngine.java: 206 )
         at com.sun.proxy.$Proxy15.delete(Unknown Source)
         at org.apache.hadoop.hdfs.protocolPB.ClientNamenodeProtocolTranslatorPB.delete(ClientNamenodeProtocolTranslatorPB.java: 490 )
         at sun.reflect.GeneratedMethodAccessor7.invoke(Unknown Source)
         at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java: 43 )
         at java.lang.reflect.Method.invoke(Method.java: 606 )
         at org.apache.hadoop.io.retry.RetryInvocationHandler.invokeMethod(RetryInvocationHandler.java: 187 )
         at org.apache.hadoop.io.retry.RetryInvocationHandler.invoke(RetryInvocationHandler.java: 102 )
         at com.sun.proxy.$Proxy16.delete(Unknown Source)
         at sun.reflect.GeneratedMethodAccessor7.invoke(Unknown Source)
         at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java: 43 )
         at java.lang.reflect.Method.invoke(Method.java: 606 )
         at org.apache.hadoop.hbase.fs.HFileSystem$ 1 .invoke(HFileSystem.java: 279 )
         at com.sun.proxy.$Proxy17.delete(Unknown Source)
         at sun.reflect.GeneratedMethodAccessor7.invoke(Unknown Source)
         at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java: 43 )
         at java.lang.reflect.Method.invoke(Method.java: 606 )
         at org.apache.hadoop.hbase.fs.HFileSystem$ 1 .invoke(HFileSystem.java: 279 )
         at com.sun.proxy.$Proxy17.delete(Unknown Source)
         at org.apache.hadoop.hdfs.DFSClient.delete(DFSClient.java: 1726 )
         at org.apache.hadoop.hdfs.DistributedFileSystem$ 11 .doCall(DistributedFileSystem.java: 588 )
         at org.apache.hadoop.hdfs.DistributedFileSystem$ 11 .doCall(DistributedFileSystem.java: 584 )
         at org.apache.hadoop.fs.FileSystemLinkResolver.resolve(FileSystemLinkResolver.java: 81 )
         at org.apache.hadoop.hdfs.DistributedFileSystem.delete(DistributedFileSystem.java: 584 )
         at org.apache.hadoop.hbase.master.SplitLogManager.splitLogDistributed(SplitLogManager.java: 297 )
         at org.apache.hadoop.hbase.master.MasterFileSystem.splitLog(MasterFileSystem.java: 400 )
         at org.apache.hadoop.hbase.master.MasterFileSystem.splitLog(MasterFileSystem.java: 373 )
         at org.apache.hadoop.hbase.master.MasterFileSystem.splitLog(MasterFileSystem.java: 295 )
         at org.apache.hadoop.hbase.master.procedure.ServerCrashProcedure.splitLogs(ServerCrashProcedure.java: 388 )
         at org.apache.hadoop.hbase.master.procedure.ServerCrashProcedure.executeFromState(ServerCrashProcedure.java: 228 )
         at org.apache.hadoop.hbase.master.procedure.ServerCrashProcedure.executeFromState(ServerCrashProcedure.java: 72 )
         at org.apache.hadoop.hbase.procedure2.StateMachineProcedure.execute(StateMachineProcedure.java: 119 )
         at org.apache.hadoop.hbase.procedure2.Procedure.doExecute(Procedure.java: 452 )
         at org.apache.hadoop.hbase.procedure2.ProcedureExecutor.execProcedure(ProcedureExecutor.java: 1050 )
         at org.apache.hadoop.hbase.procedure2.ProcedureExecutor.execLoop(ProcedureExecutor.java: 841 )
         at org.apache.hadoop.hbase.procedure2.ProcedureExecutor.execLoop(ProcedureExecutor.java: 794 )
         at org.apache.hadoop.hbase.procedure2.ProcedureExecutor.access$ 400 (ProcedureExecutor.java: 75 )
         at org.apache.hadoop.hbase.procedure2.ProcedureExecutor$ 2 .run(ProcedureExecutor.java: 479 )

    参考https://issues.apache.org/jira/browse/HBASE-14729,进入hadoop文件系统,删除掉报错的目录或真个WALs

  • TableExistsException: hbase:namespace
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    zookeeper.MetaTableLocator: Failed verification of hbase:meta,, 1 at address=slave1, 16020 , 1428456823337 , exception=org.apache.hadoop.hbase.NotServingRegionException: Region hbase:meta,, 1 is not online on worker05, 16020 , 1428461295266
             at org.apache.hadoop.hbase.regionserver.HRegionServer.getRegionByEncodedName(HRegionServer.Java: 2740 )
             at org.apache.hadoop.hbase.regionserver.RSRpcServices.getRegion(RSRpcServices.java: 859 )
             at org.apache.hadoop.hbase.regionserver.RSRpcServices.getRegionInfo(RSRpcServices.java: 1137 )
             at org.apache.hadoop.hbase.protobuf.generated.AdminProtos$AdminService$ 2 .callBlockingMethod(AdminProtos.java: 20862 )
             at org.apache.hadoop.hbase.ipc.RpcServer.call(RpcServer.java: 2031 )
             at org.apache.hadoop.hbase.ipc.CallRunner.run(CallRunner.java: 107 )
             at org.apache.hadoop.hbase.ipc.RpcExecutor.consumerLoop(RpcExecutor.java: 130 )
             at org.apache.hadoop.hbase.ipc.RpcExecutor$ 1 .run(RpcExecutor.java: 107 )
             at java.lang.Thread.run(Thread.java: 745 )

    HMaster启动之后自动挂掉(或非正常重启),并且master的log里出现“TableExistsException: hbase:namespace”字样;
    很可能是更换了Hbase的版本过后zookeeper还保留着上一次的Hbase设置,所以造成了冲突.
    删除zookeeper信息,重启之后就没问题了

    1
    2
    3
    4
    # sh zkCli.sh -server slave1: 2181
    [zk: slave1: 2181 (CONNECTED) 0 ] ls /
    [zk: slave1: 2181 (CONNECTED) 0 ] rmr /hbase
    [zk: slave1: 2181 (CONNECTED) 0 ] quit

1,参考

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/sinat_34022298/article/details/73351250

智能推荐

数据库连接池_chen983234416的博客-程序员秘密

1、什么是数据库连接池?数据库连接池负责分配、管理和释放数据库连接,它允许应用程序重复使用一个现有的数据库连接,而不是再重新建立一个;释放空闲时间超过最大空闲时间的数据库连接来避免因为没有释放数据库连接而引起的数据库连接遗漏。这项技术能明显提高对数据库操作的性能。2、连接池解决的问题??? 不断的创建、销毁链接,会导致访问数据库服务器的压力,而且对于内存来说,不断的开...

《数据结构》| 第五章 数组和广义表 知识梳理_12 26 25的博客-程序员秘密

数组和广义表目录数组和广义表1.理解多维数组的行优先、列优先存储。2.理解特殊矩阵(对称矩阵、三角矩阵、稀疏矩阵)的压缩存储。3.了解广义表的相关概念及表示方法。系列索引:《数据结构》C语言版 (清华严蔚敏考研版) 全书知识梳理    1.理解多维数组的行优先、列优先存储。 2.理解特殊矩阵(对称矩阵、三角矩阵、稀疏矩阵)的压缩存储。...

鸽舍原理 线性时间计算最大间隙问题_sky123bird的博客-程序员秘密

首先明白鸽舍原理的内容:1.将n+1个元素划分为n类,则至少有一类含有2个或2个以上2。把多于M*N个物体放到N个抽屉中,则至少有一个抽屉含有M+1或以上个元素。计算最大间隙问题:显然元素已知,则我们要定义这个抽屉,元素为n,所以我们以首尾两个元素为边界,剩下n-2个元素,所以抽屉应该为n-1,这样可以保证至少有一个抽屉是空的,由于采用等分,所以这个最大的间隙就是遍历一遍,将这个有

开发拍照识花App,程序员秒变“植物专家”_HMS Core的博客-程序员秘密

春暖花开,万物复苏,正是踏青好时候。周末,阿珍组织班级里的小朋友去公园踏青,程序员阿强,作为护花使者也一同前往。阿强本以为,可以肆意在林间草地自由地奔跑,回忆一下逝去的童真时光,没想到却成了小朋友们的“植物识别器”,整个踏青之旅变成大型科普现场。面对大自然,小朋友们满脑子都是“这啥花这啥草”,配以崇拜的小眼神真诚发问,让阿强即使手忙脚乱地偷偷上网搜索,也要给出正确答案。但其实,植物科普不必这般费力,平时对大自然的了解甚少,也有办法轻松hold住小朋友稀奇古怪的发问。执行力满满的阿强,开发出一款拍照识

Java设计模式-工厂模式_工厂类_玛丽贝贝红的博客-程序员秘密

简单工厂模式(创建型)又叫静态工厂,如果要创建的产品不多,只要一个工厂类就可以完成,这种模式叫“简单工厂模式”,它不属于设计模式 的 23 种经典设计模式,它的缺点是增加新产品时会违背“开闭原则”。而工厂模式是多个工厂,增加、删除、修改产品就只需要修改工厂类。定义:定义了一个创建对象的类,由这个类来封装实例化对象的行为。实例化对象的时候不再使用 new Object()形式,可以根...

随便推点

ubuntu使用本地已下载deb文件安装_勤奋专注的博客-程序员秘密

1.安装必要的软件包dpkg-dev2.拷贝到本地home目录: sudo cp -aur /var/cache/apt/archives/*.deb ~/debfiles3.建立包列表及依赖信息文件 sudo dpkg-scanpackages debfiles/dev/null |gzip >debfiles/Packages.gz4. 添加源sudo gedit /etc/apt

2021-08-14_施小七的博客-程序员秘密

这里写自定义目录标题欢迎使用Markdown编辑器生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入欢迎使用Markdown编辑器```csharpusing System;using System.Text.RegularExpressions;namespace CodeS{ class Program

Java容器(一)-HashMap详解(JDK1.8)_Coding-ls的博客-程序员秘密

摘要HashMap可以说是在程序开发中使用最频繁的映射处理的数据类型。在JDK1.8中又对HashMap进行了优化,引入了红黑树的数据结构和扩容的优化。接下来就探讨一下HashMap的结构和实现原理。简介Java中的映射类容器都是继承自java.util.Map接口,Map接口主要有四个实现类,它们分别是:HashMap、LinkedHashMap、TreeMap和Hashtable。...

图模型-随机游走算法_人鱼线的博客-程序员秘密

文章目录推荐基本概念 PageRank PersonalRank TextRank SimRank推荐基本概念其中用户user=[A,B,C],物品item=[a,b,c,d],用户和物品有以下的关系上述便是一个典型的二分图,我们用G(V,E)来表示,其中V为用户user和物品item组成的顶点集即[A,B,C,a,b,c,d],而E则代表每一个二元组(u,i)之间对应的...

c语言课程设计--贪吃蛇_c语言课程设计贪吃蛇_睡醒继续做梦的博客-程序员秘密

#include&lt;stdio.h&gt;#include&lt;stdlib.h&gt;#include &lt;windows.h&gt;#include&lt;algorithm&gt;#include&lt;conio.h&gt;#include &lt;ctime&gt;#include&lt;iostream&gt;using namespace std;void About_games();//关于游戏void help();//游戏帮助void start_game(

CoolShell-第0题_水冰天之痕的博客-程序员秘密

第一题地址:https://fun.coolshell.cn/first.html毫无头绪……通过搜索,没想到Brainfuck是一种编程语言……因此,用JavaScript写了一个解释器。直接在浏览器控制台运行即可,得到第二题地址:https://fun.coolshell.cn/welcome.htmlvar code = "++++++++[&gt;+&gt;++&gt;+++&gt;++++&gt;+++++&gt;++++++&gt;+++++++&gt;+++++.

推荐文章

热门文章

相关标签