技术标签: Hadoop
Hadoop是Apache旗下的一个用Java语言实现的开源软件框架,是一个开发和于宁处理大规模数据的软件平台.允许使用简单的编程模型在大量计算机集群上对大数据集进行分布式处理.
上图显示了一个Hadoop从1.0到2.0的一个变迁.现在Hadoop3.0也有的,但是我现在是以2.0为基础学习的.
狭义上说,Hadoop指Apache这款开源框架,它的核心组件有:
HDFS:(分布式文件系统)--解决海量数据存储
YARN:(作业调度和集群资源管理的框架)--解决资源任务调度
MapReduce:(分布式运算编程框架)--解决海量数据计算
从上图可以发现,在Hadoop1.0中MapReduce除了做数据的计算还有另外一个任务,还做集群的资源管理(例如:一个程序在运行的时候,它肯定需要内存、磁盘空间等等,那么这些跟程序运行相关的硬件资源可以称为集群的资源)。所以可以想象,Hadoop1.0中MapReduce的任务太繁重了。因此在Hadoop2.0中,把MapReduce中专门做集群资源管理任务的这一部分,专门提取出来,交给了YARN。另外YARN除了做集群资源管理,还兼顾着任务调度(提交的程序都想使用集群资源,按照什么样的规则使用这些资源呢?是按照优先级还是按照先来后到等等呢?这样就存在一个所谓计算任务的调度)。 这样MapReduce就专心做数据处理了。
广义上来说,Hadoop通常是指一个更广泛的概念------Hadoop生态圈。
当下的Hadoop已经成长为一个庞大的体系,随着生态系统的成长,新出现的项目越来越多,其中不乏一些非Apache主管的项目,这些项目对Hadoop是很好的补充。
HIVE:基于Hadoop的分布式数据仓库,提供基于SQL的查询数据操作
HBASE:基于Hadoop的分部式海量数据库
ZOOKEEPER:分布式协调服务基础组件
......
Hadoop的发展史
Hadoop是 Apache Lucene创始人 Doug Cutting创建的。最早起源于 Nutch,它是 Lucene的子项目。 Nutch的设计目标是构建一个大型的全网搜索引擎,包括网页抓取、索引、查询等功能,但随着抓取网页数量的增加,遇到了严重的可扩展性问题:如何解决数十亿网页的存储和索引问题。
2003年 Google发表了一篇论文为该问题提供了可行的解决方案。论文中描述的是谷歌的产品架构,该架构称为:谷歌分布式文件系统(GFS),可以解决他们在网页爬取和索引过程中产生的超大文件的存储需求。
2004年 Google发表论文向全世界介绍了谷歌版的 MapReduce系统。
同时期, Nutch的开发人员完成了相应的开源实现HDFS和 MAPREDUCE,并从Nutch中剥离成为独立项目 HADOOP,到2008年1月, HADOOP成为 Apache顶级项目,迎来了它的快速发展期。2006年 Google发表了论文是关于 Bigtable的,这促使了后来的 Hbase的发展
因此, Hadoop及其生态圈的发展离不开 Google的贡献。
Hadoop的特性优点
扩容能力( Scalable): Hadoop是在可用的计算机集群间分配数据并完成计算任务的,这些集群可用方便的扩展到数以千计的节点中。
成本低( Economical): Hadoop通过普通廉价的机器组成服务器集群来分发以及处理数据,以至于成本很低
高效率( Efficient):通过并发数据, Hadoop可以在节点之间动态并行的移动数据,使得速度非常快。
可靠性( Reliable):能自动维护数据的多份复制,并且在任务失败后能自动地重新部署( redeploy)计算任务。所以 Hadoop的按位存储和处理数据的能力值得人们信赖。
小结一点:Hadoop并不会跟某种具体的行业或者某个具体的行业挂钩,它只是一种用来做海量数据分析处理的工具。
集群介绍
HADOOP集群具体来说包含两个集群:HDFS集群和YARN集群,两者逻辑上分离,但物理上常在一起。
HDFS集群负责海量数据的存储,集群中的角色主要有:
NameNode(老大)、 DataNode(小弟)、 SecondaryNameNode(老大的秘书)
YARN集群负责海量数据运算时的资源调度,集群中的角色主要有:
ResourceManager(主角色)、NodeManager(从角色)
那 mapreduce是什么呢?它其实是一个分布式运算编程框架,是应用程序开发包,由用户按照编程规范进行程序开发,后打包运行在HDFS集群上,并且受到YARN集群的资源调度管理。
第一步:(这一步骤基本都是虚拟机的创建,以前的微博都有讲述,这里简单说明一下)
服务器的准备工作
我使用的是VMware Workstation pro虚拟机创建虚拟服务器来搭建Hadoop集群,使用的是如下的版本:
VMware Workstation Pro 12.0
Centos 6.7 64bit
网络环境的准备
采用NAT方式联网
可以通过编辑/etc/sysconfig/network-scripts/ifcfg-eth0这个配置文件来进行配置
注意 BOOTPROTO GATEWAY NETMASK等,可以参见前面的博客
服务器系统设置
同步时间
date -s "xxxx-xx-xx xx:xx:xx"类似这种格式---这种是手动配置
也可以网络同步时间
yum install ntpdate
ntpdate cn.pool.ntp.org
设置主机名
vim /etc/sysconfig/network
NETWORKING=yes
HOSTNAME="你的主机名"
配置IP、主机名映射
vim /etc/hosts
192.168.245.10 note-1 这个是主节点,下面两个是从节点
192.168.245.11 note-2
192.168.245.12 note-3 这里的note-x你可以取你习惯的任意的名字(例如master,slave1,slave2这样),我只是用这个来作为代号
配置ssh免密登陆
ssh是一个非对称的单向性的,一般配置主节点到从节点的免密登陆
#生成ssh免登陆密钥
ssh-keygen -t rsa (四个回车)
执行完这个命令后,会生成id_rsa(私钥) id_rsa.pub(公钥)
将公钥拷贝到要免密登陆的目标机器上
ssh-copy-id node-2(这个是对方的主机名)
配置防火墙
#关闭防火墙
service iptables stop
#关闭防火墙开机启动(也就是永久关闭)
chkconfig iptables off
第二步:JDK环境安装
#卸载原有的jdk(如果有的话,比如openjdk)
rpm -qa | grep java --- 查找原来JDK相关的安装
rpm -e --nodeps xxxxxxxxxxxxxxx ---卸载掉
#上传jdk安装包
jdk-8u65-linux-x64. tar. gz---我这里用的是这个,上传一般放在了/usr/local/src 这个文件下面
#解压安装包
tar zxvf jdk-8u65-linux-x64. tar. gz
#配置环境变量/etc/ profile
export JAVA_HOME=/usr/local/src/jdk1.8.0_65
export PATH=$PATH: $JAVA_HOME/bin
export CLASSPATH=.:$JAVA_HOME/lib/dt. jar: $JAVA_HOME/lib/tools. jar
这里注意一下,这里在/etc/profile这个文件中配置,是所有用户都会生效.当然也可以配置~/.bashrc这个文件,这个文件的优先级要高于/etc/profile文件,简单说就是在~/.bashrc中配置的与/etc/profile文件相同的内容,会使用~/.bashrc的.值得注意的是,~/.bashrc是针对单一用户而言的.不过我们学习,配置哪个都可以
#刷新配置
source /etc/profile
第三步:Hadoop的安装,安装包目录结构以及配置文件的修改(重点)
上传并解压 hadoop-2.7.4-with- centos-6.7.tar.gz 到/usr/local/src下
bin: Hadoop最基本的管理脚本和使用脚本的目录,这些脚本是sbin目录下管理脚本的基础实现,用户可以直接使用这些脚本管理和使用 Hadoop.(这个目录我们使用的比较少,我们大部分使用sbin目录中的内容,下面介绍)
etc: Hadoop配置文件所在的目录,包括core-site.Xml、hdfs-site.xml、mapred-site.xml等从 Hadoop1.0继承而来的配置文件和yarn-site.xml等Hadoop2.0新增的配置文件。
include:对外提供的编程库头文件(具体动态库和静态库在lib目录中),这些头文件均是用C++定义的,通常用于C++程序访问HDFS或者编写 MapReduce程序。
lib:该目录包含了 Hadoop对外提供的编程动态库和静态库,与 include目录中的头文件结合使用。
libexec:各个服务对用的 shell配置文件所在的目录,可用于配置日志输出、启动参数(比如JWM参数)等基本信息。
sbin: Hadoop管理脚本所在目录,主要包含HDFS和YARN中各类服务的启动/关闭脚本。
share: Hadoop各个模块编译后的jar包所在的目录。
配置文件的修改(仔细认真--重点)
可以这么说:Hadoop安装成功与否就是配置文件修改决定的,这里要仔细.Hadoop安装主要就是配置文件的修改,一般在主节点进行修改,完毕后scp下发给其他各个从节点机器。
第一个:hadoop-env.sh
文件中设置的是 Hadoop运行时需要的环境变量。 JAVA_HOME是必须设置的,即使我们当前的系统中设置了 JAVA_HOME,它也是不认识的,因为 Hadoop即使是在本机上执行,它也是把当前的执行环境当成远程服务器。
vim hadoop-env.sh
export JAVA HOME=/usr/local/src/jdk1.8.0_65(这里也可以理解为,不管你在系统环境是否配置了JAVA_HOME,至少在这里导入了JAVA_HOME,确保这个程序在使用时可以找到正确的JDK)
第二个:core-site.xml(核心配置)
vim core-site.xml
<configuration>
<!--指定Hadoop所使用的文件系统,默认用的是本地的文件系统-->
<property>
<name>fs.default.name</name> (通过解读hdfs://就可以知道使用的是HDFS文件系统,这里的ip是主节点)
<value>hdfs://192.168.245.10:9000</value>
</property>
<!--指定Hadoop运行时产生文件的存储目录,默是/tmp/hadoop-${user.name}-->
<property>
<name>hadoop.tmp.dir</name>
<value>/usr/local/src/hadoop-2.7.4/tmp</value>
</property>
</configuration>
第三个:hdfs-site.xml
<!--指定HDSFS副本的数量-->
<configuration>
<property>
<name>dfs.replication</name>
<value>3</value>
</property>
<!--这个是老大秘书的位置,后面说-->
<property>
<name>dfs.namenode.secondary.http-address</name>
<value>node-2:50090</value>
</property>
</configuration>
第四个:mapred-site.xml
mv mapred-site.xml.template mapred-site.xml
vim mapred-site.xml
<!--指定mr运行时框架,这里指定在yarn上,默认时local-->
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
第五个:yarn-site.xml(配置和yarn相关的东西)
<!--指定yarn的老大(ResourceManeger)的地址-->
<property>
<name>yarn.resourcemanager.hostname</name>
<value>node-1(也可以写ip)</value>
</property>
<!--NodeManager上运行的附属服务.需要配置成mapreduce_shuffle,暂时先记住-->
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
第六个:slaves文件,里面写上从节点的名称
vim slaves
这里面一行写一个节点名称(node-x),可以把所有节点都写上,也可以不写主节点--目前来看区别就是启动集群看主节点的进程有无Datanode节点.
第七个:将Hadoop添加到环境变量
这个其实应该算环境变量的配置,vim /etc/profile (或者~/.bashrc.根据你自己的来哦)
vim /etc/profile
export HADOOP_HOME=/usr/local/src/hadoop-2.7.4/
export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
配置完记得source /etc/profile
上面已经将暂时需要配置的配置文件修改好了,不过我们是在主节点上做的这些工作,下面需要将Hadoop的文件包分发给从节点.
scp -r /usr/local/src/hadoop-2.7.4/ root@node-2:/usr/local/src/
scp -r /usr/local/src/hadoop-2.7.4/ root@node-3:/usr/local/src/
scp -r /etc/profile root@node-2:/etc/
scp -r /etc/profile root@node-3:/etc/
记得从节点上也要 source /etc/profile
关于配置文件的的注意事项:
在Hadoop官网上有上图的示例,这里的配置文件中间都是default,这些个文件和我们配置的那些中间是site的配置文件是什么关系呢?我们点开第一个文件看一下,是下图
xxxx-default.xml 这里面配置的是Hadoop默认的配置选项,如果用户没有更改,那么这里的选项内容就会生效
xxxx-site.xml 这里是用户配置的自定义的配置选项
两者中,后者的优先级要大于前者,如果后者有配置的话,就会覆盖前者的默认配置
这里我们还要注意红色框中内容,这里是过时的属性,点开它显示如下
这里只是一部分,所以说每个版本的配置文件会有变化,假如以后我们发现配置了配置文件没有生效的话,我们可以联想到这里,是不是我们配置的内容是过时的.
1.启动方式
要启动 Hadoop集群,需要启动HDFS和YARN两个集群
注意:首次启动HDFS时,必须对其进行格式化操作。本质上是一些清理和准备工作,因为此时的HDFS在物理上还是不存在的。
hdfs namenode - format或者 hadoop namenode -format
关于hdfs的格式化:
首次启动需要进行格式化
格式化本质是进行文件系统的初始化操作创建一些自己所需要的文件
格式化之后 集群启动成功 后续再也不要进行格式化
格式化的操作在hdfs集群的主角色( namenode)所在的机器上操作
1.1.单节点逐个启动
在主节点上使用以下命令启动 HDFS NameNode:
hadoop-daemon.sh start namenode
在每个从节点上使用以下命令启动 HDFS DataNode:
hadoop-daemon.sh start datanode
在主节点上使用以下命令启动 Yarn ResourceManager:
yarn-daemon.sh start resourcemanager
在每个从节点上使用以下命令启动 Yarn nodemanager:
yarn-daemon.sh start nodemanager
以上脚本位于$HADOOP_PREFIX(hadoop的安装目录)/sbin下,如果想要停止某个节点上的某个角色,只需要把命令start改为stop
1.2.脚本一键启动
如果配置了etc/ hadoop/ slaves和ssh免密登录,则可以使用程序脚本启动所有 Hadoop两个集群的相关进程,在主节点所设定的机器上执行。
hdfs: $HADOOP_PREFIX/sbin/start-dfs sh
yarn: $HADOOP_PREFIX/sbin/start-yarn sh
停止集群:stop-dfs.sh、stop-yarn.sh
文章浏览阅读1k次。通过使用ajax方法跨域请求是浏览器所不允许的,浏览器出于安全考虑是禁止的。警告信息如下:不过jQuery对跨域问题也有解决方案,使用jsonp的方式解决,方法如下:$.ajax({ async:false, url: 'http://www.mysite.com/demo.do', // 跨域URL ty..._nginx不停的xhr
文章浏览阅读2k次。关于在 Oracle 中配置 extproc 以访问 ST_Geometry,也就是我们所说的 使用空间SQL 的方法,官方文档链接如下。http://desktop.arcgis.com/zh-cn/arcmap/latest/manage-data/gdbs-in-oracle/configure-oracle-extproc.htm其实简单总结一下,主要就分为以下几个步骤。..._extproc
文章浏览阅读1.5w次。linux下没有上面的两个函数,需要使用函数 mbstowcs和wcstombsmbstowcs将多字节编码转换为宽字节编码wcstombs将宽字节编码转换为多字节编码这两个函数,转换过程中受到系统编码类型的影响,需要通过设置来设定转换前和转换后的编码类型。通过函数setlocale进行系统编码的设置。linux下输入命名locale -a查看系统支持的编码_linux c++ gbk->utf8
文章浏览阅读750次。今天准备从生产库向测试库进行数据导入,结果在imp导入的时候遇到“ IMP-00009:导出文件异常结束” 错误,google一下,发现可能有如下原因导致imp的数据太大,没有写buffer和commit两个数据库字符集不同从低版本exp的dmp文件,向高版本imp导出的dmp文件出错传输dmp文件时,文件损坏解决办法:imp时指定..._imp-00009导出文件异常结束
文章浏览阅读143次。当下是一个大数据的时代,各个行业都离不开数据的支持。因此,网络爬虫就应运而生。网络爬虫当下最为火热的是Python,Python开发爬虫相对简单,而且功能库相当完善,力压众多开发语言。本次教程我们爬取前程无忧的招聘信息来分析Python程序员需要掌握那些编程技术。首先在谷歌浏览器打开前程无忧的首页,按F12打开浏览器的开发者工具。浏览器开发者工具是用于捕捉网站的请求信息,通过分析请求信息可以了解请..._初级python程序员能力要求
文章浏览阅读7.6k次,点赞2次,收藏6次。@Service标注的bean,类名:ABDemoService查看源码后发现,原来是经过一个特殊处理:当类的名字是以两个或以上的大写字母开头的话,bean的名字会与类名保持一致public class AnnotationBeanNameGenerator implements BeanNameGenerator { private static final String C..._@service beanname
文章浏览阅读6.9w次,点赞73次,收藏463次。1.前序创建#include<stdio.h>#include<string.h>#include<stdlib.h>#include<malloc.h>#include<iostream>#include<stack>#include<queue>using namespace std;typed_二叉树的建立
文章浏览阅读7.1k次。在Asp.net上使用Excel导出功能,如果文件名出现中文,便会以乱码视之。 解决方法: fileName = HttpUtility.UrlEncode(fileName, System.Text.Encoding.UTF8);_asp.net utf8 导出中文字符乱码
文章浏览阅读2.1k次,点赞4次,收藏23次。第一次实验 词法分析实验报告设计思想词法分析的主要任务是根据文法的词汇表以及对应约定的编码进行一定的识别,找出文件中所有的合法的单词,并给出一定的信息作为最后的结果,用于后续语法分析程序的使用;本实验针对 PL/0 语言 的文法、词汇表编写一个词法分析程序,对于每个单词根据词汇表输出: (单词种类, 单词的值) 二元对。词汇表:种别编码单词符号助记符0beginb..._对pl/0作以下修改扩充。增加单词
文章浏览阅读773次。我在使用adb.exe时遇到了麻烦.我想使用与bash相同的adb.exe shell提示符,所以我决定更改默认的bash二进制文件(当然二进制文件是交叉编译的,一切都很完美)更改bash二进制文件遵循以下顺序> adb remount> adb push bash / system / bin /> adb shell> cd / system / bin> chm..._adb shell mv 权限
文章浏览阅读6.8k次,点赞12次,收藏125次。1. 单目相机标定引言相机标定已经研究多年,标定的算法可以分为基于摄影测量的标定和自标定。其中,应用最为广泛的还是张正友标定法。这是一种简单灵活、高鲁棒性、低成本的相机标定算法。仅需要一台相机和一块平面标定板构建相机标定系统,在标定过程中,相机拍摄多个角度下(至少两个角度,推荐10~20个角度)的标定板图像(相机和标定板都可以移动),即可对相机的内外参数进行标定。下面介绍张氏标定法(以下也这么称呼)的原理。原理相机模型和单应矩阵相机标定,就是对相机的内外参数进行计算的过程,从而得到物体到图像的投影_相机-投影仪标定
文章浏览阅读2.2k次。文章目录Wayland 架构Wayland 渲染Wayland的 硬件支持简 述: 翻译一篇关于和 wayland 有关的技术文章, 其英文标题为Wayland Architecture .Wayland 架构若是想要更好的理解 Wayland 架构及其与 X (X11 or X Window System) 结构;一种很好的方法是将事件从输入设备就开始跟踪, 查看期间所有的屏幕上出现的变化。这就是我们现在对 X 的理解。 内核是从一个输入设备中获取一个事件,并通过 evdev 输入_wayland