spark---2018.4.19回顾_spark 2018 meeting up-程序员宅基地

技术标签： Spark 大数据

原有的环境已经有了。

现在要整理清楚，具体的步骤。

1.搭建Hadoop分布式集群

2.Spark安装和集群部署

3.测试Spark集群

步骤1详细：搭建Hadoop分布式集群

为什么要首先部署Hadoop集群？--由于我们在Spark集群中会用到Hadoop集群的HDFS(Hadoop Distributed File System)文件系统，

所以在部署Spark集群之前要首先部署Hadoop集群。Hadoop框架中最核心的设计是HDFS[存储]和MapReduce【计算】，此处计算框架

用SPARK,但存储框架还是用Hadoop的HDFS文件系统。

二台机器，一台机器作为Master结点(主结点)，另外一台作为Slaves结点(从结点)

Master---台式机 JDK 1.8.0_121-b13 amniominmi

Slaves---HP笔记本 JDK 1.8.0_73-b02 mz19m8912mz05m

1.1 为了简化权限等问题，需要以root用户的身份登录使用ubuntu系统.

1.2在两台机器上分别安装JDK，在命令终端查看JDK版本

cd /usr/lib/jvm/java

java -version

1.8.0_121-b13【台式机】和 1.8.0_73-b02【笔记本】

1.3 配置SSH免密码登录

ifconfig linux查看本机IP地址

根据ip地址直接登录 ssh ip地址

/etc/init.d/ssh start /etc/init.d/ssh stop /etc/init.d/ssh restart

需要注意的，在进行相互通信的时候，服务器端的SSH一定要开，客户端的好像不要管

SSH登录了另外一台电脑，如何退出 exit

1.4 安装Hadoop和搭建Hadoop分布式集群

修改主机名，配置主机名和IP对应关系 /etc/hosts

SparkMaster的配置文件 dfs中有name和data

配置SparkMaster的配置文件 etc是hadoop里面的etc

到此为止，基本全部实现，参考书籍为“Spark核心源码分析与开发实战”

启动HADOOP集群

sbin/start-all sh 或 sbin/start-dfs.sh 和 sbin/start-yarn.sh

关闭Hadoop集群也是在Master节点上执行：

sbin/stop-dfs.sh
sbin/stop-yarn.sh

步骤3详细： Spark安装和集群部署

spark-1.5.1 对应 scala-2.11.4

3.1 安装Scala

3.2 安装Spark

3.3 启动并测试集群的状况

在spark的sbin下启动 ./start-all.sh 关闭呢？./stop-all.sh

完全没问题！

进入spark的webUI页面： SparkMaster:8080

3.4测试 Spark集群

A 通过Spark提供的示例，测试成功 examples

B 通过Spark SHELL 测试Spark集群

草！！！！--------------

在我这命令是 hadoop fs -copyFromLocal README.md / 注意是/ 不是/data/ !!!!

可以看sparkmaster:50070 hadoop的HDFS 然后utilities下面的browse the file system

val rdd = sc.textFile("hdfs://SparkMaster:9000/README.md")

文件系统fs默认是 hdfs://SparkMaster:9000

-----------------------------------------------------------

4.25把上述过程再复现一次！---------没有问题！！！

本文链接：https://blog.csdn.net/qq_28088259/article/details/80004097

原作者删帖不实内容删帖广告或垃圾文章投诉

智能推荐

获取大于等于一个整数的最小2次幂算法（HashMap#tableSizeFor）_整数最小的2的几次方-程序员宅基地

文章浏览阅读2w次，点赞51次，收藏33次。一、需求给定一个整数，返回大于等于该整数的最小2次幂（2的乘方）。例：输入输出 -1 1 1 1 3 4 9 16 15 16二、分析当遇到这个需求的时候，我们可能会很容易想到一个"笨"办法：..._整数最小的2的几次方

Linux 中 ss 命令的使用实例_ss@,,x,, 0-程序员宅基地

文章浏览阅读865次。选项，以防止命令将 IP 地址解析为主机名。如果只想在命令的输出中显示 unix套接字连接，可以使用。不带任何选项，用来显示已建立连接的所有套接字的列表。如果只想在命令的输出中显示 tcp 连接，可以使用。如果只想在命令的输出中显示 udp 连接，可以使用。如果不想将ip地址解析为主机名称，可以使用。如果要取消命令输出中的标题行，可以使用。如果只想显示被侦听的套接字，可以使用。如果只想显示ipv4侦听的，可以使用。如果只想显示ipv6侦听的，可以使用。_ss@,,x,, 0

conda activate qiuqiu出现不存在activate_commandnotfounderror: 'activate-程序员宅基地

文章浏览阅读568次。CommandNotFoundError: 'activate'_commandnotfounderror: 'activate

Kafka 实战 - Windows10安装Kafka_win10安装部署kafka-程序员宅基地

文章浏览阅读426次，点赞10次，收藏19次。完成以上步骤后，您已在 Windows 10 上成功安装并验证了 Apache Kafka。在生产环境中，通常会将 Kafka 与外部 ZooKeeper 集群配合使用，并考虑配置安全、监控、持久化存储等高级特性。在生产者窗口中输入一些文本消息，然后按 Enter 发送。ZooKeeper 会在新窗口中运行。在另一个命令提示符窗口中，同样切换到 Kafka 的。Kafka 服务器将在新窗口中运行。在新的命令提示符窗口中，切换到 Kafka 的。，应显示已安装的 Java 版本信息。_win10安装部署kafka

【愚公系列】2023年12月 WEBGL专题-缓冲区对象_js 缓冲数据 new float32array-程序员宅基地

文章浏览阅读1.4w次。缓冲区对象（Buffer Object）是在OpenGL中用于存储和管理数据的一种机制。缓冲区对象可以存储各种类型的数据，例如顶点、纹理坐标、颜色等。在渲染过程中，缓冲区对象中存储的数据可以被复制到渲染管线的不同阶段中，例如顶点着色器、几何着色器和片段着色器等，以完成渲染操作。相比传统的CPU访问内存，缓冲区对象的数据存储和管理更加高效，能够提高OpenGL应用的性能表现。_js 缓冲数据 new float32array

四、数学建模之图与网络模型_图论与网络优化数学建模-程序员宅基地

文章浏览阅读912次。（1）图（Graph）：图是数学和计算机科学中的一个抽象概念，它由一组节点（顶点）和连接这些节点的边组成。图可以是有向的（有方向的，边有箭头表示方向）或无向的（没有方向的，边没有箭头表示方向）。图用于表示各种关系，如社交网络、电路、地图、组织结构等。（2）网络（Network）：网络是一个更广泛的概念，可以包括各种不同类型的连接元素，不仅仅是图中的节点和边。网络可以包括节点、边、连接线、路由器、服务器、通信协议等多种组成部分。网络的概念在各个领域都有应用，包括计算机网络、社交网络、电力网络、交通网络等。_图论与网络优化数学建模

随便推点

android 加载布局状态封装_adnroid加载数据转圈封装全屏转圈封装-程序员宅基地

文章浏览阅读1.5k次。我们经常会碰见正在加载中，加载出错， “暂无商品”等一系列的相似的布局，因为我们有很多请求网络数据的页面，我们不可能每一个页面都写几个“正在加载中”等布局吧，这时候将这些状态的布局封装在一起就很有必要了。我们可以将这些封装为一个自定布局，然后每次操作该自定义类的方法就行了。首先一般来说，从服务器拉去数据之前都是“正在加载”页面，加载成功之后“正在加载”页面消失，展示数据；如果加载失败，就展示_adnroid加载数据转圈封装全屏转圈封装

阿里云服务器（Alibaba Cloud Linux 3）安装部署Mysql8-程序员宅基地

文章浏览阅读1.6k次，点赞23次，收藏29次。PS: 如果执行sudo grep 'temporary password' /var/log/mysqld.log 后没有报错，也没有任何结果显示，说明默认密码为空，可以直接进行下一步（后面设置密码时直接填写新密码就行）。3.（可选）当操作系统为Alibaba Cloud Linux 3时，执行如下命令，安装MySQL所需的库文件。下面示例中，将创建新的MySQL账号，用于远程访问MySQL。2.依次运行以下命令，创建远程登录MySQL的账号，并允许远程主机使用该账号访问MySQL。_alibaba cloud linux 3