Windows下PyCharm远程连接Spark_UserOrz的博客-程序员秘密_pycharm 远程连接spark

技术标签: python  spark  Spark  hadoop  

我这里的spark部署在虚拟机内,使用的版本为:

	python3.8
	hadoop3.3
	spark3.2
	java8

为了防止报错,在windows环境我也安装了python3.8和虚拟机同步
此时linux集群已经部署好了spark环境

1、配置Hadoop DLL

在编写spark时可能会用到hadoop的一些功能,所以需要配置hadoop的运行环境

文件可以在github上下载,https://github.com/cdarlint/winutils

因为没有对应的hadoop版本,我用的是对应hadoop3.1的文件,目前没有发现问题

在这里插入图片描述
下载完成后将bin目录的hadoop.dll文件复制进C盘的System32下
在这里插入图片描述

配置完成后,需要加上环境变量

变量名为HADOOP_HOME
变量值为 apache-hadoop-3.1.1-winutils-master文件的位置

在这里插入图片描述

2、下载pyspark库

本机的python版本最好和虚拟机保持一致,以免出现问题
可以使用anaconda创建虚拟环境

pip install pyspark

3、配置pycharm

3.1新建python工程,配置解释器

解释器选择之前创建的虚拟环境下的python.exe在这里插入图片描述

3.2远程连接linux的python解释器

点击pycharm左上角的File -> Settings,找到Python Interpreter
点击右上角的齿轮,选择add增加解释器
在这里插入图片描述

进入后选择SSH,填入主机名和用户名,点击next

因为linux我使用的也是anaconda安装python,且anaconda的所有者是用户user,所以我这里填的是user
在这里插入图片描述
然后填入登录密码在这里插入图片描述

然后填入linux下的python的位置,点击finish

在这里插入图片描述

完成后可以在pycharm的右下角选择解释器
在这里插入图片描述

4、一些环境变量

为了确保spark在运行时少出现问题,需要在windows配置一些环境变量

因为Spark程序是运行在JVM基础之上的,所以需要配置JAVA_HOME
在这里插入图片描述

PYSPARK_PYTHON指向python的解释器,这是为了本地模式能运行spark程序
在这里插入图片描述

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/jdsaiasodh/article/details/123261155

智能推荐

关于FT和TTa引脚作为数据IO时配置问题_我我我只会printf的博客-程序员秘密

虽然STM32F4内部带了RTC,但公司最近项目还是使用了外部时钟DS1302。以前只在51上用过,本以为在F4上移植只是简单更改一下,没想到却发现了一点问题。硬件使用的电路和下图类似:只不过三个IO上拉都使用了10K电阻,上拉所接的是3.3V。然后发现在同样的配置时,PA5-DIO,PA6-CLK,PA7-RST怎么也读不出来,但是使用PA3-DIO,PA2-CLK,PA1-RST或者PC0-CLK,PC1-RST,PC3-DIO就可以。最后发现CLK和RST用哪个引脚没关系,只和DIO有关。查

关于NoSuchMethodException的一个解决思路_Piggy926的博客-程序员秘密

前言:今天写完接口测试的时候,postman报错,错误码为500,提示NoSuchMethod,虽然明显是服务器错误,不过报错信息在Tomcat Localhost Log里面,定位到代码之后,发现是Jackson.toJsonString()方法没有找到。但是用@Test注解修饰的方法,调用上面找到的方法却没有问题,不过第一反应还是排查一下包是不是重复了,结果并没有。这就挺令人费解了,因为另一个项目的包目录与这个项目类似,使用起来并没有问题,百度也没有找到合适的方法。想了半天,突然反应过来,测试时

(AAAI-2019)STA:用于大规模基于视频的行人重识别的时空注意力_顾道长生'的博客-程序员秘密_sta模型

STA:用于大规模基于视频的行人重识别的时空注意力paper题目:STA: Spatial-Temporal Attention for Large-Scale Video-Based Person Re-Identificationpaper是贝克曼研究所发表在AAAI-2019的工作paper地址:链接Abstract这项工作提出了一种新颖的时空注意力 (STA) 方法来解决视频中的大规模行人重识别任务。与大多数现有的方法不同,这些方法简单地使用帧级聚合(例如平均池化)来计算视频剪

【算法笔记】递归树应用实例:计算归并排序平均时间复杂度__gamer的博客-程序员秘密

递归树递归树是迭代的图形表示,可用于求解递推方程。例1:利用递归树计算归并排序的平均时间复杂度。归并排序伪代码:MergeSort(A,p,r){ if(p<r) { q = (p+r)/2; MergeSort(A,p,q); MergeSort(A,q+1,r); Merge(A,p,q,r); //合并两个子数组 } }根据以上的伪代码,可以写...

深入浅出Linux内核内存管理基础_Smith先生的博客-程序员秘密_内核内存管理

1 背景知识1.1 用户空间与内核空间内存的划分       从Linux操作系统层次上,内存可划分为用户空间内存和内核空间内存。       32位的CPU,最大寻址范围为2^32 - 1也就是4G的线性地址空间。Linux简化了分段机制,使得虚拟地址与线性地址总是一致的。Linux一般把这个4G的地址空间划分为两个部分:其中 0~3G为用户程序地址空间,虚地址0x00000000到

数据库的分页查询---by wjf(2020.5.17)_A-Jeffrey的博客-程序员秘密

在我们实际的项目开发之后,数据库里的数据很有可能是成千上万的,那我们肯定不可能一下子就把全部的数据都取出来,这样子电脑可能会受不了,所以这时候就需要用到数据库的分页查询了。分页查询逻辑图如下:首先第一步我们先编写pager实体类package cn.edu.mju.project1.util;import java.util.List;//首先写辅助类public class Pager { private int page = 1; //当前页号 private int

随便推点

Android路径中提取文件名_dreamtdp的博客-程序员秘密_android 获取文件名

从Android路径中提取文件名,有许多种方法,下面介绍两种比较好的方法。方法一:利用String类?12345678910public String getFileName(String pathandname){    int start=pa

js如何运行linux,如何在Javascript中执行shell命令_weixin_39935319的博客-程序员秘密

您的示例foo.js文件可能如下所示:import{exec}from'child_process';/***Executesimpleshellcommand(asyncwrapper).*@param{String}cmd*@return{Object}{stdout:String,stderr:String}*/asyncfunctionsh(...

hadoop漏洞_Hadoop Yarn REST API未授权漏洞利用挖矿分析_weixin_39624716的博客-程序员秘密

*本文中涉及到的相关漏洞已报送厂商并得到修复,本文仅限技术研究与讨论,严禁用于非法用途,否则产生的一切后果自行承担。一、背景5月5日腾讯云安全团队曾针对“攻击者利用Hadoop Yarn资源管理系统REST API未授权漏洞对服务器进行攻击,攻击者可以在未授权的情况下远程执行代码”的安全问题进行预警,在预警的前后我们曾多次捕获相关的攻击案例,其中就包含利用该问题进行挖矿,我们针对其中一个案例进行分...

20162309《程序设计与数据结构》第二学期课程总结_aoyi8281的博客-程序员秘密

每周作业链接汇总1.http://www.cnblogs.com/Metwox/p/7501901.html第一周作业,简要内容:学习基本的算法分析,了解算法复杂度的基本内容。2.http://www.cnblogs.com/Metwox/p/7536289.html第二周作业,简要内容:教材第13章内容,学习排序和查找,了解几种查找方式的区别和联系。3.http://www.cn...

推荐文章

热门文章

相关标签