windows下使用pycharm配置pyspark环境

首先电脑中安装有java8和python. (注意配置好java的环境变量,自行搜索即可,不然后面在pycharm中运行会报错)

安装spark

1. 从官网下载spark安装 [http://spark.apache.org/downloads.html]
从github下载对应版本的hadoop放到一个目录里 [https://github.com/steveloughran/winutils]

2. 设置环境变量:
HADOOP_HOME=C:\winutils\hadoop-2.7.1
SPARK_HOME=C:\Spark\spark-2.2.0-bin-hadoop2.7
3. 创建一个目录tmp/hive
运行下面命令让该文件夹获取权限:
C:\winutils\hadoop-2.7.1\bin\winutils.exe chmod 777 C:\tmp\hive
4.验证是否spark安装成功:
C:\Spark\spark-2.2.0-bin-hadoop2.7>bin\spark-shell
windows下使用pycharm配置pyspark环境


pycharm设置
1. 创建一个虚拟环境File -> Settings -> Project Interpreter -> select Create Virtual Environment
2. 在Project Interpreter里,选择show all,选择新建的虚拟环境,点击Show paths for the selected interpreter
选项

windows下使用pycharm配置pyspark环境

3. 将一下两个path加入
D:/spark-2.4.3-bin-hadoop2.7/python
D:/spark-2.4.3-bin-hadoop2.7/python/lib/py4j-0.10.7-src.zip

windows下使用pycharm配置pyspark环境

最后,在pycharm中运行文件时,最前面加上(这是因为我上面配置好了各种环境变量还是各种提示没有JAVA_HOME环境变量和找不到hadoop,只好写上这两行):

import os
os.environ['JAVA_HOME'] = "C:\Program Files\Java\jdk1.8.0_161" # 你自己的java目录
os.environ['HADOOP_HOME'] = "D:\winutils\hadoop-2.7.1" # 你自己的hadoop目录

可以使用如下代码进行测试:

from pyspark import SparkContext
sc = SparkContext('local',"count app")
words = sc.parallelize(
    ['scala',
     'java',
     'hadoop',
     'spark',
     'pyspark']
)

counts = words.count()
print("number of words:",counts)


评论

Live Sex Cams Free