PySpark(二) 在IPython Notebook上使用Spark

上一篇博客: PySpark(一): Hadoop SingleNode部署下Spark on yarn

1. 准备

1. 将Hadoop启动
2. 安装:

  • Anaconda
  • 创建虚拟环境
    conda create -n venv python=2.7
  • 安装Ipython Notebook
    conda install ipython ipython-notebook
  • 启用虚拟环境
    source active venv

    2. 启动

  • 使用如下命令:*
    PYSPARK_DRIVER_PYTHON=ipython PYSPARK_DRIVER_PYTHON_OPTS="notebook" pyspark

3. 测试

可以按照如图所示的命令测试是否成功:
在这里插入图片描述


目录