Skip to content

philhoonoh/spark

Repository files navigation

Spark

  • Hadoop 과 Spark를 공부하며, 정리한 pdf 그리고 실습 코드입니다.
  • 매우 기본적인 basic 들입니다.
  • 목표
    • Hadoop 설치 및 실행

    • Yarn 설치 및 실행 (Hadoop 설치시 자동설치)

    • Spark 설치 및 실행 (따로 설치)

    • JupyterNotebook 에서 pyspark library 를 활용 Spark 에 접속 및 아래 목표들을 확인

      a. Acceessing Data on Spark

      b. Data processing using SparkSession

      c. Using SQL query on SparkSession

      d. Plot graph using Spark Dataframe

Directory File Description

├── 1_HadoopCLIBasicCommands.md : Basic Hadoop CLI commands
├── 2_SparkShellBasicCommands.md : Basic Spark Shell commands
├── 3_spark_sample_code.ipynb : Basics example using Pyspark on Jupyter Notebook 
├── README.md
└── sumamry_pdf
    └── spark_summary.pdf

Error Trouble Shooting

Troubleshooting (Hadoop: Setting up a Single Node Cluster)

Ref

Apache Hadoop
아파치 스파크 입문
Hadoop: Setting up a Single Node Cluster
Receive Operation Not Permitted Error when starting HDFS
Hadoop on MAC pseudo node : nodename nor servname provided, or not known
스파크 정리

About

spark study

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published