- Hadoop 과 Spark를 공부하며, 정리한 pdf 그리고 실습 코드입니다.
- 매우 기본적인 basic 들입니다.
- 목표
-
Hadoop 설치 및 실행
-
Yarn 설치 및 실행 (Hadoop 설치시 자동설치)
-
Spark 설치 및 실행 (따로 설치)
-
JupyterNotebook 에서 pyspark library 를 활용 Spark 에 접속 및 아래 목표들을 확인
a. Acceessing Data on Spark
b. Data processing using SparkSession
c. Using SQL query on SparkSession
d. Plot graph using Spark Dataframe
-
├── 1_HadoopCLIBasicCommands.md : Basic Hadoop CLI commands
├── 2_SparkShellBasicCommands.md : Basic Spark Shell commands
├── 3_spark_sample_code.ipynb : Basics example using Pyspark on Jupyter Notebook
├── README.md
└── sumamry_pdf
└── spark_summary.pdf
Troubleshooting (Hadoop: Setting up a Single Node Cluster)
Apache Hadoop
아파치 스파크 입문
Hadoop: Setting up a Single Node Cluster
Receive Operation Not Permitted Error when starting HDFS
Hadoop on MAC pseudo node : nodename nor servname provided, or not known
스파크 정리