PySpark Exercises

A comprehensive collection of exercises and mini-projects using PySpark (Python API for Apache Spark). These materials were developed as part of Udacity's Learn Spark at Udacity course, providing hands-on experience with Apache Spark's core features and advanced capabilities.

🛠 Tech Stack

Python
PySpark
NumPy
pandas
Matplotlib
Jupyter Notebook
AWS
GitHub

📂 Repository Structure

.
├── data_wrangling_with_spark/          # Data processing fundamentals
│   ├── notebooks covering procedural vs functional programming
│   ├── Spark operations and lazy evaluation
│   ├── DataFrame operations and SQL
│   └── practice datasets
├── debugging_and_optimization/          # Performance tuning
│   └── exercises/
│       ├── data skewness handling
│       ├── broadcast joins
│       └── repartitioning strategies
├── machine_learning_with_spark/         # ML implementations
│   ├── feature engineering
│   ├── linear regression
│   ├── k-means clustering
│   └── model tuning
└── setting_up_spark_clusters_with_aws/  # AWS deployment
    ├── demo_code/
    └── exercises/
        ├── EMR cluster creation
        ├── script submission
        └── S3 integration

📚 Course Content

1. The Power of Spark

Introduction to Big Data ecosystem
MapReduce implementation
Fundamental Spark concepts

2. Data Wrangling with Spark

Functional programming principles
DataFrame operations and transformations
Spark SQL integration
Data input/output operations

3. Setting up Spark Clusters with AWS

EMR cluster deployment
AWS CLI integration
S3 data storage
Spark job submission

4. Debugging and Optimization

Data skewness handling
Broadcast join optimization
Partition management
Performance tuning strategies

5. Machine Learning with Spark

Feature engineering (numeric and text)
Linear regression implementation
K-means clustering
Model tuning and optimization
ML pipeline construction

🚀 Getting Started

Environment Setup
- Follow PySpark's official installation guide
- Set up Python environment with required dependencies
- Configure AWS credentials (for cluster-related exercises)
Running the Exercises
- Each directory contains Jupyter notebooks and Python scripts
- Start with the numbered notebooks in each section
- Solutions are provided for self-assessment

📝 Notes

Exercise solutions are available in corresponding *_solution notebooks
AWS-related exercises require active AWS credentials
Sample datasets are included in respective directories

🤝 Contributing

Feel free to submit issues and enhancement requests!

Name		Name	Last commit message	Last commit date
Latest commit History 18 Commits
data_wrangling_with_spark		data_wrangling_with_spark
debugging_and_optimization/exercises		debugging_and_optimization/exercises
machine_learning_with_spark		machine_learning_with_spark
setting_up_spark_clusters_with_aws		setting_up_spark_clusters_with_aws
the_power_of_spark		the_power_of_spark
.gitignore		.gitignore
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

PySpark Exercises

🛠 Tech Stack

📂 Repository Structure

📚 Course Content

1. The Power of Spark

2. Data Wrangling with Spark

3. Setting up Spark Clusters with AWS

4. Debugging and Optimization

5. Machine Learning with Spark

🚀 Getting Started

📝 Notes

🤝 Contributing

About

Releases

Packages

Languages

nabilshadman/pyspark-dataframe-sql-ml-exercises

Folders and files

Latest commit

History

Repository files navigation

PySpark Exercises

🛠 Tech Stack

📂 Repository Structure

📚 Course Content

1. The Power of Spark

2. Data Wrangling with Spark

3. Setting up Spark Clusters with AWS

4. Debugging and Optimization

5. Machine Learning with Spark

🚀 Getting Started

📝 Notes

🤝 Contributing

About

Topics

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages