Big Data - Project 1

Group: MielPops

Members: Gaetano Bonofiglio, Veronica Iovinella

Assignment: http://torlone.dia.uniroma3.it/bigdata/PrimoProgetto.pdf

Dataset: http://torlone.dia.uniroma3.it/bigdata/FineFoodReviews.zip

Requirements

Hadoop >2.7, Hive >1.0, Spark >1.6

Instructions

Download the dataset and load it on your HDFS.
Import code as Maven project and run as Maven install.
To run MapReduce jobs (replace NUMBER with the job number, optional arguments are between "()"):

# additional arguments like the number of mapreduce tasks or the range of the years for Job1
yarn jar /path/to/project1-mapreduce-mielpops.jar "project1.JobNUMBER" /path/to/input_data (/path/to/intermediate_file_for_Job3Ver1) /path/to/output (additional arguments)

To run Hive jobs:

# the query inside the hql file will load data from your file system to Hive tables om HDFS. Edit paths accordingly.
hive -f /path/to/jobNUMBER.hql

To run Spark jobs:

# in the tests we also used --master yarn --driver-memory 7g --executor-memory 3g --num-executors 19
spark-submit --class project1.JobNUMBER /path/to/project1-spark-mielpops.jar /path/to/input_data /path/to/output

Name		Name	Last commit message	Last commit date
Latest commit History 84 Commits
Project1-hive		Project1-hive
Project1-mapreduce		Project1-mapreduce
Project1-spark		Project1-spark
images		images
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md
Rapporto Finale.docx		Rapporto Finale.docx
Rapporto Finale.md		Rapporto Finale.md
Rapporto Finale.pdf		Rapporto Finale.pdf
log_test_hive.txt		log_test_hive.txt
log_test_mapreduce.txt		log_test_mapreduce.txt
log_test_spark.txt		log_test_spark.txt
plots.ipynb		plots.ipynb
pseudo-mapreduce.md		pseudo-mapreduce.md
results_job1_dataset1.txt		results_job1_dataset1.txt
results_job2_dataset1.txt		results_job2_dataset1.txt
results_job3_dataset1.txt		results_job3_dataset1.txt
test_output_hive.txt		test_output_hive.txt
test_output_mapreduce.txt		test_output_mapreduce.txt
test_output_spark.txt		test_output_spark.txt
time_results.csv		time_results.csv

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Big Data - Project 1

Requirements

Instructions

About

Releases

Packages

Contributors 2

Languages

License

BigData-MielPops/Project1

Folders and files

Latest commit

History

Repository files navigation

Big Data - Project 1

Requirements

Instructions

About

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Contributors 2

Languages

Packages