ivtavares · ivanbarcelos90 · Mar 9, 2024 · Mar 9, 2024 · ivtavares · Mar 13, 2024
diff --git a/app_name/jobs/audit_bronze_to_silver.py b/app_name/jobs/audit_bronze_to_silver.py
@@ -1,6 +1,7 @@
 from app_name.configs.spark_helper import create_delta_lake_session
 from pyspark.sql import functions as F
 
+
 # variable path
 bronze_audit_path = "s3://bronze/auditoria_municipal/6-siap-net-orgaos-municipais-autoridades-2016.csv"
 silver_audit_path = "s3://silver/auditoria_municipal/"
@@ -9,12 +10,13 @@
 # bronze to silver function
 def audit_bronze_to_silver(bronze_path: str, silver_path: str):
     spark = create_delta_lake_session('auditoria')
+    spark.conf.set('spark.sql.sources.partitionOverwriteMode', 'dynamic')
 
     # Create df
     auditoria_df = (spark.read.option("delimiter", ";") 
-                          .option("header", True)
-                          .option('encoding', 'ISO-8859-1') 
-                          .csv(bronze_path))
+                              .option("header", True)
+                              .option('encoding', 'ISO-8859-1') 
+                              .csv(bronze_path))     
 
     # Change Schema
     auditoria_df_01 = auditoria_df.select(F.col('CodigoMunicipio').cast('int')  

diff --git a/app_name/jobs/despesas_bronze_to_silver.py b/app_name/jobs/despesas_bronze_to_silver.py
@@ -1,6 +1,7 @@
 from app_name.configs.spark_helper import create_delta_lake_session
 from pyspark.sql import functions as F
 
+
 # variable path
 bronze_despesas_path = "s3://bronze/despesas/despesas-2023.csv"
 silver_despesas_path = "s3://silver/despesas/"
@@ -9,6 +10,7 @@
 # bronze to silver function
 def despesas_bronze_to_silver(bronze_path: str, silver_path: str):
     spark = create_delta_lake_session('auditoria')
+    spark.conf.set('spark.sql.sources.partitionOverwriteMode', 'dynamic')
 
     # Create df
     despesas_df = (spark.read.option("delimiter", ";") 

diff --git a/app_name/jobs/general_etl.py b/app_name/jobs/general_etl.py
@@ -0,0 +1,27 @@
+from app_name.configs.spark_helper import create_delta_lake_session
+from pyspark.sql import functions as F
+from pyspark.sql.types import *
+
+
+# bronze to silver function
+def bronze_to_silver(bronze_path: str, silver_path: str, schema:str, partition:str, file_type:str):
+    spark = create_delta_lake_session('bronze_to_silver')
+    spark.conf.set('spark.sql.sources.partitionOverwriteMode', 'dynamic')  
+
+    if file_type=='csv':         
+
+        # Create df
+        df = (spark.read.option("delimiter", ";") 
+                        .option("header", True)
+                        .option('encoding', 'ISO-8859-1') 
+                        .option('dateFormat', 'dd-MM-yyyy')
+                        .schema(schema)
+                        .csv(bronze_path))     
+
+        # write df to parquet
+        df.write.parquet(path=silver_path, mode="overwrite", partitionBy=partition)     
+
+        spark.stop()
+
+    else:
+        print('Error: wrong file type!')
diff --git a/app_name/jobs/main.py b/app_name/jobs/main.py
@@ -0,0 +1,33 @@
+from general_etl import bronze_to_silver
+from pyspark.sql.types import *
+
+
+# variable
+bronze_audit_path = "s3://bronze/auditoria_municipal/6-siap-net-orgaos-municipais-autoridades-2016.csv"
+silver_audit_path = "s3://silver/auditoria_municipal/"
+partition="AnoExercicio"
+file_type='csv'
+
+audit_schema=StructType([
+
+     StructField('CodigoMunicipio',IntegerType(), True)
+    ,StructField('NomeMunicipio',StringType(), True)
+    ,StructField('CodigoTipoOrgao',IntegerType(), True)   
+    ,StructField('NomeTipoOrgao',StringType(), True) 
+    ,StructField('AnoExercicio',IntegerType(), True)
+    ,StructField('SequenciaOrgao',IntegerType(), True)
+    ,StructField('NomeOrgao',StringType(), True) 
+    ,StructField('CodigoAutoridade',IntegerType(), True)
+    ,StructField('Trata',StringType(), True) 
+    ,StructField('mentoAutoridade',StringType(), True) 
+    ,StructField('CargoAutoridade',StringType(), True) 
+    ,StructField('SequenciaAutoridade',IntegerType(), True)
+    ,StructField('Nome',StringType(), True) 
+    ,StructField('Sexo',StringType(), True) 
+    ,StructField('InicioMandato',DateType(), True) 
+    ,StructField('FimMandato',DateType(), True) 
+])
+
+
+if __name__ == '__main__':
+    bronze_to_silver(bronze_audit_path, silver_audit_path, audit_schema, partition, file_type)