UMCUGenetics · melferink · Sep 10, 2024 · Oct 4, 2024 · Oct 4, 2024 · Oct 8, 2024
diff --git a/ParseCNVQC/parse_cnv_qc.py b/ParseCNVQC/parse_cnv_qc.py
@@ -62,6 +62,51 @@ def make_mail(today, daysago, attachment, run_status):
     send_email(settings.email_from, settings.email_to, subject, text, attachment)
 
 
+def include_sample_number(folder, rawfolder, projects, warnings):
+    """
+    Determine number of samples in a run based on the SampleSheet.
+    Only includes samples that are in predefined projects as stated in settings file.
+    Includes a warning if Samplesheet.csv is not detected in the raw data folder
+
+    Args:
+        folder (string): full path to raw data folder
+        rawfolder (dict):
+            key: full path to raw data folder, values: list of all processed folder from run, total number of samples (int)
+        projects (list): projectIDs to include in total sample calculation. Excludes i.e. non-dx projects in calculations
+        warnings (list): List with warning messages
+
+    Returns:
+        rawfolder (dict): rawfolder including sample count
+        warnings (list): message list including potential new warnings
+    """
+    number_samples_run = 0
+    lanes = []
+    lane_index = ""
+    if os.path.exists("{}/SampleSheet.csv".format(folder)):
+        with open("{}/SampleSheet.csv".format(folder), 'r') as samplesheet:
+            sample_section = False
+            for line in samplesheet:
+                if sample_section:
+                    for project in projects:
+                        if project in line.upper():
+                            number_samples_run += 1
+                            if line.split(",")[lane_index] not in lanes:
+                                lanes.append(line.split(",")[lane_index])
+                if "Sample_ID" not in line:
+                    continue
+                else:
+                    sample_section = True
+                    header = [column for column in line.split(",")]
+                    lane_index = header.index('Lane')
+    else:
+        warnings.append("no samplesheet for run {}, assuming unknown number of samples in run".format(folder))
+
+    # prevent division by zero.
+    if len(lanes) > 0:
+        rawfolder[folder][1] += number_samples_run/len(lanes)
+    return rawfolder, warnings
+
+
 if __name__ == "__main__":
     parser = argparse.ArgumentParser()
     parser.add_argument(
@@ -121,23 +166,9 @@ def make_mail(today, daysago, attachment, run_status):
                 rawfolder[run_path] = [[], 0]
             rawfolder[run_path][0].append(folder)
 
+    # Get number of samples for each run
     for folder in rawfolder:
-        number_samples_run = 0
-        if os.path.exists("{}/SampleSheet.csv".format(folder)):
-            with open("{}/SampleSheet.csv".format(folder), 'r') as samplesheet:
-                sample_section = False
-                for line in samplesheet:
-                    if sample_section:
-                        for project in settings.projects:
-                            if project in line.upper():
-                                number_samples_run += 1
-                    if "Sample_ID" not in line:
-                        continue
-                    else:
-                        sample_section = True
-        else:
-            warnings.append("no samplesheet for run {}, assuming unknown number of samples in run".format(folder))
-        rawfolder[folder][1] += number_samples_run
+        rawfolder, warnings = include_sample_number(folder, rawfolder, settings.projects, warnings)
 
     folder_summary = {}
     sample_qc = []

diff --git a/ParseCNVQC/tests/__init__.py b/ParseCNVQC/tests/__init__.py
diff --git a/ParseCNVQC/tests/run1/SampleSheet.csv b/ParseCNVQC/tests/run1/SampleSheet.csv
@@ -0,0 +1,20 @@
+[Header],
+
+[Reads]
+
+[Sequencing_Settings]
+
+[BCLConvert_Settings]
+
+[BCLConvert_Data]
+Lane,Sample_ID,Index,Index2,OverrideCycles,Sample_Project,AdapterRead1,AdapterRead2
+1,SAMPLE1,AGCGAGTT,TACGGCGA,U5Y145N1;I8N11;N2I8;U5Y145N1,CREv4_1,AGATCGGAAGAGCACACGTCTGAACTCCAGTCA,AGATCGGAAGAGCGTCGTGTAGGGAAAGAGTGT
+1,SAMPLE2,CAGTTGCG,AACGCATT,U5Y145N1;I8N11;N2I8;U5Y145N1,SSv7_1,AGATCGGAAGAGCACACGTCTGAACTCCAGTCA,AGATCGGAAGAGCGTCGTGTAGGGAAAGAGTGT
+1,SAMPLE3,CAGTTGCG,AACGCATT,U5Y145N1;I8N11;N2I8;U5Y145N1,NICU_1,AGATCGGAAGAGCACACGTCTGAACTCCAGTCA,AGATCGGAAGAGCGTCGTGTAGGGAAAGAGTGT
+2,SAMPLE1,AGCGAGTT,TACGGCGA,U5Y145N1;I8N11;N2I8;U5Y145N1,CREv4_1,AGATCGGAAGAGCACACGTCTGAACTCCAGTCA,AGATCGGAAGAGCGTCGTGTAGGGAAAGAGTGT
+2,SAMPLE2,CAGTTGCG,AACGCATT,U5Y145N1;I8N11;N2I8;U5Y145N1,SSv7_1,AGATCGGAAGAGCACACGTCTGAACTCCAGTCA,AGATCGGAAGAGCGTCGTGTAGGGAAAGAGTGT
+2,SAMPLE3,CAGTTGCG,AACGCATT,U5Y145N1;I8N11;N2I8;U5Y145N1,NICU_1,AGATCGGAAGAGCACACGTCTGAACTCCAGTCA,AGATCGGAAGAGCGTCGTGTAGGGAAAGAGTGT
+3,SAMPLE1,AGCGAGTT,TACGGCGA,U5Y145N1;I8N11;N2I8;U5Y145N1,CREv4_1,AGATCGGAAGAGCACACGTCTGAACTCCAGTCA,AGATCGGAAGAGCGTCGTGTAGGGAAAGAGTGT
+3,SAMPLE2,CAGTTGCG,AACGCATT,U5Y145N1;I8N11;N2I8;U5Y145N1,SSv7_1,AGATCGGAAGAGCACACGTCTGAACTCCAGTCA,AGATCGGAAGAGCGTCGTGTAGGGAAAGAGTGT
+3,SAMPLE3,CAGTTGCG,AACGCATT,U5Y145N1;I8N11;N2I8;U5Y145N1,NICU_1,AGATCGGAAGAGCACACGTCTGAACTCCAGTCA,AGATCGGAAGAGCGTCGTGTAGGGAAAGAGTGT
+
diff --git a/ParseCNVQC/tests/run3/SampleSheet.csv b/ParseCNVQC/tests/run3/SampleSheet.csv
@@ -0,0 +1,20 @@
+[Header],
+
+[Reads]
+
+[Sequencing_Settings]
+
+[BCLConvert_Settings]
+
+[BCLConvert_Data]
+Lane,Sample_ID,Index,Index2,OverrideCycles,Sample_Project,AdapterRead1,AdapterRead2
+1,SAMPLE1,AGCGAGTT,TACGGCGA,U5Y145N1;I8N11;N2I8;U5Y145N1,CREv4_1,AGATCGGAAGAGCACACGTCTGAACTCCAGTCA,AGATCGGAAGAGCGTCGTGTAGGGAAAGAGTGT
+1,SAMPLE2,CAGTTGCG,AACGCATT,U5Y145N1;I8N11;N2I8;U5Y145N1,SSv7_1,AGATCGGAAGAGCACACGTCTGAACTCCAGTCA,AGATCGGAAGAGCGTCGTGTAGGGAAAGAGTGT
+1,SAMPLE3,CAGTTGCG,AACGCATT,U5Y145N1;I8N11;N2I8;U5Y145N1,NICU_1,AGATCGGAAGAGCACACGTCTGAACTCCAGTCA,AGATCGGAAGAGCGTCGTGTAGGGAAAGAGTGT
+2,SAMPLE1,AGCGAGTT,TACGGCGA,U5Y145N1;I8N11;N2I8;U5Y145N1,CREv4_1,AGATCGGAAGAGCACACGTCTGAACTCCAGTCA,AGATCGGAAGAGCGTCGTGTAGGGAAAGAGTGT
+2,SAMPLE2,CAGTTGCG,AACGCATT,U5Y145N1;I8N11;N2I8;U5Y145N1,SSv7_1,AGATCGGAAGAGCACACGTCTGAACTCCAGTCA,AGATCGGAAGAGCGTCGTGTAGGGAAAGAGTGT
+2,SAMPLE3,CAGTTGCG,AACGCATT,U5Y145N1;I8N11;N2I8;U5Y145N1,NICU_1,AGATCGGAAGAGCACACGTCTGAACTCCAGTCA,AGATCGGAAGAGCGTCGTGTAGGGAAAGAGTGT
+3,SAMPLE1,AGCGAGTT,TACGGCGA,U5Y145N1;I8N11;N2I8;U5Y145N1,CREv4_1,AGATCGGAAGAGCACACGTCTGAACTCCAGTCA,AGATCGGAAGAGCGTCGTGTAGGGAAAGAGTGT
+3,SAMPLE2,CAGTTGCG,AACGCATT,U5Y145N1;I8N11;N2I8;U5Y145N1,SSv7_1,AGATCGGAAGAGCACACGTCTGAACTCCAGTCA,AGATCGGAAGAGCGTCGTGTAGGGAAAGAGTGT
+3,SAMPLE3,CAGTTGCG,AACGCATT,U5Y145N1;I8N11;N2I8;U5Y145N1,NICU_1,AGATCGGAAGAGCACACGTCTGAACTCCAGTCA,AGATCGGAAGAGCGTCGTGTAGGGAAAGAGTGT
+
diff --git a/ParseCNVQC/tests/test_parse_cnv_qc.py b/ParseCNVQC/tests/test_parse_cnv_qc.py
@@ -0,0 +1,23 @@
+#!/usr/bin/env python
+import pytest
+
+from parse_cnv_qc import include_sample_number
+
+
+def test_include_sample_number():
+    folder1 = "./run1"
+    folder2 = "./run2"
+    folder3 = "./run3"
+    rawfolder_run1 = {"./run1": [["run1"], 0]}
+    rawfolder_run2 = {"./run2": [["run2"], 0]}
+    rawfolder_run3 = {"./run3": [["run3"], 0]}
+    projects1 = ["CREV4", "NICU"]
+    projects2 = ["WGS"]
+
+    assert include_sample_number(folder1, rawfolder_run1, projects1, [])[0] == {"./run1": [["run1"], 2]}
+    assert include_sample_number(folder1, rawfolder_run1, projects1, [])[1] == []
+    assert include_sample_number(folder2, rawfolder_run2, projects1, [])[0] == {"./run2": [["run2"], 0]}
+    assert include_sample_number(folder2, rawfolder_run2, projects1, [])[1] == [
+        f"no samplesheet for run {folder2}, assuming unknown number of samples in run"
+    ]
+    assert include_sample_number(folder3, rawfolder_run3, projects2, [])[0] == {"./run3": [["run3"], 0]}