-
Notifications
You must be signed in to change notification settings - Fork 0
/
pipeline.bash
77 lines (47 loc) · 4.29 KB
/
pipeline.bash
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
# Preparación
# Configure el entorno informático.
# Esto debe hacerse y probarse antes de la secuenciación, especialmente si se hará en un entorno sin acceso a Internet o donde sea lento o poco confiable.
# Una vez hecho esto, la bioinformática se puede realizar en gran medida fuera de línea.
# Solo la primera vez:
git clone https://github.com/artic-network/artic-ncov2019.git
cd artic-ncov2019
conda env remove -n artic-ncov2019
conda env create -f environment.yml
#Activar el entorno ARTIC
export PATH=/home/admin.cn02/miniconda3/bin:$PATH
source activate /home/admin.cn02/anaconda2/envs/artic-ncov2019
#basecalling
# Dirigirse a la carpeta donde está ont-guppy, pwd:
./guppy_basecaller -c dna_r9.4.1_450bps_fast.cfg -i /fast5_pass -s /Basecalling_file/ --cpu_threads_per_caller 34 -r --num_callers 4
# Cambiar la ruta donde están los fast5_pass (-i) y donde quedarán los fastq (-s)
# Demultiplexing
# Asignación por barcodes de los reads previamente llamados. Aquí es importante asignar correctamente el parámetro --barcode_kits para que se puedan asignar adecuadamente
./guppy_barcoder --require_barcodes_both_ends -i /Basecalling_file/ -s /Basecalling_file/barcodes --barcode_kits EXP-NBD196
# cambiar el -i por la carpeta donde quedaron las lecturas fastq con basecalling. Cambiar el -s que corresponde a la carpeta donde quedaran los archivos por barcode
# poner correctamente el --barcode_kits ya que con base en este se hace la asignación
# ya con las lecturas asignadas por barcode, se realiza el merge de lecturas por cada barcode y se realiza filtro de calidad.
# esto se realiza en la carpeta que fue creada para guardar los archivos resultantes del ensamblaje
artic guppyplex --min-length 400 --max-length 700 --directory /fastq_pass/barcode20 --prefix /Ensamblajes_Artic/Ensamblajes_file/codigo_interno_muestra
#cambiar el --directory. Allí para cada muestra se pone el barcode que corresponda que está fastq_pass y en --prefix se pone la carpeta del ensamblaje que se esté realizando
# y el código de muestra interno que corresponde a ese barcode en dicha corrida
#ensamblaje con fase final Con medaka
# Una alternativa al nanopolish a las variantes de llamada es usar medaka.
# Medaka es más rápido que el nanopolish y parece funcionar de manera casi equivalente en las pruebas.
# Para utilizar Medaka, se puede omitir el nanopolish al agregar el parámetro --medaka al comando:
artic minion --medaka --normalise 200 --threads 48 --scheme-directory /datagimur/GIMUR2/MM-zips/artic-ncov2019/primer_schemes --read-file /Ensamblajes_file/codigo_interno_barcodexx.fastq
--fast5-directory /fast5_pass nCoV-2019/V3 codigo_interno
#aquí se debe cambiar la ruta donde están los fast5_pass, la ruta donde está el ensamblaje en cuestión y el archivo generado en el paso anterior que
#tiene como nombre el código interno unido al barcode al que corresponde. Al final después de nCoV-2019/V3 se debe también poner el codigo_interno para
#que así genere los archivos del ensamblaje con ese prefijo
#el ensamblaje también se puede hacer con nanopolish en vez de con medaka así:
artic minion --normalise 200 --threads 48 --scheme-directory /datagimur/GIMUR2/MM-zips/artic-ncov2019/primer_schemes
--read-file /Ensamblajes_file/codigo_interno_barcodexx.fastq --fast5-directory /fast5_pass --sequencing-summary /sequencing_summary.txt nCoV-2019/V3 codigo_interno
#aquí se debe cambiar la ruta donde están los fast5_pass, la ruta donde está el ensamblaje en cuestión y el archivo generado en el paso anterior que
#tiene como nombre el código interno unido al barcode al que corresponde. Al final después de nCoV-2019/V3 se debe también poner el codigo_interno para
#que así genere los archivos del ensamblaje con ese prefijo
#adicionalmente se debe poner la ruta del archivo sequencing_summary que se encuentra dentro de los output en la carpeta de secuenciación
#o en la carpeta donde se hizo el basecalling dependiendo del caso
#copiar todas los consensus.fasta que está en cada uno de los archivos output del ensamblaje por barcode en una única carpeta
#posteriormente unir secuencias consenso para análisis de linaje y mutaciones
cat *.fasta | sed 's/>/\n>/g' | sed '1d' > nombre_corrida_consensus.fasta
#realizar las asignaciones por medio de PANGOLIN y la búsqueda de mutaciones por Nextclades