Control de Calidad
& preprocesamiento NGS
Interpretación de FastQC en contexto real y construcción de pipelines de trimming/filtrado reproducibles. Datasets con artefactos, contaminación y sesgos. Evaluación sumativa y certificación de competencias. Alineado NTC-ISO 21001.
Qué es
Taller para dominar fundamentos y herramientas de control de calidad (QC) y preprocesamiento de datos NGS. A diferencia de tutoriales con datos artificialmente limpios, empleamos datasets reales con artefactos técnicos, errores de secuenciación, contaminación y sesgos sistemáticos. Los participantes dominarán FastQC para interpretar los 12 módulos de análisis, distinguiendo entre warnings cosméticos y problemas genuinos según contexto experimental (WGS, RNA-Seq, Metagenómica, Amplicón ITS).
Qué incluye
- Fundamentos: tecnologías NGS (Illumina, PacBio, Nanopore), formatos FASTQ, SAM/BAM, scores Phred y tipos de datos (shotgun vs amplicon).
- Interpretación de FastQC (12 módulos) según el contexto experimental (WGS, RNA-Seq, Metagenómica, Amplicón).
- Trimming/filtrado con Trimmomatic, cutadapt y fastp (comparación de estrategias).
- Detección/filtrado de contaminación (adapters, PhiX, host, cross-sample, reactivos) con BBDuk, FastQ_Screen, KneadData, Hostile, sourmash y decontam (R).
- Corrección de errores basada en k-mers: comprender limitaciones y trade-offs.
- QC de lecturas largas (PacBio HiFi/CLR, ONT) con NanoPlot, PycoQC, LongQC y Dorado basecalling.
- QC específico para amplicones ITS con ITSx/ITSxpress y base de datos UNITE.
- QC profundo sobre archivos BAM: read_distribution, geneBody_coverage, junction_saturation (RSeQC), QualiMap bamqc/rnaseq, Picard CollectMultipleMetrics.
- Pipelines QC reproducibles usando contenedores Docker/Singularity.
- Estándares ISO 15189 y guías CLIA/CAP/AMP para validación clínica de datos NGS.
- Reportes reproducibles con MultiQC y documentación de decisiones para auditorías.
- 6 casos de estudio: RNA-Seq trimming inadecuado, metagenoma sin host removal, amplicón contaminado, sobrecorrección k-mer, batch effect NovaSeq, ONT sin SUP.
Contenido (14 módulos)
- Módulo 1 — Fundamentos: NGS y FASTQ: Illumina (química, plataformas), shotgun vs amplicon, Unix básico, FASTQ (estructura, Phred scores, ASCII). Ejercicio: explorar FASTQ con Unix.
- Módulo 2 — Diagnóstico: FastQC: instalación, 12 módulos de análisis, interpretación por contexto (WGS/RNA-Seq/Metagenómica). Ejercicio: datasets problemáticos vs alta calidad.
- Módulo 3 — Corrección: Trimming: Trimmomatic, cutadapt, fastp, comparación de herramientas. Ejercicio: pipeline RNA-Seq + validación FastQC.
- Módulo 4 — Integración: MultiQC y BBDuk: agregación de reportes, filtrado k-mers (PhiX, host), contaminación cross-sample. Ejercicio: pipeline metagenómico.
- Módulo 5 — Validación: Error correction, duplicados PCR, batch effects (criterios y trade-offs). Ejercicio: pre/post correction.
- Módulo 6 — Proyecto final: Pipeline completo QC, documentación metodológica y reporte MultiQC.
- Módulo 7 — Lecturas largas: QC de PacBio (CCS/HiFi, subreads) y ONT (Dorado basecalling FAST/HAC/SUP). NanoPlot, PycoQC, LongQC. N50, filtrado por calidad por plataforma.
- Módulo 8 — ITS Amplicón: ITS como biomarcador fúngico. ITS1 vs ITS2, ITSx/ITSxpress, UNITE, homopolímeros, diferencias con 16S.
- Módulo 9 — Metagenómica avanzada: FastQ_Screen, KneadData/BBSplit, sourmash MinHash, Hostile, decontam (R). Contaminación cruzada, reactivos, baja biomasa.
- Módulo 10 — BAM QC: RSeQC (read_distribution, geneBody_coverage, junction_saturation, read_duplication), QualiMap bamqc/rnaseq, Picard CollectMultipleMetrics, samtools flagstat.
- Módulo 11 — Herramientas extra: Falco (FastQC Rust), seqtk (sampleo/trim), SeqFu (stats/kmers), PRINSEQ (complejidad), fastQValidator, FASTX-Toolkit.
- Módulo 12 — Workflows: Docker/Singularity, construcción de pipeline QC completo con scripts bash, automatización y monitoreo.
- Módulo 13 — ISO/Clínico: ISO 15189:2022 traducido a NGS, CLIA/CAP/AMP, GIAB, IQC/EQA, métricas de validación (sensibilidad, PPV, F1), umbrales de aceptación.
- Módulo 14 — Casos de estudio: 6 casos: RNA-Seq trimming inadecuado, metagenoma sin host removal, amplicón contaminado, sobrecorrección k-mer, batch effect NovaSeq, ONT sin SUP.
Requisitos
- Biología molecular básica: ADN/RNA, replicación, transcripción (nivel pregrado).
- Computador con mínimo 8GB RAM (16 GB recomendados) y conexión estable a internet.
- Espacio en disco recomendado: 50GB disponibles (según modalidad y datasets).
Entregables para certificación
- Datasets de práctica (SRA NCBI, ENA/EBI) con artefactos reales.
- Scripts Bash documentados por sesión y entorno Conda reproducible.
- Manuales de referencia de herramientas.
- Ejercicios prácticos de los 14 módulos.
- Proyecto final: pipeline QC completo con documentación metodológica y reporte MultiQC (entrega en 7 días calendario post-taller).
Certificación
- Nota mínima de aprobación: 4.0 / 5.0
- Asistencia mínima: 80%
- Certificado: Digital — BioSeryl Academy