Control de Calidad
& preprocesamiento NGS

Interpretación de FastQC en contexto real y construcción de pipelines de trimming/filtrado reproducibles. Datasets con artefactos, contaminación y sesgos. Evaluación sumativa y certificación de competencias. Alineado NTC-ISO 21001.

TC-BIO-01 Introductorio Virtual sincrónico Jun 2026 14 módulos

Qué es

Taller para dominar fundamentos y herramientas de control de calidad (QC) y preprocesamiento de datos NGS. A diferencia de tutoriales con datos artificialmente limpios, empleamos datasets reales con artefactos técnicos, errores de secuenciación, contaminación y sesgos sistemáticos. Los participantes dominarán FastQC para interpretar los 12 módulos de análisis, distinguiendo entre warnings cosméticos y problemas genuinos según contexto experimental (WGS, RNA-Seq, Metagenómica, Amplicón ITS).

Qué incluye

  • Fundamentos: tecnologías NGS (Illumina, PacBio, Nanopore), formatos FASTQ, SAM/BAM, scores Phred y tipos de datos (shotgun vs amplicon).
  • Interpretación de FastQC (12 módulos) según el contexto experimental (WGS, RNA-Seq, Metagenómica, Amplicón).
  • Trimming/filtrado con Trimmomatic, cutadapt y fastp (comparación de estrategias).
  • Detección/filtrado de contaminación (adapters, PhiX, host, cross-sample, reactivos) con BBDuk, FastQ_Screen, KneadData, Hostile, sourmash y decontam (R).
  • Corrección de errores basada en k-mers: comprender limitaciones y trade-offs.
  • QC de lecturas largas (PacBio HiFi/CLR, ONT) con NanoPlot, PycoQC, LongQC y Dorado basecalling.
  • QC específico para amplicones ITS con ITSx/ITSxpress y base de datos UNITE.
  • QC profundo sobre archivos BAM: read_distribution, geneBody_coverage, junction_saturation (RSeQC), QualiMap bamqc/rnaseq, Picard CollectMultipleMetrics.
  • Pipelines QC reproducibles usando contenedores Docker/Singularity.
  • Estándares ISO 15189 y guías CLIA/CAP/AMP para validación clínica de datos NGS.
  • Reportes reproducibles con MultiQC y documentación de decisiones para auditorías.
  • 6 casos de estudio: RNA-Seq trimming inadecuado, metagenoma sin host removal, amplicón contaminado, sobrecorrección k-mer, batch effect NovaSeq, ONT sin SUP.

Contenido (14 módulos)

  • Módulo 1 — Fundamentos: NGS y FASTQ: Illumina (química, plataformas), shotgun vs amplicon, Unix básico, FASTQ (estructura, Phred scores, ASCII). Ejercicio: explorar FASTQ con Unix.
  • Módulo 2 — Diagnóstico: FastQC: instalación, 12 módulos de análisis, interpretación por contexto (WGS/RNA-Seq/Metagenómica). Ejercicio: datasets problemáticos vs alta calidad.
  • Módulo 3 — Corrección: Trimming: Trimmomatic, cutadapt, fastp, comparación de herramientas. Ejercicio: pipeline RNA-Seq + validación FastQC.
  • Módulo 4 — Integración: MultiQC y BBDuk: agregación de reportes, filtrado k-mers (PhiX, host), contaminación cross-sample. Ejercicio: pipeline metagenómico.
  • Módulo 5 — Validación: Error correction, duplicados PCR, batch effects (criterios y trade-offs). Ejercicio: pre/post correction.
  • Módulo 6 — Proyecto final: Pipeline completo QC, documentación metodológica y reporte MultiQC.
  • Módulo 7 — Lecturas largas: QC de PacBio (CCS/HiFi, subreads) y ONT (Dorado basecalling FAST/HAC/SUP). NanoPlot, PycoQC, LongQC. N50, filtrado por calidad por plataforma.
  • Módulo 8 — ITS Amplicón: ITS como biomarcador fúngico. ITS1 vs ITS2, ITSx/ITSxpress, UNITE, homopolímeros, diferencias con 16S.
  • Módulo 9 — Metagenómica avanzada: FastQ_Screen, KneadData/BBSplit, sourmash MinHash, Hostile, decontam (R). Contaminación cruzada, reactivos, baja biomasa.
  • Módulo 10 — BAM QC: RSeQC (read_distribution, geneBody_coverage, junction_saturation, read_duplication), QualiMap bamqc/rnaseq, Picard CollectMultipleMetrics, samtools flagstat.
  • Módulo 11 — Herramientas extra: Falco (FastQC Rust), seqtk (sampleo/trim), SeqFu (stats/kmers), PRINSEQ (complejidad), fastQValidator, FASTX-Toolkit.
  • Módulo 12 — Workflows: Docker/Singularity, construcción de pipeline QC completo con scripts bash, automatización y monitoreo.
  • Módulo 13 — ISO/Clínico: ISO 15189:2022 traducido a NGS, CLIA/CAP/AMP, GIAB, IQC/EQA, métricas de validación (sensibilidad, PPV, F1), umbrales de aceptación.
  • Módulo 14 — Casos de estudio: 6 casos: RNA-Seq trimming inadecuado, metagenoma sin host removal, amplicón contaminado, sobrecorrección k-mer, batch effect NovaSeq, ONT sin SUP.

Requisitos

  • Biología molecular básica: ADN/RNA, replicación, transcripción (nivel pregrado).
  • Computador con mínimo 8GB RAM (16 GB recomendados) y conexión estable a internet.
  • Espacio en disco recomendado: 50GB disponibles (según modalidad y datasets).

Entregables para certificación

  • Datasets de práctica (SRA NCBI, ENA/EBI) con artefactos reales.
  • Scripts Bash documentados por sesión y entorno Conda reproducible.
  • Manuales de referencia de herramientas.
  • Ejercicios prácticos de los 14 módulos.
  • Proyecto final: pipeline QC completo con documentación metodológica y reporte MultiQC (entrega en 7 días calendario post-taller).

Certificación

  • Nota mínima de aprobación: 4.0 / 5.0
  • Asistencia mínima: 80%
  • Certificado: Digital — BioSeryl Academy