Información

Flujo de trabajo de GATK para el cáncer

Flujo de trabajo de GATK para el cáncer



We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Estoy empezando a aprender a utilizar herramientas bioinformáticas. Mi universidad tiene un equipo de bioinformática limitado y costoso, por lo que estoy mayormente solo, excepto para preguntas importantes.

Estoy planeando usar GATK para ejecutar 58 pares de control de cáncer / normales de datos de secuenciación de Exome (Illumina) desde el formato de archivo FASTQ o BAM, a través de la tubería, con una salida de un formato VCF y MAF para análisis.

La tubería actual de GATK se usa para enfermedades pero no para cáncer, por lo que me preguntaba si alguien sabía si deberían hacerse cambios para el cáncer. Aquí está la canalización actual que comienza con archivos BAM:

  • (No GATK) Picard Mark Duplicates o resumen de Samtools
  • Indel Realignment (Realigner TargetCreator + Indel Realigner)
  • Reacalibración del nivel de calidad base (recalibrador base + lecturas de impresión)
  • Haplotipo Llamador
  • VQSR (VariantRecalibrator y ApplyRecalibrator en modo SNP e INDEL)
  • Anotación con Oncotator (?)

Me gustaría alguna verificación de que esta canalización generará lo que necesito para ejecutar mis muestras en MuTect, MutSig o algún otro programa de análisis. Agradezco cualquier consejo.


MuTect2 se acaba de lanzar en versión beta como parte de GATK 3.5. Se basa en HaplotypeCaller pero realiza llamadas somáticas SNV e INDEL. Puede encontrar más información sobre MuTect2 en el blog de GATK y hacer preguntas adicionales en el foro.

Como nota: IndelQualityRecalibration no es necesario con Mutect2, y no hay VQSR disponible para llamadas somáticas.

MarkDuplicates -> BQSR -> Mutect2 -> Oncotator es un buen flujo de trabajo básico para llamadas de variantes somáticas.


Esta publicación repasa lo que MuTec requiere como entrada. marque los duplicados y la realineación de indel probablemente tendrá que realizarse en el archivo bam para usarlo como entrada. BQSR es opcional y no cambia demasiado la calidad. HaplotypeCaller se utiliza para llamadas de variantes de línea germinal, no somáticas.

Si tiene preguntas de seguimiento sobre bioinformática, es posible que pueda encontrar respuestas más rápidamente en las bioestrellas o los foros de GATK.


Un flujo de trabajo versátil para integrar datos genómicos y transcriptómicos de RNA-seq en modelos mecánicos de vías de señalización

Afiliaciones Área de Bioinformática Clínica, Fundación Progreso y Salud (FPS), Hospital Virgen del Rocío, Sevilla, España, Departamento de Biología Celular, Fisiología e Inmunología, Universidad de Córdoba, Córdoba, España, Instituto Maimónides de Investigación Biomédica de Córdoba (IMIBIC), Córdoba, España, Hospital Universitario Reina Sofía, Córdoba, España

Afiliaciones Área de Bioinformática Clínica, Fundación Progreso y Salud (FPS), Hospital Virgen del Rocío, Sevilla, España, Medicina de Sistemas Computacionales, Instituto de Biomedicina de Sevilla (IBIS), Sevilla, España

Metodología de roles, software

Afiliaciones Área de Bioinformática Clínica, Fundación Progreso y Salud (FPS), Hospital Virgen del Rocío, Sevilla, España, Medicina de Sistemas Computacionales, Instituto de Biomedicina de Sevilla (IBIS), Sevilla, España

Conceptualización de roles, metodología

Afiliaciones Área de Bioinformática Clínica, Fundación Progreso y Salud (FPS), Hospital Virgen del Rocío, Sevilla, España, Medicina de Sistemas Computacionales, Instituto de Biomedicina de Sevilla (IBIS), Sevilla, España, Centro de Investigación Biomédica en Red de Enfermedades Raras (CIBERER ), FPS, Hospital Virgen del Rocío, Sevilla, España

Afiliaciones Departamento de Biología Celular, Fisiología e Inmunología, Universidad de Córdoba, Córdoba, España, Instituto Maimónides de Investigación Biomédica de Córdoba (IMIBIC), Córdoba, España, Hospital Universitario Reina Sofía, Córdoba, España

Conceptualización de Roles, Supervisión

Afiliaciones Departamento de Biología Celular, Fisiología e Inmunología, Universidad de Córdoba, Córdoba, España, Instituto Maimónides de Investigación Biomédica de Córdoba (IMIBIC), Córdoba, España, Hospital Universitario Reina Sofía, Córdoba, España

Conceptualización de roles, adquisición de fondos, investigación, supervisión, redacción - borrador original, redacción - revisión y edición

Afiliaciones Área de Bioinformática Clínica, Fundación Progreso y Salud (FPS), Hospital Virgen del Rocío, Sevilla, España, Medicina de Sistemas Computacionales, Instituto de Biomedicina de Sevilla (IBIS), Sevilla, España, Centro de Investigación Biomédica en Red de Enfermedades Raras (CIBERER ), FPS, Hospital Virgen del Rocío, Sevilla, España, FPS / ELIXIR-es, Hospital Virgen del Rocío, Sevilla, España


El flujo de trabajo de genotipado conjunto de GATK es apropiado para llamar variantes en experimentos de RNA-seq

Genome Analysis Toolkit (GATK) es un conjunto popular de programas para descubrir y genotipar variantes a partir de datos de secuenciación de próxima generación. La recomendación actual de GATK para la secuenciación de ARN (RNA-seq) es realizar llamadas de variantes a partir de muestras individuales, con el inconveniente de que solo se informan las posiciones variables. Las versiones 3.0 y superiores de GATK ofrecen la posibilidad de llamar variantes de ADN en cohortes de muestras utilizando el algoritmo HaplotypeCaller en modo Genomic Variant Call Format (GVCF). Con este enfoque, las variantes se llaman individualmente en cada muestra, generando un archivo GVCF por muestra que enumera las probabilidades de genotipo y sus anotaciones de genoma. En un segundo paso, se llaman variantes de los archivos GVCF a través de un análisis de genotipado conjunto. Esta estrategia es más flexible y reduce los desafíos computacionales en comparación con el flujo de trabajo de descubrimiento conjunto tradicional. El uso de un flujo de trabajo GVCF para minar SNP en datos de RNA-seq proporciona ventajas sustanciales, incluida la notificación de genotipos homocigotos para el alelo de referencia, así como datos faltantes. Aprovechando los datos de RNA-seq derivados de macrófagos primarios aislados de 50 vacas, investigadores de Agriculture and Agri-Food Canada validaron el método de genotipado conjunto GATK para llamar variantes en datos de RNA-seq comparando este enfoque con el llamado & # 8220per -muestra & # 8221 método. Además, se realizaron comparaciones por pares de los dos métodos para evaluar su respectiva sensibilidad, precisión y exactitud utilizando genotipos de ADN de un estudio complementario que incluyó las mismas 50 vacas genotipadas usando genotipado por secuenciación o con el Bovine SNP50 Beadchip (imputado al Bovino de alta densidad). Los resultados indican que ambos enfoques están muy cerca en su capacidad de detectar variantes de referencia y que el método de genotipado conjunto es más sensible que el método por muestra. Dado que el método de genotipado conjunto es más flexible y técnicamente más fácil, los investigadores recomiendan este enfoque para la llamada de variantes en experimentos de RNA-seq.

Variantes comunes encontradas en diferentes conjuntos de datos

a Comparación de variantes de secuencia de ARN detectadas utilizando los enfoques de genotipado por muestra y conjunto. B Comparación de los dos conjuntos de variantes de RNA-seq con los detectados por BovineHD BeadChip. C Comparación de los dos conjuntos de variantes de RNA-seq con las detectadas por GBS


Flujo de trabajo de análisis de cáncer v1.0: de FASTQ a VCF

Estamos trabajando en un flujo de trabajo para analizar pares de WGS normales de tumor durante un tiempo. Es bastante complejo, pero ahora se utiliza en proyectos de investigación. Entonces, aquí está la primera versión: https://github.com/SciLifeLab/CAW

Solo curiosidad, ¿cómo es el rendimiento? ¿Qué tamaño de FASTQ tiene normalmente y, dado eso, cuánto tardaría todo el flujo de trabajo en producir VCF?

Los datos brutos (tanto tumorales como normales) son aproximadamente 200G FASTQ al principio. Los BAM no realineados son aproximadamente 200G todavía, la recalibración los hace aproximadamente el doble. En realidad, estas son muestras de cobertura relativamente baja, cuando se parte de un tumor 30x normal 60x, estos números son aproximadamente el doble. A partir de un FASTQ sin procesar de 0.5T, tendrá datos finales de 1.5T y necesitará un espacio de tmp de 3T durante el procesamiento. En un solo nodo de 16 CPU y 128G, todo el proceso lleva aproximadamente una semana. Pero buen punto, tendré que hacer un punto de referencia completo.

Realmente me gusta lo que intentas hacer aquí. ¡Felicidades! Cuéntenos más sobre Nextflow. Lo vi hace un tiempo, pero nunca tuve tiempo de comprobarlo. Además, ¿algún plan para poner el flujo de trabajo en la nube?

Gracias, con respecto a Nextflow, hemos elegido este DSL principalmente porque ya hay una base de usuarios sólida. Una cosa que me gusta es que si conoces java y / o groovy, es más fácil de depurar. Hay muchas cosas que no me gustan, pero eso es cierto para todos los lenguajes de programación) El concepto básico es un & quot canal & quot en Nextflow, estás creando, alimentando, uniendo, bifurcando canales que normalmente son tuberías UNIX. Su canal de holgura es útil si eres nuevo o avanzado; la mayoría de las respuestas son de Paolo, el desarrollador principal detrás de Nextflow.

Estoy trabajando en una tubería basada en GATK para llamadas de variantes de línea germinal escritas en WDL y he implementado la paralelización de recolección de dispersión para baserecalibrator, printreads y haplotypecaller. Mejora los tiempos de ejecución hasta 7 veces para mí. Los hilos de impresión pasaron de 18,5 horas con -nct 16 a

2,5 horas con dispersión de un solo subproceso en una máquina acoplable de 256 GB de RAM de 18 núcleos. Hay & # x27s integrado en el soporte en nextflow, consulte los puntos 8 y 9 aquí: https://github.com/nextflow-io/examples/blob/master/README.md

EDITAR: Tengo algunas preguntas para ti.

No estoy lo suficientemente familiarizado con ninguno de los llamadores, excepto HaplotypeCaller, y HaplotypeCaller hace que IndelRealigner y RealignerTargetCreator sean innecesarios ya que se ha hecho cargo de esa función. ¿Pero quizás las otras personas que llaman que usted está usando dependen de ellas? Y si necesita IndelRealigner, puede paralelizarlo con la paralelización de recolección de dispersión. No sé cuánto tiempo ahorrarías, ya que nunca tuve que hacerlo yo mismo.

Sin embargo, ¿para qué sirve el pipeline? Estás usando varios llamadores diferentes, entonces, ¿es tanto para la línea germinal como para las mutaciones somáticas? Parece un poco exagerado buscar siempre mutaciones somáticas y de la línea germinal, pero soy muy nuevo en el aspecto biológico de todo esto, así que no sé qué está buscando un médico o un investigador. Tenemos dos conductos separados para llamadas de variantes somáticas y de línea germinal.


Productos y servicios emblemáticos de software DSP

El DSP desarrolla productos de software y opera servicios que se utilizan ampliamente en todo el ecosistema biomédico, como:

Terra: una plataforma abierta basada en la nube para acceder a datos, realizar análisis y colaborar de forma segura en la nube, desarrollada en colaboración con Microsoft y Verily Life Sciences.

GATK: el paquete líder de descubrimiento de variantes de código abierto para el análisis de datos de secuenciación de alto rendimiento.

Picard: un conjunto popular de herramientas de línea de comandos de código abierto para procesar datos de secuenciación de alto rendimiento

Cromwell: un motor de ejecución que permite a los usuarios ejecutar flujos de trabajo reproducibles escritos en el lenguaje de descripción de flujo de trabajo (WDL, pronunciado widdle) o el lenguaje de flujo de trabajo común (CWL), portátil a través de máquinas locales, clústeres de computadoras y plataformas en la nube (p. Ej., AWS, Microsoft Azure, Google Cloud Platform)

La plataforma de donación de datos (DDP): una pila de software que permite la participación directa de los participantes, incluido el consentimiento y el nuevo contacto, a través de interfaces web y móviles intuitivas. DDP proporciona la infraestructura subyacente para registros específicos de enfermedades, como el Proyecto de Angiosarcoma, el Proyecto de Genomas Raros y la Plataforma Global de Datos de la Familia A-T.

El Sistema de Supervisión del Uso de Datos (DUOS): un conjunto de interfaces para administrar las interacciones entre los comités de acceso a los datos y los investigadores que buscan acceder a conjuntos de datos genómicos sensibles.


Analítica de datos

Haga que los datos genómicos sean procesables mediante el análisis e interpretación de los datos generados por las tecnologías genómicas modernas mediante software de código abierto, análisis de macrodatos y servicios de aprendizaje automático en Azure.

Cuadernos de Genómica

Genomics Notebooks trae el poder de Jupyter Notebooks en Azure para el análisis de datos genómicos usando bibliotecas GATK, Picard, Bioconductor y Python.

Bioconductor en Azure

Bioconductor proporciona cientos de herramientas bioinformáticas basadas en R para el análisis y la comprensión de datos genómicos de alto rendimiento.

Ciencia de datos genómica

Las plantillas de Azure Virtual Machine proporcionan herramientas, bibliotecas y SDK preinstalados y preconfigurados para la exploración, el análisis y el modelado de datos.


Gestión de datos y recursos para la biología habilitada para el flujo de trabajo

Los avances en las tecnologías de secuenciación han aumentado considerablemente el volumen de datos disponibles para consultas biológicas [58]. Los sistemas de flujo de trabajo, en virtud de la automatización de muchos de los pasos de gestión de proyectos que requieren mucho tiempo y que tradicionalmente se requieren para la biología con uso intensivo de datos, pueden aumentar nuestra capacidad de análisis de datos. Sin embargo, la realización de análisis biológicos a esta escala requiere un enfoque coordinado de la gestión de datos y recursos computacionales. A continuación, ofrecemos recomendaciones para la adquisición, gestión y control de calidad de datos que se han vuelto especialmente importantes a medida que ha aumentado el volumen de datos. Finalmente, discutimos cómo asegurar y administrar los recursos computacionales apropiados para la escala de su proyecto.

Administrar conjuntos de datos a gran escala

El diseño experimental, la búsqueda o generación de datos y el control de calidad son partes esenciales de la biología intensiva en datos. No hay sustituto para tomarse el tiempo para diseñar adecuadamente su análisis, identificar los datos apropiados y realizar verificaciones de cordura en sus archivos. Si bien estas tareas no se pueden automatizar, muchas herramientas y bases de datos pueden ayudar en estos procesos.

Busque datos apropiados disponibles públicamente

Con grandes cantidades de datos de secuenciación ya disponibles en repositorios públicos, a menudo es posible comenzar a investigar su pregunta de investigación buscando datos disponibles públicamente. En algunos casos, estos datos serán suficientes para realizar su análisis completo. En otros casos, particularmente para los biólogos que realizan experimentos novedosos, estos datos pueden informar decisiones sobre el tipo de secuenciación, la profundidad y la replicación, y pueden ayudar a descubrir posibles escollos antes de que cuesten un tiempo y recursos valiosos.

La mayoría de las revistas ahora requieren que los datos de todos los manuscritos sean accesibles, ya sea en el momento de la publicación o después de una breve moratoria. Además, el movimiento de datos FAIR (localizable, accesible, interoperable, reutilizable) ha mejorado el ecosistema de intercambio de datos para la biología intensiva en datos [59,60,61,62,63,64,64,65]. Puede encontrar datos de secuenciación relevantes ya sea a partir de las secciones de "accesibilidad de datos" de los artículos relevantes para su investigación o al buscar directamente su organismo, entorno o tratamiento de elección en portales y repositorios de datos públicos. La International Nucleotide Sequence Database Collaboration (INSDC), que incluye el Sequence Read Archive (SRA), el European Nucleotide Archive (ENA) y el DataBank of Japan (DDBJ), es el repositorio más grande de datos de secuenciación sin procesar, pero ya no acepta datos de secuenciación de grandes proyectos de consorcios [66]. En cambio, estos datos se alojan en bases de datos específicas de consorcios, que pueden requerir algunos conocimientos específicos del dominio para identificar conjuntos de datos relevantes y tienen protocolos únicos de descarga y autenticación. Por ejemplo, los datos brutos de la expedición Tara Oceans están alojados en la Tara Ocean Foundation [67]. En cambio, las bases de datos curadas adicionales se centran en datos procesados, como la expresión génica en el Ómnibus de expresión génica (GEO) [68]. Bases de datos específicas de organismos como Wormbase (Caenorhabditis elegans) se especializan en curar e integrar la secuenciación y otros datos asociados con un organismo modelo [69]. Por último, en lugar de centrarse en determinados tipos de datos u organismos, algunos repositorios están diseñados para contener datos y metadatos asociados con un proyecto o manuscrito específico (por ejemplo, Open Science Framework, Dryad, Zenodo [70]).

Considere el análisis al generar sus propios datos

Si genera sus propios datos, el diseño y la planificación experimentales adecuados son esenciales. Para los datos de secuenciación costosos, existe una variedad de decisiones sobre el diseño experimental y la secuenciación (incluido el tipo de secuenciación, la profundidad de secuenciación por muestra y la replicación biológica) que afectan su capacidad para abordar adecuadamente su pregunta de investigación. Llevar a cabo discusiones con bioinformáticos y estadísticos experimentados, antes de comenzar sus experimentos si es posible, es la mejor manera de asegurarse de que tendrá suficiente poder estadístico para detectar efectos. Estas consideraciones serán diferentes para diferentes tipos de análisis de secuencia. Para ayudar en la planificación temprana del proyecto, hemos seleccionado una serie de referencias específicas de dominio que pueden ser útiles a medida que diseña su experimento (consulte Tabla 2). Dados los recursos invertidos en la recolección de muestras para la secuenciación, es importante crear un búfer para preservar su diseño experimental ante problemas inesperados de laboratorio o técnicos. Una vez generados, siempre es una buena idea tener múltiples copias de seguridad independientes de los datos de secuenciación sin procesar, ya que normalmente no se pueden regenerar fácilmente si se pierden por fallas en la computadora u otros eventos imprevisibles.

Tabla 2: Referencias para el diseño experimental y consideraciones para las químicas de secuenciación comunes.
Tipo de secuenciación Recursos
Secuenciación de ARN [32,71,72]
Secuenciación metagenómica [33,73,74]
Secuenciación de amplicones [75,76,77]
Secuenciación de aislados microbianos [78]
Secuenciación del genoma eucariota [79,80,81,82]
Resecuenciación del genoma completo [83]
Secuenciación RAD [84,84,85,86,87,88]
secuencia de ARN unicelular [89,90]

A medida que avanza su experimento, lleve un registro de la mayor cantidad de información posible: fechas y horas de recolección, almacenamiento y extracción de muestras, nombres de las muestras, aberraciones que ocurrieron durante la recolección, lote del kit utilizado para la extracción y cualquier otra muestra y medidas de secuenciación que pueda ser capaz de obtener (temperatura, ubicación, concentración de metabolitos, nombre del recolector, número de pocillo, número de placa, máquina en la que se secuenciaron los datos, etc.). Estos metadatos le permiten realizar un seguimiento de sus muestras, controlar los efectos del lote que pueden surgir de un lote no intencionado durante el muestreo o los procedimientos experimentales y hace que los datos que recopile sean reutilizables para futuras aplicaciones y análisis por usted mismo y otros. Siempre que sea posible, siga las pautas estándar para formatear metadatos para computación científica a fin de limitar el procesamiento posterior y simplificar los análisis que requieren estos metadatos (ver: [10]). Aquí nos hemos centrado en la secuenciación de datos para la gestión de datos durante estudios ecológicos a largo plazo, recomendamos [91].

Introducción a la secuenciación de datos

Proteja los datos valiosos

Aparte del código en sí, los datos sin procesar son los archivos más importantes asociados con un flujo de trabajo, ya que no se pueden regenerar si se modifican o eliminan accidentalmente. Mantener una copia de solo lectura de los datos sin procesar junto con un flujo de trabajo, así como múltiples copias de seguridad, protege sus datos de accidentes y fallas de la computadora. Esto también elimina el imperativo de almacenar archivos intermedios, ya que el flujo de trabajo puede regenerarlos fácilmente.

Al compartir o almacenar archivos y resultados, el control de versiones de datos puede realizar un seguimiento de las diferencias en los archivos, como los cambios de los parámetros o versiones de la herramienta. Las herramientas de control de versiones discutidas en la sección de administración de proyectos basada en flujo de trabajo están diseñadas principalmente para manejar archivos pequeños, pero GitHub proporciona soporte para Git Large File Storage (LFS) y repositorios como Open Science Framework (OSF), Figshare, Zenodo, y Dryad se puede utilizar para almacenar archivos y conjuntos de datos más grandes [49,70,92,93,94].

Además de proporcionar control de versiones para proyectos y conjuntos de datos, estas herramientas también facilitan el intercambio y la atribución al permitir la generación de identificadores de objetos digitales (doi) para conjuntos de datos, figuras, presentaciones, código y preimpresiones. Dado que las herramientas gratuitas a menudo limitan el tamaño de los archivos que se pueden almacenar, varios servicios de almacenamiento y copia de seguridad en la nube también están disponibles para su compra o mediante contrato universitario, incluidos Google Drive, Box, Dropbox, Amazon Web Services y Backblaze. Se pueden realizar copias de seguridad completas de la computadora en estas ubicaciones de almacenamiento con herramientas como rclone [95].

Garantice la integridad de los datos durante las transferencias

Si está trabajando con datos disponibles públicamente, es posible que pueda trabajar en un sistema informático donde los datos ya están disponibles, evitando el tiempo y el esfuerzo necesarios para descargar y mover los datos. Las bases de datos como Sequence Read Archive (SRA) ahora están disponibles en sistemas comerciales de computación en la nube, y los proyectos de código abierto como Galaxy permiten trabajar con archivos de secuencia SRA directamente desde un navegador web [12,96]. Los proyectos en curso, como el Ecosistema de datos del Fondo Común de los NIH, tienen como objetivo desarrollar un portal de datos para hacer que los datos del Fondo Común de los NIH, incluidos los datos de secuenciación biomédica, sean más fáciles de encontrar, accesibles, interoperables y reutilizables (FAIR).

En la mayoría de los casos, aún necesitará transferir algunos datos, ya sea descargando datos sin procesar o transfiriendo archivos intermedios y de resultados importantes para realizar copias de seguridad y compartirlos (o ambos). La transferencia de archivos comprimidos (gzip, bzip2, BAM / CRAM, etc.) puede mejorar la velocidad de transferencia y ahorrar espacio, y se pueden utilizar sumas de verificación para garantizar la integridad del archivo después de la transferencia (consulte Figura 8).

Realice el control de calidad en cada paso

La calidad de sus datos de entrada tiene un gran impacto en la calidad de los resultados de salida, sin importar si su flujo de trabajo analiza seis muestras o seiscientas. La evaluación de los datos en cada paso del análisis puede revelar problemas y errores de manera temprana, antes de que desperdicien tiempo y recursos valiosos. El uso de herramientas de control de calidad que brindan métricas y visualizaciones puede ayudarlo a evaluar sus conjuntos de datos, particularmente a medida que aumenta el tamaño de sus datos de entrada. Sin embargo, los datos de diferentes especies o tipos de secuenciación pueden producir resultados de control de calidad anómalos. En última instancia, usted es la herramienta de control de calidad más eficaz que tiene, por lo que es importante evaluar críticamente cada métrica para determinar las que son relevantes para sus datos particulares.

Mira tus archivos El control de calidad puede ser tan simple como mirar las primeras y últimas líneas de los archivos de datos de entrada y salida, o verificar el tamaño de esos archivos (ver Tabla 3). Para desarrollar una intuición de cómo se ven las entradas y salidas adecuadas para una herramienta determinada, a menudo es útil ejecutar primero el ejemplo de prueba o los datos empaquetados con el software. La comparación de estos formatos de archivo de entrada y salida con sus propios datos puede ayudar a identificar y abordar las inconsistencias.

Tabla 3: Algunos comandos para explorar rápidamente el contenido de un archivo. Estos comandos se pueden utilizar en sistemas operativos Unix y Linux para detectar problemas de formato comunes u otras anomalías.
mando función ejemplo
ls -lh enumerar archivos con información en un formato legible por humanos ls -lh * fastq.gz
cabeza imprime las primeras 6 líneas de un archivo en salida estándar head samples.csv
cola imprime las últimas 6 líneas de un archivo en salida estándar tail samples.csv
menos mostrar el contenido de un archivo en una pantalla desplazable menos samples.csv
zless mostrar el contenido de un archivo comprimido con gzip en una pantalla desplazable zless sample1.fastq.gz
wc -l contar el número de líneas en un archivo wc -l ecoli.fasta
gato imprimir un archivo a salida estándar cat samples.csv
grep encuentre texto coincidente e imprima la línea a la salida estándar grep "& gt" ecoli.fasta
Corte cortar columnas de una mesa cut -d "," -f1 samples.csv

Visualiza tus datos La visualización es otra forma poderosa de detectar patrones inusuales o inesperados. Aunque las anomalías importantes pueden resultar claras al mirar los archivos, otras pueden ser pequeñas y difíciles de encontrar. Visualización de datos de secuenciación sin procesar con FastQC (Figura 9A) y los datos de secuenciación procesados ​​con herramientas como Integrative Genome Viewer y el trazado de archivos de resultados tabulares usando Python o R pueden hacer que los resultados aberrantes o inconsistentes sean más fáciles de rastrear [98,99].

Preste atención a las advertencias y los archivos de registro Muchas herramientas generan archivos de registro o mensajes mientras se ejecutan. Estos archivos contienen información sobre la cantidad, la calidad y los resultados de la ejecución, o mensajes de error sobre por qué falló una ejecución. La inspección de estos archivos puede resultar útil para asegurarse de que las herramientas funcionen de forma correcta y coherente, o para depurar ejecuciones fallidas. Analizar y visualizar archivos de registro con una herramienta como MultiQC puede mejorar la interpretación de archivos de registro específicos del programa (Figura 9 [101] ).

Busque sesgos comunes en la secuenciación de datos Los sesgos en la secuenciación de datos se originan en el diseño experimental, la metodología, la química de secuenciación o los flujos de trabajo, y son útiles para apuntar específicamente con medidas de control de calidad. Los sesgos exactos en un conjunto de datos o flujo de trabajo específico variarán mucho entre los experimentos, por lo que es importante comprender el método de secuencia que ha elegido e incorporar los pasos de filtración adecuados en su flujo de trabajo. Por ejemplo, los duplicados de PCR pueden causar problemas en las bibliotecas que se sometieron a un paso de amplificación y, a menudo, deben eliminarse antes del análisis posterior [102,103,104,105,106].

Compruebe si hay contaminación La contaminación puede surgir durante la recolección de muestras, la extracción de nucleótidos, la preparación de la biblioteca o mediante picos de secuenciación como PhiX, y podría cambiar la interpretación de los datos si no se eliminan [107,108,109]. Las bibliotecas secuenciadas con altas concentraciones de adaptadores libres o con muestras de baja concentración pueden tener un aumento de los saltos de códigos de barras, lo que lleva a la contaminación entre las muestras [110].

Considere los costos y beneficios de un estricto control de calidad de sus datos Los datos de buena calidad son esenciales para un buen análisis posterior. Sin embargo, un estricto control de calidad a veces puede hacer más daño que bien. Por ejemplo, dependiendo de la profundidad de secuenciación, un recorte de calidad estricto de los datos de secuenciación de ARN puede reducir el descubrimiento de isoformas [111]. Para determinar qué problemas tienen más probabilidades de afectar su conjunto de datos específico, puede ser útil encontrar publicaciones recientes que utilicen un diseño experimental similar o hablar con expertos en un núcleo de secuenciación.

Debido a que los datos de secuenciación y las aplicaciones son tan diversos, no existe una solución única para el control de calidad. Es importante pensar críticamente sobre los patrones que espera ver dados sus datos y su problema biológico, y consultar con expertos técnicos siempre que sea posible.

Asegurar y administrar los recursos computacionales apropiados

El análisis de secuencia requiere acceso a sistemas informáticos con capacidad de análisis y almacenamiento adecuada para sus datos. Para algunos conjuntos de datos de menor escala, los sistemas locales de escritorio o incluso portátiles pueden ser suficientes, especialmente si se utilizan herramientas que implementan estrategias de reducción de datos como minhashing [112]. Sin embargo, los proyectos más grandes requieren potencia informática adicional o pueden estar restringidos a ciertos sistemas operativos (por ejemplo, linux). Para estos proyectos, las soluciones van desde sistemas informáticos de alto rendimiento centrados en la investigación hasta plataformas de análisis comerciales integradas en la investigación. Tanto los grupos de investigación como los comerciales brindan vías para la investigación y las propuestas educativas para permitir el acceso a sus recursos informáticos (ver Cuadro 4). Al prepararse para el análisis de datos, asegúrese de asignar suficientes recursos computacionales y fondos para el almacenamiento y el análisis, incluidos los grandes archivos intermedios y los recursos necesarios para la capacitación del personal. Tenga en cuenta que los sistemas de flujo de trabajo pueden facilitar en gran medida la ejecución fiel de su análisis en toda la gama de recursos computacionales disponibles para usted, incluida la distribución en los sistemas de computación en la nube.

Cuadro 4: Recursos informáticos Los proyectos bioinformáticos a menudo requieren recursos informáticos adicionales. Si no hay disponible un clúster de computación de alto rendimiento administrado por una universidad o local, los recursos de computación están disponibles a través de una serie de proveedores comerciales o basados ​​en subvenciones.
Proveedor Modelo de acceso Restricciones
Servicios web de Amazon Pagado
Nube de datos protegida de Bionimbus Asignación de investigación usuarios con cuenta de eRA commons
Atmósfera Cyverse Gratis con limites horas de almacenamiento y computación
Nube federada de EGI Acceso por contacto Países socios europeos
Galaxia Gratis con límites de almacenamiento límites de almacenamiento de datos
Google Cloud Platform Pagado
Google Colab Gratis cuadernos computacionales, sin garantías de recursos
Microsoft Azure Pagado
NSF XSEDE Asignación de investigación Investigadores o colaboradores de EE. UU.
Nube de datos de ciencia abierta Asignación de investigación
Wasabi Pagado solo solución de almacenamiento de datos

Introducción a la gestión de recursos

A medida que aumenta la escala de datos, los recursos necesarios para el análisis pueden aumentar. Los flujos de trabajo bioinformáticos pueden ser de larga duración, requerir sistemas de alta memoria o implicar una manipulación intensiva de archivos. Algunas de las estrategias a continuación pueden ayudarlo a administrar los recursos computacionales para su proyecto.

Solicite unidades de investigación si es elegible Hay una serie de servicios de computación en la nube que ofrecen subvenciones que brindan recursos informáticos a investigadores intensivos en datos (Cuadro 4). En algunos casos, los recursos proporcionados pueden ser suficientes para cubrir todo su análisis.

Desarrolle en una computadora local cuando sea posible Dado que los flujos de trabajo se transfieren fácilmente entre sistemas, puede resultar útil desarrollar pasos de análisis individuales en una computadora portátil local. Si la herramienta de análisis se ejecutará en su sistema local, pruebe el paso con datos submuestreados, como el creado en la sección Cómo comenzar a desarrollar flujos de trabajo. Una vez en funcionamiento, el nuevo componente de flujo de trabajo se puede ejecutar a escala en un sistema informático más grande. Los informes sobre el uso de recursos de la herramienta del sistema de flujo de trabajo pueden ayudar a determinar los mayores recursos necesarios para ejecutar el flujo de trabajo en sistemas más grandes. Para los investigadores que no tienen acceso a recursos informáticos gratuitos o concedidos, esta estrategia puede ahorrarles un costo significativo.

Obtenga información rápida utilizando algoritmos de creación de bocetos Comprender la estructura básica de los datos, la relación entre las muestras y la composición aproximada de cada muestra puede ser muy útil al comienzo del análisis de datos y, a menudo, puede impulsar las decisiones de análisis en direcciones diferentes a las previstas originalmente. Aunque la mayoría de los flujos de trabajo de bioinformática generan este tipo de conocimientos, existen algunas herramientas que lo hacen rápidamente, lo que permite al usuario generar hipótesis rápidas que pueden probarse con más detalle mediante análisis más extensos y detallados. Los algoritmos de creación de bocetos funcionan con representaciones aproximadas comprimidas de datos de secuenciación y, por lo tanto, reducen los tiempos de ejecución y los recursos computacionales. Estas representaciones aproximadas retienen suficiente información sobre la secuencia original para recapitular los principales hallazgos de muchos flujos de trabajo exactos pero computacionalmente intensivos. La mayoría de los algoritmos de dibujo estiman la similitud de secuencia de alguna manera, lo que le permite obtener información a partir de estas comparaciones. Por ejemplo, se pueden utilizar algoritmos de esbozo para estimar la similitud de muestra total que se puede visualizar como un análisis de componentes principales o una gráfica de escala multidimensional, o se puede utilizar para construir un árbol filogenético con topología precisa. Los algoritmos de creación de bocetos también reducen drásticamente el tiempo de ejecución de las comparaciones con bases de datos (por ejemplo, todo GenBank), lo que permite a los usuarios comparar rápidamente sus datos con grandes bases de datos públicas.

Rowe 2019 [113] revisó programas y casos de uso genómico para esbozar algoritmos y proporcionó una serie de libros de trabajo tutoriales (por ejemplo, cuaderno de control de calidad de muestra: [114]).

Utilice las herramientas adecuadas para su pregunta Los enfoques de análisis de RNA-seq, como la expresión diferencial o la agrupación de transcripciones, se basan en recuentos de transcripciones o genes. Se pueden utilizar muchas herramientas para generar estos recuentos cuantificando el número de lecturas que se superponen con cada transcripción o gen. Por ejemplo, herramientas como STAR y HISAT2 producen alineaciones que pueden procesarse posteriormente para generar recuentos de lecturas por transcripción [115,116]. Sin embargo, estas herramientas generan una salida rica en información, especificando alineaciones por base para cada lectura. If you are only interested in read quantification, quasi-mapping tools provide the desired results while reducing the time and resources needed to generate and store read count information [117,118] .

Seek help when you need it In some cases, you may find that your accessible computing system is ill-equipped to handle the type or scope of your analysis. Depending on the system, staff members may be able to help direct you to properly scale your workflow to available resources, or guide you in tailoring computational unit allocations or purchases to match your needs.


Variant Discovery with GATK4

This workshop will focus on the core steps involved in calling germline short variants, somatic short variants, and copy number alterations con el Broad’s Genome Analysis Toolkit (GATK), using “Best Practices” developed by the GATK methods development team. A team of methods developers and instructors from the Data Sciences Platform at Broad will give talks explaining the rationale, theory, and real-world applications of the GATK Best Practices. You will learn why each step is essential to the variant-calling process, what key operations are performed on the data at each step, and how to use the GATK tools to get the most accurate and reliable results out of your dataset. If you are an experienced GATK user, you will gain a deeper understanding of how the GATK works under-the-hood and how to improve your results further, especially with respect to the latest innovations.

The hands-on tutorials for learning GATK tools and commands will be on Terra, a new platform developed at Broad in collaboration with Verily Life Sciences for accessing data, running analysis tools and collaborating securely and seamlessly. (If you’ve heard of or been a user of FireCloud, think of Terra as the new and improved user interface for FireCloud that makes doing research easier than before!)

  • Day 1: Introductory topics and hands-on tutorials. We will start off with introductory lectures on sequencing data, preprocessing, variant discovery, and pipelining. Then you will get hands-on with a recreation of a real variant discovery analysis in Terra.
  • Day 2: Germline short variant discovery. Through a combination of lectures and hands-on tutorials, you will learn: germline single nucleotide variants and indels, joint calling, variant filtering, genotype refinement, and callset evaluation.
  • Day 3: Somatic variant discovery. In a format similar to Day 2, you will learn: somatic single nucleotide variants and indels, Mutect2, and somatic copy number alterations.
  • Day 4: Pipelining and performing your analysis end-to-end in Terra. On the final day, you will learn how to write your own pipelining scripts in the Workflow Description Language (WDL) and execute them with the Cromwell workflow management system. You will also be introduced to additional tools that help you do your analysis end-to-end in Terra.

Please note that this workshop is focused on human data analysis. The majority of the materials presented does apply equally to non-human data, and we will address some questions regarding adaptations that are needed for analysis of non-human data, but we will not go into much detail on those points.


Requirements on bioinformatics solutions for clinical oncology

High-throughput NGS allows for time- and cost-effective molecular probing of tumors. However, the resulting sequencing data is challenging to analyze because of its large size and various confounding sources of variation, most notably amplification and sequencing errors. Careful analysis of NGS data is particularly important in the context of MTBs, where treatment suggestions based on mutation calls may have dramatic effects, ranging from recovery to death of a patient. Therefore, strict standards with respect to several aspects described below need to be followed.

First and foremost, experimental noise needs to be distinguished from true biological signals. Treatment decisions have to be based only on validated, real biological alterations and should not be misled by technical artifacts. Toward this end, appropriate computational data analysis pipelines have to be used that cover the entire process from primary analysis of the read data to clinical reporting. To understand the limitations of an implemented pipeline, it needs to be evaluated under defined conditions reflecting realistic use case conditions [20, 21]. Pipelines need to be robust with respect to new sequencing data that may differ in some aspects from previously analyzed samples. In addition, mutation calls should be reported with a confidence estimate. Although some mutation callers report, for example, PAG-values or posterior probabilities, it remains a major challenge to provide a meaningful notion of confidence for the results of an entire pipeline. This is particularly important, as the overlap of different approaches is often limited, as mentioned in [22�].

The results produced by a bioinformatics pipeline have to be reproducible. This requirement entails several technical prerequisites discussed below and includes controlling random seeds for all steps that involve randomization. Another important aspect of reproducibility is a rigorous documentation of each step of the pipeline, including complete documentation of the used tools, their version and parameter settings. This also holds for databases and ensures complete transparency [20]. For instance, in the past, most genomic studies have used as a reference genome GRCh37 from the Genome Reference Consortium or its equivalent from the University of California Santa Cruz, version hg19. Even though there are only minor differences in their genetic information, the naming scheme is different, which can lead to confusion. Moreover, the new human genome assembly GRCh38 not only updated the main chromosomes, and therefore changed their coordinates, but also included new contigs to represent population haplotypes, further complicating reproducibility. Therefore, it is necessary that for each file used in the pipeline, its generation and dependencies are clearly described. Such a setup also guarantees the traceability of all results. For example, it should be possible to trace back the call of a treatment-critical mutation, to assess the call manually and to validate it before recommending the treatment. In addition, genomic alterations in the patient which are not directly linked to cancer, known as incidental variants, may be discovered. As these variants may be reported in various ways with potential ethical implications, a clear strategy needs to be defined, for example, reporting all relevant incidental findings [26].

In addition to these requirements on stability, robustness, reproducibility and traceability of the computational pipeline, the size, sensitivity and complexity of comprehensive clinical data sets combined with the urgency caused by the often critical state of the respective patient result in a set of challenging technical prerequisites for the computational infrastructure and the implemented data analysis software of an MTB.


Snapshots of the code can be found in the GigaScience repository, GigaDB [ 21].

The authors would like to thank Shadrielle Melijah G. Espiritu and Andre Masella for their feedback on the manuscript/software. This project has been supported by funding from Genome Canada/Genome British Columbia (grant No. 173CIC), the Natural Science and Engineering Research Council of Canada (grant No. RGPGR 488167-2013), and Terry Fox Research Institute - Program Project Grants (grant No. 1021).


Ver el vídeo: Behandling af kræft - Operation og strålebehandling. SundhedsTV (Agosto 2022).