Información

BLAST (herramienta básica de búsqueda de alineación local) es heurística?

BLAST (herramienta básica de búsqueda de alineación local) es heurística?


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

¿Cómo podemos decir que BLAST se basa en un algoritmo heurístico, ya que después de encontrar una palabra común en la secuencia de consulta y una secuencia de base de datos, realiza una alineación por pares mediante programación dinámica, que es un algoritmo exhaustivo? Además, BLAST proporciona un análisis cuantitativo al proporcionar puntuaciones de bits y valores E. Dado que da resultados cuantitativos, ¿por qué decimos que se basa en un "algoritmo heurístico", como el "algoritmo de palabras"?


Es posible que se sienta confundido acerca de lo que significa "heurística". "Heurístico" no significa aleatorio o arbitrario, en cambio, un algoritmo se denomina "heurístico" si emplea un atajo, lo que significa que no necesariamente produce el mejor resultado teórico.

Para BLAST, este atajo es la suposición de primero hacer coincidir las palabras de longitud fija antes de extender la coincidencia. Hipotéticamente, podría haber una secuencia de consulta y una base de datos donde la mejor coincidencia de puntuación para la secuencia de consulta no contiene ninguna secuencia de longitud k en común con la secuencia de la base de datos. En este caso, BLAST no podría encontrar esa coincidencia. - Entonces, la parte heurística del algoritmo no está en la parte de programación dinámica, está en el primer paso de encontrar pares que deben alinearse.

Sin embargo, es probable que la falla de BLAST para encontrar una coincidencia sea poco común, especialmente con palabras cortas. Si encuentra una coincidencia decente, es muy probable que haya un 3-mer (5-mer, etc.) de secuencia idéntica en el par. Pero porque no es un garantía, el uso de la palabra k-mer en el proceso significa que BLAST es un algoritmo heurístico.

La capacidad de BLAST para proporcionar métricas estadísticas y de calidad no está limitada por su naturaleza heurística. Para generar un valor electrónico, no necesita saber que BLAST puede encontrar la mejor combinación absoluta. En su lugar, solo necesita ser capaz de construir un modelo del tipo de coincidencias que BLAST encontraría mediante una probabilidad aleatoria espuria, cuando se aplica a una base de datos similar sin coincidencias "verdaderas". Lo mismo ocurre con la puntuación de bits. No necesita saber cuál sería la mejor coincidencia absoluta, solo necesita saber cómo se comportaría BLAST en una base de datos hipotética sin coincidencias reales de propiedades similares.


Herramienta básica de búsqueda de alineación local

Un nuevo enfoque para la comparación rápida de secuencias, la herramienta de búsqueda de alineación local básica (BLAST), se aproxima directamente a las alineaciones que optimizan una medida de similitud local, la puntuación del par de segmentos máximo (MSP). Los resultados matemáticos recientes sobre las propiedades estocásticas de las puntuaciones de MSP permiten un análisis del rendimiento de este método, así como la importancia estadística de las alineaciones que genera. El algoritmo básico es simple y robusto, se puede implementar de varias maneras y se puede aplicar en una variedad de contextos que incluyen búsquedas directas en bases de datos de secuencias de proteínas y ADN, búsquedas de motivos, búsquedas de identificación de genes y en el análisis de múltiples regiones de similitud. en largas secuencias de ADN. Además de su flexibilidad y facilidad para el análisis matemático, BLAST es un orden de magnitud más rápido que las herramientas de comparación de secuencias existentes de sensibilidad comparable.

1. Introducción

El descubrimiento de la homología de secuencia con una proteína o familia de proteínas conocida a menudo proporciona las primeras pistas sobre la función de un gen recién secuenciado. A medida que las bases de datos de secuencias de ADN y aminoácidos continúan creciendo en tamaño, se vuelven cada vez más útiles en el análisis de genes y proteínas recién secuenciados debido a la mayor probabilidad de encontrar tales homologías. Hay una serie de herramientas de software para buscar bases de datos de secuencias, pero todas utilizan alguna medida de similitud entre secuencias para distinguir las relaciones biológicamente significativas de las similitudes fortuitas. Quizás las medidas mejor estudiadas son las que se utilizan junto con variaciones del algoritmo de programación dinámica (Needleman y Wunsch, 1970 Sellers, 1974 Sankoff y Kruskal, 1983 Waterman, 1984). Estos métodos asignan puntuaciones a las inserciones, eliminaciones y reemplazos, y calculan una alineación de dos secuencias que corresponde al conjunto menos costoso de tales mutaciones. Se puede pensar que tal alineación minimiza la distancia evolutiva o maximiza la similitud entre las dos secuencias comparadas. En cualquier caso, el costo de esta alineación es una medida de similitud que el algoritmo garantiza que es óptima, según los puntajes dados. Debido a sus requisitos computacionales, los algoritmos de programación dinámica no son prácticos para buscar grandes bases de datos sin el uso de una supercomputadora (Gotoh y Tagashira, 1986) u otro hardware de propósito especial (Coulson et al., 1987).

Se han desarrollado algoritmos heurísticos rápidos que intentan aproximarse a los métodos anteriores (Waterman, 1984), lo que permite realizar búsquedas en grandes bases de datos en computadoras comúnmente disponibles. En muchos métodos heurísticos, la medida de similitud no se define explícitamente como un conjunto de mutaciones de costo mínimo, sino que está implícita en el algoritmo mismo. Por ejemplo, el programa FASTP (Lipman & Pearson, 1985 Pearson & Lipman, 1988) primero encuentra regiones localmente similares entre dos secuencias basadas en identidades pero no en espacios, y luego vuelve a calificar estas regiones usando una medida de similitud entre residuos, como un PAM matriz (Dayhoff et al., 1978) que permite reemplazos conservadores así como identidades para incrementar la puntuación de similitud. A pesar de su aproximación bastante indirecta de las medidas de evolución mínimas, las herramientas heurísticas como FASTP han sido bastante populares y han identificado muchas relaciones distantes pero biológicamente significativas.

En este artículo describimos un nuevo método, BLAST (Basic Local Alignment Search Tool), que emplea una medida basada en puntuaciones de mutación bien definidas. Se aproxima directamente a los resultados que se obtendrían mediante un algoritmo de programación dinámica para optimizar esta medida. El método detectará similitudes de secuencia débiles pero biológicamente significativas, y es más de un orden de magnitud más rápido que los algoritmos heurísticos existentes.

2. Métodos

(a) La medida máxima del par de segmentos

Las medidas de similitud de secuencia generalmente se pueden clasificar como globales o locales. Los algoritmos de similitud global optimizan la alineación general de dos secuencias, que pueden incluir grandes tramos de baja similitud (Needleman y Wunsch, 1970). Los algoritmos de similitud local buscan sólo subsecuencias relativamente conservadas, y una sola comparación puede producir varias alineaciones de subsecuencias distintas que las regiones no conservadas no contribuyen a la medida de la similitud (Smith & Waterman, 1981 goad & Kanehisa, 1982 Sellers, 1984). Las medidas de similitud local se prefieren generalmente para búsquedas en bases de datos, donde los ADNc pueden compararse con genes parcialmente secuenciados, y donde proteínas relacionadas lejanamente pueden compartir solo regiones aisladas de similitud, p. en las proximidades de un sitio activo.

Muchas medidas de similitud, incluida la que empleamos, comienzan con una matriz de puntuaciones de similitud para todos los posibles pares de residuos. Las identidades y los reemplazos conservadores tienen puntajes positivos, mientras que los reemplazos poco probables tienen puntajes negativos. Para las comparaciones de secuencias de aminoácidos, generalmente utilizamos la matriz PAM-120 (una variación de la de Dayhoff et al., 1978), mientras que para las comparaciones de secuencias de ADN puntuamos identidades +5 y, por supuesto, son posibles otras puntuaciones -4. Un segmento de secuencia es un tramo contiguo de residuos de cualquier longitud, y la puntuación de similitud para dos segmentos alineados de la misma longitud es la suma de los valores de similitud para cada par de residuos alineados.

Dadas estas reglas, definimos un par de segmento máximo (MSP) para ser el par de mayor puntuación de segmentos de longitud idéntica elegidos entre 2 secuencias. Los límites de un MSP se eligen para maximizar su puntuación, por lo que un MSP puede tener cualquier longitud. La puntuación de MSP, que BLAST intenta calcular heurísticamente, proporciona una medida de similitud local para cualquier par de secuencias. Sin embargo, un biólogo molecular puede estar interesado en todas las regiones conservadas compartidas por 2 proteínas, no solo en su par de puntuación más alta. Por lo tanto, definimos un par de segmentos como localmente máximo si su puntuación no se puede mejorar extendiendo o acortando ambos segmentos (Sellers, 1984). BLAST puede buscar todos los pares de segmentos máximos locales con puntuaciones por encima de algún límite.

Como muchas otras medidas de similitud, la puntuación de MSP para 2 secuencias se puede calcular en el tiempo proporcional al producto de sus longitudes utilizando un algoritmo de programación dinámica simple. Una ventaja importante de la medida MSP es que los resultados matemáticos recientes permiten estimar la significancia estadística de las puntuaciones MSP bajo un modelo de secuencia aleatorio apropiado (Karlin & Altschul, 1990 Karlin et al., 1990). Además, para cualquier matriz de puntuación particular (por ejemplo, PAM-120), se pueden estimar las frecuencias de los residuos emparejados en los segmentos máximos. Esta facilidad para el análisis matemático es una característica crucial del algoritmo BLAST.

(b) Aproximación rápida de las puntuaciones del MSP

Al buscar en una base de datos de miles de secuencias, generalmente solo unas pocas, si las hay, serán homólogas a la secuencia de consulta. Por lo tanto, el científico está interesado en identificar solo aquellas entradas de secuencia con puntajes MSP sobre algún puntaje de corte S. Estas secuencias incluyen aquellas que comparten una similitud muy significativa con la consulta, así como algunas secuencias con puntuaciones límite. Este último conjunto de secuencias puede incluir coincidencias aleatorias de alta puntuación, así como secuencias relacionadas lejanamente con la consulta. la importancia biológica de las secuencias de alta puntuación puede inferirse casi exclusivamente sobre la base de la puntuación de similitud, mientras que el contexto biológico de las secuencias límite puede ser útil para distinguir relaciones biológicamente interesantes.

Los resultados recientes (Karlin y Altschul, 1990 Karlin et al., 1990) nos permiten estimar la puntuación S más alta de MSP en la que es probable que aparezcan similitudes al azar. Para acelerar las búsquedas en la base de datos, BLAST minimiza el tiempo dedicado a las regiones de secuencia cuya similitud con la consulta tiene pocas posibilidades de superar esta puntuación. Sea un par de palabras un par de segmentos de longitud fija w. La estrategia principal de BLAST es buscar solo pares de segmentos que contengan un par de palabras con una puntuación de al menos T. Al escanear una secuencia, se puede determinar rápidamente si contiene una palabra de longitud w que puede emparejarse con la secuencia de consulta para producir un par de palabras con una puntuación mayor o igual que el umbral T. Cualquier acierto de este tipo se amplía para determinar si está contenido dentro de un par de segmentos cuya puntuación es mayor o igual que S. Cuanto menor sea el umbral T, mayor será la probabilidad de que un par de segmentos con una puntuación de al menos S contenga un par de palabras con una puntuación de al menos T. Sin embargo, un valor pequeño de T aumenta el número de aciertos y, por lo tanto, el tiempo de ejecución del algoritmo. La simulación aleatoria nos permite seleccionar un umbral T que equilibra estas consideraciones.

En nuestra implementación de este enfoque, los detalles de los 3 pasos algorítmicos (a saber, compilar una lista de palabras de alta puntuación, escanear la base de datos en busca de aciertos y ampliar los aciertos) varían un poco dependiendo de si la base de datos contiene proteínas o secuencias de ADN. Para las proteínas, la lista consta de todas las palabras (w -mers) que puntúan al menos T en comparación con alguna palabra en la secuencia de consulta. Por lo tanto, una palabra de consulta puede estar representada por ninguna palabra en la lista (por ejemplo, para w -mers comunes que usan puntuaciones PAM-120) o por muchas. (Por supuesto, se puede insistir en que cada w -mer en la secuencia de consulta se incluya en la lista de palabras, independientemente de si emparejar la palabra consigo misma arroja una puntuación de al menos T). Para los valores de w y T que tenemos encontrado más útil (ver más abajo), normalmente hay del orden de 50 palabras en la lista para cada residuo en la secuencia de consulta, p. ej. 12.500 palabras para una secuencia de 250 de longitud. Si se tiene un poco de cuidado en la programación, la lista de palabras se puede generar en un tiempo esencialmente proporcional a la longitud de la lista.

La fase de exploración planteó un problema algorítmico clásico, es decir, buscar en una secuencia larga todas las apariciones de ciertas secuencias cortas. Investigamos 2 enfoques. Simplificado, el primero funciona de la siguiente manera. suponga que w = 4 y asigne cada palabra a un número entero entre 1 y 20 4, por lo que una palabra se puede utilizar como índice en una matriz de tamaño 20 4 = 160.000. Deje que la i-ésima entrada de dicha matriz apunte a la lista de todas las ocurrencias en la secuencia de consulta de la i-ésima palabra. Por lo tanto, a medida que escaneamos la base de datos, cada palabra de la base de datos nos lleva inmediatamente a los resultados correspondientes. Por lo general, solo unos pocos miles de las 20 4 palabras posibles estarán en esta tabla, y es fácil modificar el enfoque para usar mucho menos de 20 4 punteros.

El segundo enfoque que exploramos para la fase de exploración fue el uso de un autómata finito determinista o una máquina de estados finitos (Mealy, 1955 Hopcroft y Ullman, 1979). Una característica importante de nuestra construcción fue señalar la aceptación de las transiciones (paradigma de Mealy) en contraposición a los estados (paradigma de Moore). En la construcción del autómata, esto ahorró un factor de espacio y tiempo aproximadamente proporcional al tamaño del alfabeto subyacente. Este método produjo un programa que se ejecutó más rápido y preferimos este enfoque para uso general. Con longitudes de consulta típicas y configuraciones de parámetros, esta versión de BLAST escanea una base de datos de proteínas a aproximadamente 500,00 residuos / s.

Extender un hit para encontrar un par de segmentos máximo local que contenga ese hit es sencillo. Para economizar tiempo, terminamos el proceso de extender en una dirección cuando llegamos a un par de segmentos cuya puntuación cae una cierta distancia por debajo de la mejor puntuación encontrada para extensiones más cortas. Esto introduce una desviación adicional del ideal de encontrar MSP garantizados, pero la inexactitud adicional es insignificante, como se puede demostrar tanto por el experimento como por el análisis (por ejemplo, para las comparaciones de proteínas, la distancia predeterminada es 20, y la probabilidad de perder una extensión de puntuación más alta es aproximadamente 0,001).

Para el ADN, usamos una lista de palabras más simple, es decir, la lista de todos los w -mers contiguos en la secuencia de consulta, a menudo con w = 12. Por lo tanto, una secuencia de consulta de longitud n produce una lista de n-w + 1 palabras, y nuevamente normalmente hay unos pocos miles de palabras en la lista. Es ventajoso comprimir la base de datos empaquetando 4 nucleótidos en un solo byte, usando una tabla auxiliar para delimitar los límites entre secuencias adyacentes. Suponiendo que w & ge 11, cada hit debe contener un hit de 8 meros que se encuentra en un límite de bytes. Esta observación nos permite escanear la base de datos por bytes y, por lo tanto, aumentar la velocidad 4 veces. Para cada hit de 8 mer, verificamos si hay un hit w -mer adjunto, si se encuentra, lo ampliamos como antes. Ejecutando en un SUN4, con una consulta de longitud típica (por ejemplo, varios miles de bases), BLAST escanea a aproximadamente 2 x 10 6 bases / s. En las instalaciones que ejecutan muchas de estas búsquedas al día, cargar la base de datos comprimida en la memoria una vez en un esquema de memoria compartida permite un ahorro sustancial en los tiempos de búsqueda posteriores.

Cabe señalar que las secuencias de ADN son altamente no aleatorias, con una composición de bases sesgada localmente (por ejemplo, regiones ricas en A + T) y elementos de secuencia repetidos (por ejemplo, secuencias de Alu) y esto tiene importantes consecuencias para el diseño de una búsqueda en una base de datos de ADN. herramienta. Si una secuencia de consulta dada tiene, por ejemplo, una subsecuencia rica en A + T, o un elemento repetitivo que ocurre comúnmente, entonces una búsqueda en la base de datos producirá una gran cantidad de coincidencias con poco interés. Hemos diseñado un medio un tanto ad hoc pero eficaz para abordar estos 2 problemas. El programa que produce la versión comprimida de la base de datos de ADN tabula las frecuencias de todas las 8 tuplas. Aquellos que ocurren con mucha más frecuencia de lo esperado por casualidad (controlables por parámetro) se almacenan y utilizan para filtrar palabras "no informativas" de la lista de palabras de consulta. Además, antes de las búsquedas completas en la base de datos, se realiza una búsqueda en una sub-biblioteca de elementos repetitivos y se almacenan las ubicaciones en la consulta de coincidencias significativas. Las palabras generadas por estas regiones se eliminan de la lista de palabras de consulta para la búsqueda completa. Sin embargo, las coincidencias con la sub-biblioteca se informan en el resultado final. Estos 2 filtros permiten que se notifiquen alineaciones a regiones con composición sesgada, o regiones que contienen elementos repetitivos, siempre que las regiones adyacentes que no contengan tales características compartan una similitud significativa con la secuencia de consulta.

La estrategia BLAST admite numerosas variaciones. Implementamos una versión de BLAST que usa programación dinámica para extender los hits a fin de permitir huecos en las alineaciones resultantes. No hace falta decir que esto ralentiza enormemente el proceso de extensión. Si bien la sensibilidad de las búsquedas de aminoácidos mejoró en algunos casos, también se redujo la selectividad. Dada la compensación de la velocidad y la selectividad por la sensibilidad, es cuestionable si la versión gap de BLAST constituye una mejora. También implementamos la alternativa de hacer una tabla de todas las ocurrencias de w -mers en la base de datos, luego escanear la secuencia de consulta y procesar los hits. Los requisitos de espacio en disco son considerables, aproximadamente 2 palabras de computadora por cada residuo en la base de datos. Más dañino fue que para las secuencias de consulta de longitud típica, la necesidad de acceso aleatorio a la base de datos (a diferencia del acceso secuencial) hizo que el enfoque fuera más lento, en los sistemas informáticos que usamos, que escanear toda la base de datos.

3. Resultados

Para evaluar la utilidad de nuestro método, describimos los resultados teóricos sobre la significación estadística de las puntuaciones de MSP, estudiamos la precisión del algoritmo para secuencias aleatorias en las puntuaciones de MSP aproximadas, comparamos el rendimiento de la aproximación con el cálculo completo en un conjunto de proteínas relacionadas secuencias y, finalmente, demostrar su rendimiento comparando largas secuencias de ADN.

(a) Rendimiento de BLAST con secuencias aleatorias

Recientemente se han obtenido resultados teóricos sobre la distribución de las puntuaciones de MSP a partir de la comparación de secuencias aleatorias (Karlin y Altschul, 1990 Karlin et al., 1990). En resumen, dado un conjunto de probabilidades para la aparición de residuos individuales y un conjunto de puntuaciones para alinear pares de residuos, la teoría proporciona dos parámetros & lambda y K para evaluar la significación estadística de las puntuaciones MSP. Cuando se comparan dos secuencias aleatorias de longitudes myn, la probabilidad de encontrar un par de segmentos con una puntuación mayor o igual que S es:

donde y = Kmn e - & lambdaS. De manera más general, la probabilidad de encontrar c o más pares de segmentos distintos, todos con una puntuación de al menos S, viene dada por la fórmula:

1 - e -y Sum_i = 0-> c -1 (y i / i!). (2)

Usando esta fórmula, dos secuencias que comparten varias regiones distintas de similitud a veces pueden detectarse como significativamente relacionadas, incluso cuando ningún par de segmentos es estadísticamente significativo de forma aislada.

Si bien encontrar un MSP con un valor de p de 0,001 puede resultar sorprendente cuando se comparan dos secuencias específicas, es probable que la búsqueda en una base de datos de 10.000 secuencias para la similitud con una secuencia de consulta dé como resultado diez pares de segmentos de este tipo simplemente por casualidad. Los valores p de los pares de segmentos deben descontarse en consecuencia cuando los segmentos similares se descubren mediante búsquedas ciegas en la base de datos. Utilizando la fórmula (1), podemos calcular la puntuación aproximada que debe tener un MSP para poder distinguirse de las similitudes fortuitas encontradas en una base de datos.

Estamos interesados ​​en encontrar solo pares de segmentos con una puntuación por encima de algún límite S. La idea central del algoritmo BLAST es limitar la atención a los pares de segmentos que contienen un par de palabras de longitud w con una puntuación de al menos T. Por tanto, es interesante saber qué proporción de pares de segmentos con una puntuación determinada contienen dicho par de palabras. Esta pregunta tiene sentido solo en el contexto de alguna distribución de pares de segmentos de alta puntuación. Para las MSP que surgen de la comparación de secuencias aleatorias, Dembo y Karlin (1991) proporcionan una distribución tan limitante. Aún no existe una teoría para calcular la probabilidad q de que tal par de segmentos no contenga un par de palabras con una puntuación de al menos T. Sin embargo, un argumento sugiere que q debería depender exponencialmente de la puntuación del MSP. Debido a que las frecuencias de las letras emparejadas en los MSP se acercan a una distribución limitante (Karlin y Altschul, 1990), la longitud esperada de un MSP crece linealmente con su puntuación. Por lo tanto, cuanto más largo sea un MSP, más posibilidades independientes tendrá de contener una palabra con una puntuación de al menos T, lo que implica que q debería disminuir exponencialmente al aumentar la puntuación S del MSP.

Para probar esta idea, generamos un millón de pares de & ldquorandom protein secuencias & rdquo (usando frecuencias típicas de aminoácidos) de longitud 250, y encontramos el MSP para cada uno usando puntajes PAM-120. En la Figura 1, graficamos el logaritmo de la fracción q de MSP con puntaje S que no contienen un par de palabras de longitud cuatro con puntaje de al menos 18. Dado que los valores mostrados están sujetos a variación estadística, las barras de error representan una desviación estándar. Se traza una línea de regresión, lo que permite la heterocedasticidad (diferentes grados de precisión de los valores de y). El coeficiente de correlación para -ln (q) y S es 0.999, lo que sugiere que, para propósitos prácticos, nuestro modelo de dependencia exponencial de q sobre S es válido.

Repetimos este análisis para una variedad de longitudes de palabras y valores asociados de T. La Tabla 1 muestra los parámetros de regresión ayb encontrados para cada instancia la correlación fue siempre mayor que 0.995. La Tabla 1 también muestra el porcentaje implícito q = e - (aS + b) de MSP con varios puntajes que el algoritmo BLAST podría perder. Por supuesto, estos números se aplican correctamente solo a los MSP casuales. Sin embargo, utilizando una matriz de puntuación logarítmica de probabilidades como la PAM-120 que se basa en estudios empíricos de proteínas homólogas, las MSP de probabilidad de alta puntuación deberían parecerse a las MSP que reflejan la verdadera homología (Karlin y Altschul, 1990). Por lo tanto, la Tabla 1 debe proporcionar una guía aproximada del rendimiento de BLAST en MSP homólogas y al azar.

Basado en los resultados de Karlin et al. (1990), la Tabla 1 también muestra el número esperado de MSP que se encuentran al buscar en una base de datos aleatoria de 16.000 secuencias de proteínas de 250 de longitud con una consulta de 250 de longitud. (Estos números se eligieron para aproximar el tamaño actual de la base de datos PIR y la longitud de una proteína promedio). Como se ve en la Tabla 1, es probable que solo los MSP con una puntuación superior a 55 se puedan distinguir de las similitudes fortuitas. Con w = 4 y T = 17, BLAST debería perder solo alrededor de una quinta parte de los MSP con esta puntuación, y solo alrededor de una décima parte de los MSP con una puntuación cercana a 70. Consideraremos a continuación el rendimiento del algoritmo en datos reales.

(b) La elección de la longitud de la palabra y los parámetros de umbral.

¿Sobre qué base elegimos la configuración particular de los parámetros wy T para ejecutar BLAST en datos reales? Comenzamos considerando la longitud de la palabra w.

El tiempo requerido para ejecutar BLAST es la suma de los tiempos requeridos (1) para compilar una lista de palabras que pueden puntuar al menos T en comparación con las palabras de la consulta (2) para escanear la base de datos en busca de resultados (es decir, coincidencias con las palabras en esta lista) y (3) para extender todos los aciertos para buscar pares de segmentos con puntajes que excedan el límite. El tiempo para la última de estas tareas es proporcional al número de aciertos, que claramente depende de los parámetros w y T. dado un modelo de proteína aleatorio y un conjunto de puntuaciones de sustitución, es sencillo calcular la probabilidad de que dos palabras aleatorias de longitud ww tengan una puntuación de al menos T, es decir, la probabilidad de que un acierto surja de un par arbitrario de palabras en el consulta y la base de datos. Utilizando el modelo aleatorio y los puntajes de la sección anterior, hemos calculado estas probabilidades para una variedad de opciones de parámetros y las registramos en la Tabla 1. Para un nivel dado de sensibilidad (probabilidad de perder un MSP), uno puede preguntar qué elección de w minimiza la posibilidad de un golpe. Examinando la Tabla 1, es evidente que los pares de parámetros (w = 3, T = 14), (w = 4, T = 16) y (w = 5, T = 18) tienen todos una sensibilidad aproximadamente equivalente en el rango relevante de puntajes de corte. Se ve que la probabilidad de un acierto producido por estos pares de parámetros disminuye al aumentar w, lo mismo también se aplica a diferentes niveles de sensibilidad. Esto tiene un sentido intuitivo, ya que cuanto más se examina el par de palabras, más información se obtiene sobre los posibles MSP. Manteniendo un nivel dado de sensibilidad, podemos por lo tanto disminuir el tiempo empleado en el paso (3), arriba, aumentando el parámetro w. Sin embargo, existen problemas complementarios creados por la gran w. Para las proteínas hay 20 w palabras posibles de longitud w, y para un nivel dado de sensibilidad, el número de palabras generadas por una consulta crece exponencialmente con w. (Por ejemplo, utilizando los 3 pares de parámetros anteriores, se encontró que una secuencia de 30 residuos genera listas de palabras de tamaño 296, 3561 y 40,939 respectivamente). Esto aumenta el tiempo dedicado al paso (1) y la cantidad de memoria requerida. En la práctica, hemos encontrado que para las búsquedas de proteínas, el mejor compromiso entre estas consideraciones es con un tamaño de palabra de cuatro, este es el ajuste de parámetros que usamos en todos los análisis que siguen.

Aunque reducir el umbral T mejora la aproximación de las puntuaciones de MSP por BLAST, también aumenta el tiempo de ejecución porque habrá más palabras generadas por la secuencia de consulta y, por lo tanto, más aciertos. ¿Qué valor de T proporciona un compromiso razonable entre las consideraciones de sensibilidad y tiempo? Para proporcionar datos numéricos, comparamos una secuencia aleatoria de 250 residuos con toda la base de datos PIR (Versión 23.0, 14.372 entradas y 3.977.903 residuos) con un T que va de 20 a 13. En la Figura 2 graficamos el tiempo de ejecución (tiempo del usuario en un SUN4- 280) versus el número de palabras generadas para cada valor de T. Aunque existe una relación lineal entre el número de palabras generadas y el tiempo de ejecución, el número de palabras generadas aumenta exponencialmente al disminuir T en este rango (como se ve por el espaciado de los valores de x). Esta gráfica y un análisis simple revelan que la complejidad computacional del tiempo esperado de BLAST es aproximadamente aW + bN + cNW / 20 w, donde W es el número de palabras generadas, N es el número de residuos en la base de datos y a, by c son constantes. El término W representa la compilación de la lista de palabras, el término N cubre el escaneo de la base de datos y el término NW es para extender los resultados. Aunque la cantidad de palabras generadas, W, aumenta exponencialmente al disminuir T, aumenta solo linealmente con la longitud de la consulta, de modo que al duplicar la longitud de la consulta se duplica la cantidad de palabras. Hemos descubierto en la práctica que T = 17 es una buena elección para el umbral porque, como se analiza a continuación, la reducción del parámetro proporciona una pequeña mejora en la detección de homologías reales.

La compensación directa de BLAST entre precisión y velocidad se ilustra mejor en la Tabla 2. Dada una probabilidad q específica de perder una oportunidad MSP con puntuación S, se puede calcular qué parámetro de umbral T se requiere y, por lo tanto, el tiempo de ejecución aproximado. Combinando los datos de la Tabla 1 y la Figura 2, la Tabla 2 muestra los tiempos de la unidad central de procesamiento requeridos (para varios valores de q y S) para buscar en la base de datos PIR actual con una secuencia de consulta aleatoria de longitud 250. Tener alrededor de un 10% de probabilidad de perder un MSP con una puntuación estadísticamente significativa de 70 requiere alrededor de nueve segundos de tiempo de la unidad central de procesamiento. Reducir la posibilidad de perder un MSP de este tipo al 2% implica reducir T, duplicando así el tiempo de ejecución. La Tabla 2 ilustra, además, que cuanto más alta sea la puntuación (y estadísticamente más significativa) de un MSP, menos tiempo se requiere para encontrarlo con un determinado grado de certeza.

(c) Rendimiento de BLAST con secuencias homólogas

Para estudiar el rendimiento de BLAST en datos reales, comparamos una variedad de proteínas con otros miembros de sus respectivas superfamilias (Dayhoff, 1978), calculando las puntuaciones reales de MSP, así como la aproximación BLAST con una longitud de palabra de cuatro y varios ajustes del parámetro. T. Solo con superfamilias que contienen muchas proteínas relacionadas lejanamente podríamos obtener resultados comparables de manera útil con el modelo aleatorio de la sección anterior. Al buscar las globinas con mioglobina de mono lanudo (código PIR MYMQW), encontramos 178 secuencias que contienen MSP con puntajes entre 50 y 80. Usando la longitud de palabra cuatro y el parámetro T 17, el modelo aleatorio sugiere que BLAST debería perder alrededor de 24 de estos MSP, de hecho, pierde 43. Este rendimiento más pobre de lo esperado se debe al patrón uniforme de conservación en las globinas, lo que resulta en un número relativamente pequeño de palabras de alta puntuación entre proteínas relacionadas lejanamente. Se proporcionó un ejemplo contrario comparando la región V precursora de la cadena kappa e inmunoglobulina de ratón (código PIR KVMST1) con secuencias de inmunoglobulina, usando los mismos parámetros que anteriormente. De los 33 MSP con puntajes entre 45 y 65, BLAST solo falló dos, el modelo aleatorio sugiere que debería haber fallado ocho. En general, se ha demostrado que la distribución de mutaciones a lo largo de secuencias está más agrupada de lo que predice un proceso de Poisson (Uzzell y Corbin, 1971), y por lo tanto, la aproximación BLAST debería, en promedio, funcionar mejor en secuencias reales que lo predicho por el proceso aleatorio. modelo.

La gran utilidad de BLAST es encontrar rápidamente MSP de alta puntuación. En los ejemplos anteriores, el algoritmo encontró todas menos una de las 89 MSP de globina con una puntuación superior a 80 y todas las 125 MSP de inmunoglobulina con una puntuación superior a 50. El rendimiento general de BLAST depende de la distribución de las puntuaciones MSP para esas secuencias. relacionados con la consulta. En muchos casos, la mayor parte de los MSP que se distinguen del azar tienen una puntuación lo suficientemente alta como para ser encontrados fácilmente por BLAST, incluso usando valores relativamente altos del parámetro T. La Tabla 3 muestra el número de MSP con una puntuación por encima de un umbral dado encontrado por BLAST al buscar una variedad de superfamilias usando una variedad de parámetros T. En cada caso, el umbral S se elige para incluir puntuaciones en la región límite, que en una búsqueda de base de datos completa incluiría similitudes al azar así como relaciones biológicamente significativas. Incluso con T igual a 18, prácticamente todos los MSP estadísticamente significativos se encuentran en la mayoría de los casos.

Comparando BLAST (con parámetros w = 4, T = 17) con el programa FASTP ampliamente utilizado (Lipman & Pearson, 1985 Pearson & Lipman, 1988) en su modo más sensible (ktup = 1), hemos encontrado que BLAST es comparable sensibilidad, generalmente produce menos falsos positivos (coincidencias de alta puntuación pero no relacionadas con la consulta) y es más rápido en un orden de magnitud.

(d) Comparación de dos secuencias de ADN largas

Existen datos de secuencia para una sección de 73.360 pb del genoma humano que contiene el grupo de genes de globina similar a beta y para una sección correspondiente de 44.595 pb del genoma de conejo (Margot et al., 1989). El par exhibe tres clases principales de regiones localmente similares, a saber, genes, repeticiones largas intercaladas y ciertas similitudes más débiles anticipadas, como se describe a continuación. We used the BLAST algorithm to locate locally similar regions that can be aligned without introduction of gaps.

The human gene cluster contains six globin genes, denoted &epsilon, G &gamma , A &gamma , &eta , &delta and &beta . (Actually, rabbit &delta is a pseudogene.) Each of the 24 gene pairs, one human gene and one rabbit gene, constitutes a similar pair. An alignment of such a pair requires insertion and deletions, since the three exons of one gene generally differ somewhat in their lengths from the corresponding exons of the paired gene, and there are even more extensive variations among the introns. Thus, a collection of the highest scoring alignments between similar regions can be expected to have at least 24 alignments between gene pairs.

Mammalian genomes contain large numbers of long interspersed repeat sequences, abbreviated LINES . In particular, the human &beta -like globin cluster contains two overlapped L1 sequences (a type of LINE ) and the rabbit cluster has two tandem L1 sequences in the same orientation, both around 6000 bp in length. These human and rabbit L1 sequences are quite similar and their lengths make them highly visible in similarity computations. In all, eight L1 sequences have been cited in the human cluster and five in the rabbit cluster, but because of their reduced length and/or reversed orientation, the other published L1 sequences do not affect the results discussed below. Very recently, another piece of an L1 sequence has been discovered in the rabbit cluster (Huang et al. , 1990).

Evolution theory suggests that an ancestral gene cluster arranged as 5'- &epsilon-&gamma-&eta-&delta-&beta -3' may have existed before the mammalian radiation. Consistent with this hypothesis, there are inter-gene similarities within the &beta clusters. For example, there is a region between human &epsilon and G &gamma that is similar to a region between rabbit &epsilon and &gamma .

We applied a variant of the BLAST programs to these two sequences, with match score 5, mismatch score -4 and, initially, w = 12. The program found 98 alignments scoring over 200, with 1301 being the highest score. Of the 57 alignments scoring over 350, 45 paired genes (with each of the 24 possible gene pairs represented) and the remaining 12 involved L1 sequences. Below 350, inter-gene similarities (as described above) appear, along with additional alignments of genes and of L1 sequences. Two alignments with scores between 200 and 350 do not fit the anticipated pattern. One reveals the newly discovered section of L1 sequence. The other aligns a region immediately 5' from the human &beta gene with a region just 5' from rabbit &delta . This last alignment may be the result of an intrachromosomal gene conversion between &delta and &beta in the rabbit genome (Hardison & Margot, 1984).

With smaller values of w , more alignments are found. In particular, with w = 8, an additional 32 alignments are found with a score above 200. All of these fall in one of the three classes discussed above. Thus, use of a smaller w provides no essentially new information. The dependence of various values on w is given in Table 4. Time is measured in seconds on a SUN4 for a simple variant of BLAST that works with uncompressed DNA sequences.

4. Conclusión

The concept underlying BLAST is simple and robust and therefore can be implemented in a number of ways and utilized in a variety of contexts. As mentioned above, one variation is to allow for gaps in the extension step. For the applications we have had in mind, the tradeoff in speed proved unacceptable, but this may not be true for other applications. We have implemented a shared memory version of BLAST that loads the compressed DNA file into memory once, allowing subsequent searches to skip this step. We are implementing a similar algorithm for comparing a DNA sequence to the protein database, allowing translation in all six reading frames. This permits the detection of distant protein homologies even in the face of common DNA sequencing errors (replacements and frame shifts). C.B. Lawrence (personal communication) has fashioned score matrices derived from consensus pattern matching methods (Smith & Smith, 1990), and different from the PAM-120 matrix used here, which can greatly decrease the time of database searches for sequence motifs.

The BLAST approach permits the construction of extremely fast programs for database searching that have the further advantage of amenability to mathematical analysis. Variations of the basic idea as well as alternative implementations, such as those described above, can adapt the method for different contexts. Given the increasing size of sequence databases, BLAST can be a valuable tool for the molecular biologist. A version of BLAST in the C programming language is available from the authors upon request (write to W. Gish) it runs under both 4.2 BSD and AT&T System V UNIX operating systems.

W.M. is supported in part by NIH grant LM05110, and E.W.M. is supported in part by NIH grant LM04960.

Referencias

Collins JF, Coulson AF, Lyall A. (1987). Computación. J. 30 :420-424.

Dayhoff MO. (1978). Editor of Atlas of Protein Sequence and Structure , vol. 5, suppl. 3, Nat. Biomed. Res. Found., Washington, DC.

dayhoff MO, Schwartz RM, Orcutt BC. (1978). In Atlas of Protein Sequence and Structure (Dayhoff MO ed.), vol. 5, suppl. 3, pp. 345-352, Nat. Biomed. Res. Found., Washington, DC.

Dembo A, Karlin S. (1991). Ann. Prob. in the press.

Goad WB, Kanehisa MI. (mil novecientos ochenta y dos). Nucl. Acids Res. 10 :247-263.

Hardison RC, Margot JB. (1984). Mol. Biol. Evol. 1 :302-316.

Hopcroft JE, Ullman JD. (1979). In Introduction to Automata Theory, Languages, and Computation , pp. 42-45, Addison-Wesley, Reading, MA.

Huang X, Hardison RC, Miller W. (1990). Computación. Appl. Biosci. In the press.

Karlin S, Altschul SF. (1990). Proc. Natl. Acad. Sci. U.S.A. 87 :2264-2268.

Karlin S, Dembo A, Kawabata T. (1990). Ann. Stat. 18 :571-581.

Lipman DJ, Pearson WR. (1985). Science 227 :1435-1441.

Margot JB, Demers GW, Hardison RC. (1989). J. Mol. Biol. 205 :15-40.

Mealy GH. (1955). Bell System Tech. J. 34 :1045-1079.

Needleman SB, Wunsch CD. (1970). J. Mol. Biol. 48 :443-453.

Pearson WR, Lipman DJ. (1988). Proc. Natl. Acad. Sci. U.S.A. 85 :2444-2448.

Sankoff D, Kruskal JB. (1988). Time Warps, String Edits and Macromolecules: The Theory and Practice of Sequence Comparison , Addison-Wesley, Reading, MA.

Sellers PH. (1974). SIAM J. Appl. Matemáticas. 26 :787-793.

Sellers PH. (1984). Bull. Matemáticas. Biol. 46 :501-514.

Smith RF, Smith TF. (1990). Proc. Natl. Acad. Sci. U.S.A. 87 :118-122.

Smith TF, Waterman MS. (1981). Advan. Appl. Matemáticas. 2 :482-489.

Uzzell T, Corbin KW. (1971). Science 172 :1089-1096.

Mesas

Table 1. The probability of a hit at various settings of the parameters w and T , and the proportion of random MSPs missed by BLAST

Table 2. The central processing unit time required to execute BLAST as a function of the approximate probability q of missing an MSP with score S

Table 3. The number of MSPs found by BLAST when searching various protein superfamilies in the PIR database (Release 22.0)

Table 4. The time and sensitivity of BLAST on DNA sequences as a function of w

Cifras

Figure 1. The probability q of BLAST missing a random maximal segment pair as a function of its score S .

Figure 2. The central processing unit time required to execute BLAST on the PIR protein database (Release 23.0) as a function of the size of the word list generated. Points correspond to values of the threshold parameter T ranging from 13 to 20. Greater values of T imply fewer words in the list.


The BLAST algorithm

  1. Split query into overlapping words of length W (the W-mers)
  2. Find a &ldquoneighborhood&rdquo of similar words for each word (see below)
  3. Lookup each word in teh neighborhood in a hash table to find the location in the database where each word occurs. Call these the semillas, and let S be the collection of seeds.
  4. Extend the seeds in S until the score of the alignment drops off below some threshold X.
  5. Report matches with overall highest scores

Figure 3.13: The BLAST Algorithm

The pre-processing step of BLAST makes sure that all substrings of W nucleotides will be included in our database (or in a hash table). These are called the W -mers of the database. As in step 1, we first split the query by looking at all substrings of W consecutive nucleotides in the query. To find the neighborhood of these W-mers, we then modify these sequences by changing them slightly and computing their similarity to the original sequence. We generate progressively more dissimilar words in our neighborhood until our similarity measure drops below some threshold T. This affords us flexibility to find matches that do not have exactly W consecutive matching characters in a row, but which do have enough matches to be considered similar, i.e. to meet a certiain threshold score.

Then, we look up all of these words in our hash table to find seeds of W consecutive matching nucleotides. We then extend these seeds to find our alignment using the Smith-Waterman algorithm for local alignment, until the score drops below a certain threshold X. Since the region we are considering is a much shorter segment, this will not be as slow as running the algorithm on the entire DNA database.

It is also interesting to note the influence of various parameters of BLAST on the performance of the algorithm vis-a-vis run-time and sensitivity:

  • W Although large W would result in fewer spurious hits/collisions, thus making it faster, there are also tradeoffs associated, namely: a large neighborhood of slightly different query sequences, a large hash table, and too few hits. On the other hand, if W is too small, we may get too many hits which pushes runtime costs to the seed extension/alignment step.
  • T If T is higher, the algorithm will be faster, but you may miss sequences that are more evolutionarily distant. If comparing two related species, you can probably set a higher T since you expect to find more matches between sequences that are quite similar.
  • X Its influence is quite similar to T in that both will control the sensitivity of the algorithm. While W and T affect the total number of hits one gets, and hence affect the runtime of the algorithm dramatically, setting a really stringent X despite less stringent W and T, will result runtime costs from trying unnecessary sequences that would not meet the stringency of X. So, it is important to match the stringency of X with that of W and T to avoid unnecessary computation time.

SEQUENCE FILTERING

Low-complexity regions have fewer sequence characters in them because of repeats of the same sequence character or pattern. These sequences produce artificially high-scoring alignments that do not accurately convey sequence relationships in sequence similarity searches. Regions of low complexity or repetitive sequences may be readily visualized in a dot matrix analysis of a sequence against itself. Low-complexity regions with a repeat occurrence of the same residue can appear on the matrix as horizontal and vertical rows of dots representing repeated matches of one residue position in one copy of the sequence against a series of the same residue in the second copy. Repeats of a sequence pattern appear in the same matrix as short diagonals of identity that are offset from the main diagonal. Such sequences should be excluded from sequence similarity searches.

The BLAST programs include a feature for filtering the query sequence through programs that search for low-complexity regions. Filtering is applied only to the query sequence and not to the database sequences. Low-complexity regions are marked with an X (protein sequences) or N (nucleic acid sequences) and are then ignored by the BLAST program. Removing low-complexity and repeat sequences increases emphasis on the more significant database hits. The NCBI programs SEG and PSEG are used to mask amino acid sequences, and NSEG is used to mask nucleic acid sequences (Wootten and Federhen 1993, 1996). The SEG programs are available by anonymous FTP from ftp://ftp.ncbi.nih.gov/pub/seg/, including documentation. The program DUST is also used for DNA sequences (see Filter under BLAST Search Parameters at http://www.ncbi.nlm.nih.gov/BLAST/blastcgihelp.shtml). RepeatMasker (described later) is another program for this same purpose.

The compositional complexity in a window of sequence of length L is given by (Wootten and Federhen 1996):

dónde norte is 4 for nucleic acid sequences and 20 for protein sequences, and are the numbers of each residue in the window. K will vary from 0 for very low complexity to 1 for high complexity. Thus, complexity is given by:

Compositional complexities are sometimes calculated to produce K scores in bit units of logarithms to the base 2. A sliding window (usually 12 residues) is moved along the sequence, and the complexity is calculated at each position. Regions of low complexity are identified using Equation 1, neighboring low-complexity regions are then joined into longer regions, and the resulting region is then reduced to a single optimal segment by a minimization procedure. The SEG program is used for analysis of either proteins or nucleic acids by the above methods. PSEG and NSEG are similar to SEG but are set up for analysis of protein and nucleic acid sequences, respectively. These versatile programs may also be used for locating specific sequence patterns that are characteristic of exons or protein structural domains. In database searches involving comparisons of genomic DNA sequences with EST sequence libraries, use of repeat masking is important for filtering output to the most significant matches because of the presence of a variety of repetitive sequences ranging from mononucleotide repeats to larger repeated elements in genomes (Claverie 1996).

In addition to low-complexity regions, BLAST will also filter out repeat elements (such as human SINE and LINE retroposons). Another filtering program for repeats of periodicity <10 residues called XNU (Claverie and States 1993) is used by the BLAST stand-alone programs, but is not available on the NCBI server.

Another important Web server, RepeatMasker (http://ftp.genome.washington.edu/), screens sequences for interdispersed repeats known to be present in mammalian genomes and also can filter out low-complexity regions (A.F.A. Smeet and P. Green, see Web site above). A dynamic programming search program, cross-match (P. Green, see Web site), performs a search of a repeat database with the query sequence (Claverie 1996). A database of repetitive elements (Repbase) maintained at http://www.girinst.org by the Genetics Information Research Institute (Jurka 1998) can also be used for this purpose.


Behind the scenes of BLAST

The NCBI estimates that about 200,000 “queries” (that’s your submission of a sequence) are made every week. However, depending on how many sequences you enter and how long those sequences are, you can get results back in a few minutes, possibly a handful of seconds.

BLAST works by detecting local alignments between sequences that work the best. The BLAST computers start with a small set of three letters, which they call the “query word.” These letters will represent three amino acids or nucleotides, in a specific order (for example, the nucleotides ATC, in that order). The BLAST search then looks for the number of times (and places along the sequence) in which this three-letter “word” appears. It will also look for closely related “words” in which one letter is different. Then, each query is scored to determine which database is “in the neighborhood” of your sample.


BLAST(Basic Local Alignment Search Tool) is heuristic? - biología

BIO306 Genetics: Lab BLAST Assignment (35 pts)

You have already obtained the DNA sequence that encodes the normal (“wild type”) version of the mutant gene (or genes) you are studying. There are several predictions that can be made using this information. The simplest is to predict the amino acids that are encoded by the sequence. Analysis of the amino acid sequence of a protein can yield information about the possible functions and structures found in the protein.

Another form of analysis is to compare the DNA sequence to other known sequences. This can indicate how conserved a gene may be between different species. Often, if we do not know the function of our gene, we can use the comparison of our DNA sequence with those previously described from other species to predict a similar gene whose function may be known, or at least more easily discovered.

In this experiment you will use your gene’s DNA sequence to do a BLASTN (BLAST, basic local alignment search tool, N, nucleotide) search of the Genbank database. The list of results will consist of sequences from other non-Drosophila organismos.

The output of the BLASTN search is a table of sequences and scores. We will only focus on two columns of information from this table. In the second column of the table, the name of the DNA sequence is listed as entered by the researchers who submitted the sequence. Further to the right is a column labeled “E value”. The E value is a score that predicts the likelihood that your sequence and the sequence in the table aligned by random chance.

Click here for instructions on how to perform the BLASTN search.

Click here for an example of a search with an analysis of the data.

Click here to download the questions that you must answer for the assignment.

Click here to access the papers needed to determine the wild-type function of your fly genes.


Forward

Reading a book such as this brings home how much BLAST-now in its teenage years-has grown, and provides an occasion for fond reflection. BLAST was born in the first months of 1989 at the National Center for Biotechnology Information (NCBI). The Center had been created at the National Institutes of Health in November 1988, by an act of the U.S. Congress, to foster the development of a field that then had no widely accepted name, but which has since come to be known as "Bioinformatics." In early 1989, David Lipman, my post-doctoral advisor, who at the time was perhaps best known as a codeveloper of the FASTA program, was appointed director of NCBI. On the first of March we moved into new offices at the National Library of Medicine.The NCBI was small, but had large ambitions, and already a number of friends. Several of these well-wishers made it a point to drop by for a visit. Gene Myers, a computer scientist then at Arizona, arrived during a week in which Science was hyping a special-purpose computer chip for sequence comparison. He and David, software partisans both, were unimpressed and over dinner resolved to do better. Their original idea was to find not subtle sequence similarities, but fairly obvious ones, and to do it in a flash. Gene pursued a rigorous approach at first, but David, with a fine Darwinian wisdom, was willing to settle for imperfection. If one were to gamble, what kind of match could one expect a strong alignment to contain? Detailed algorithmic and code development on BLAST by Webb Miller-later to be joined by Warren Gish-had hardly begun before Sam Karlin, a Stanford mathematician, came calling. I had approached him a few months earlier with a conjecture concerning the asymptotic behavior of optimal ungapped local sequence alignments. Since then, he had spun this conjecture into a beautiful theory. Now, for the first time, rigorous statistics were available for alignment scoring systems of more than academic interest, and the essential nature of amino acid substitution matrices also began to come into clear focus. This theory dovetailed perfectly with the work that had just started on BLAST: both informing the selection of its algorithmic parameters, and yielding units for the alignment scores produced.

Although David chose BLAST's name as a bit of a pun on "FASTA" (it was only later that I realized "BLAST" to be an acronym), the new program was never intended to vie with the earlier one. Rather, the idea was to turn the "threshold parameter" way up, to find undoubted homologies before you take more than one sip of coffee. It surprised us all when BLAST started returning most weak similarities as well. Thus was born a sort of friendly competition with Bill Pearson's and David's earlier creation. From the start, BLAST had two major advantages to FASTA and one major disadvantage. In the plus column, BLAST was indeed much the faster, and it also boasted Sam's new statistics, which turned raw scores into E-values. However, BLAST could only produce ungapped local alignments, thereby often eliding large regions of similarity and sometimes completely missing weak alignments that FASTA, in its most sensitive but slowest mode, was able to find. These points of comparative advantage were healthy for both programs. In time, FASTA fit its scores to the extreme value distribution, yielding reliable statistical evaluations of its output. And by the mid '90s, Warren Gish's WU-BLAST from Washington University, and NCBI's BLAST releases, introduced gapped alignments, using differing algorithmic strategies. The result, at least for protein sequence comparisons, is that BLAST and FASTA have converged in many important ways, although there still remain significant differences.

The programs comprehended by the name "BLAST" have multiplied astonishingly in the nearly 15 years since the first one was conceived. Learning the best way to use these various programs for research can be a challenge, and this book is a significant aid.While BLAST's developers have done their best to make the programs' default behavior the most generally applicable, a sophisticated user still has many issues to consider.

To achieve speed, BLAST is a heuristic program. It isn't guaranteed to find every local alignment that passes its reporting criteria, and there are an array of parameters that control the shortcuts it takes.With the introduction of gapped alignments, the programs' complexity increased, as did the number of parameters that influence BLAST's tradeoff of speed and sensitivity. In a certain sense, however, these mechanics are the least important for a user to understand because, except for the occasional appearance or disappearance of a weak similarity, they don't greatly effect the programs' output. Perhaps of more importance is an understanding of attendant matters that are relevant to the effective use of any local alignment search method, such as the filtering of "low-complexity" sequence regions, the proper choice of scoring systems, and the correct interpretation of statistical significance. This book deals with these and many other matters, and nicely combines theoretical considerations with practical advice informed by these considerations.

The BLAST programs have been the fruit of much hard work by scores of talented programmers and scientists. This work continues, linking BLAST output to other databases, improving alignment formatting options, refining the types of queries that may be performed. Newer offshoots, such as PSI-BLAST for protein profile searches, also continue under development, and BLAST is thus a moving and a growing target. This book should prove a valuable guide for those wishing to use the programs to best effect.


Primer-BLAST now designs primers for a group of related sequences

Primer-BLAST now has a “Primers common for a group of sequences” submission tab that allows you to design primers for a group of highly similar sequences. For example, you may want test for expression of any transcript of gene rather than a specific splice variant, so you want to design primers to cover all transcript variants. Or you may want to design primers that will amplify the same gene in closely related bacteria strains. To find primers for a group of related sequences, Primer-BLAST aligns the longest sequence to the rest to find common regions. It uses these to limit the locations of primers. The longest sequence is also used as the representative template sequence in the results. Figure 1 shows an example search for primers that will amplify all of the 15 splice variants for the human TP53 gene.

Figure 1. Primer-BLAST submission page and results for primers designed for the human TP53 transcripts. Top panel: The submission form with the “Primers common for a group of sequences” selected and the 15 RefSeq transcript accessions for TP53. Middle panel: The graphical results showing the longest sequence (NM_001126114.3) as the representative template, the locations of the primer pairs, and the alignment of the other template sequences. Bottom panel: An individual primer pair showing the locations on each of the template sequences.

Please try out this new feature and let us know what you think!


Detailed Introduction

An overview of the BLASTP algorithm (a protein to protein search) is as follows: [7]

    Remove low-complexity region or sequence repeats in the query sequence.

"Low-complexity region" means a region of a sequence composed of few kinds of elements. These regions might give high scores that confuse the program to find the actual significant sequences in the database, so they should be filtered out. The regions will be marked with an X (protein sequences) or N (nucleic acid sequences) and then be ignored by the BLAST program. To filter out the low-complexity regions, the SEG program is used for protein sequences and the program DUST is used for DNA sequences. On the other hand, the program XNU is used to mask off the tandem repeats in protein sequences.

Take k=3 for example, we list the words of length 3 in the query protein sequence (k is usually 11 for a DNA sequence) "sequentially", until the last letter of the query sequence is included. The method is illustrated in figure 1.Fig. 1 The method to establish the k-letter query word list.

This step is one of the main differences between BLAST and FASTA. FASTA cares about all of the common words in the database and query sequences that are listed in step 2 however, BLAST only cares about the high-scoring words. The scores are created by comparing the word in the list in step 2 with all the 3-letter words. By using the scoring matrix (substitution matrix) to score the comparison of each residue pair, there are 20^3 possible match scores for a 3-letter word. For example, the score obtained by comparing PQG with PEG and PQA is 15 and 12, respectively. For DNA words, a match is scored as +5 and a mismatch as -4, or as +2 and -3. After that, a neighborhood word score threshold Tis used to reduce the number of possible matching words. The words whose scores are greater than the threshold T will remain in the possible matching words list, while those with lower scores will be discarded. For example, PEG is kept, but PQA is abandoned when T is 13.

This allows the program to rapidly compare the high-scoring words to the database sequences.

The BLAST program scans the database sequences for the remaining high-scoring word, such as PEG, of each position. If an exact match is found, this match is used to seed a possible un-gapped alignment between the query and database sequences.

    The original version of BLAST stretches a longer alignment between the query and the database sequence in the left and right directions, from the position where the exact match occurred. The extension does not stop until the accumulated total score of the HSP begins to decrease. A simplified example is presented in figure 2.

We list the HSPs whose scores are greater than the empirically determined cutoff scoreS. By examining the distribution of the alignment scores modeled by comparing random sequences, a cutoff score S can be determined such that its value is large enough to guarantee the significance of the remaining HSPs.

BLAST next assesses the statistical significance of each HSP score by exploiting theGumbel extreme value distribution (EVD). (It is proved that the distribution of Smith-Waterman local alignment scores between two random sequences follows the Gumbel EVD. For local alignments containing gaps it is not proved.). In accordance with the Gumbel EVD, the probability p of observing a score S equal to or greater than x is given by the equationwhereThe statistical parameters and are estimated by fitting the distribution of the un-gapped local alignment scores, of the query sequence and a lot of shuffled versions (Global or local shuffling) of a database sequence, to the Gumbel extreme value distribution. Note that and depend upon the substitution matrix, gap penalties, and sequence composition (the letter frequencies). and are the effective lengths of the query and database sequences, respectively. The original sequence length is shortened to the effective length to compensate for the edge effect (an alignment start near the end of one of the query or database sequence is likely not to have enough sequence to build an optimal alignment). They can be calculated aswhere is the average expected score per aligned pair of residues in an alignment of two random sequences. Altschul and Gish gave the typical values, , , and , for un-gapped local alignment using BLOSUM62 as the substitution matrix. Using the typical values for assessing the significance is called the lookup table method it is not accurate. The expect score E of a database match is the number of times that an unrelated database sequence would obtain a score S higher than x by chance. The expectation E obtained in a search for a database of D sequences is given byFurthermore, when , E could be approximated by the Poisson distribution asThis expectation or expect value "E" (often called an E score or E-value or e-value) assessing the significance of the HSP score for un-gapped local alignment is reported in the BLAST results. The calculation shown here is modified if individual HSPs are combined, such as when producing gapped alignments (described below), due to the variation of the statistical parameters.

Sometimes, we find two or more HSP regions in one database sequence that can be made into a longer alignment. This provides additional evidence of the relation between the query and database sequence. There are two methods, the Poisson method and the sum-of-scores method, to compare the significance of the newly combined HSP regions. Suppose that there are two combined HSP regions with the pairs of scores (65, 40) and (52, 45), respectively. The Poisson method gives more significance to the set with the maximal lower score (45>40). However, the sum-of-scores method prefers the first set, because 65+40 (105) is greater than 52+45(97). The original BLAST uses the Poisson method gapped BLAST and the WU-BLAST uses the sum-of scores method.

  • The original BLAST only generates un-gapped alignments including the initially found HSPs individually, even when there is more than one HSP found in one database sequence.
  • BLAST2 produces a single alignment with gaps that can include all of the initially-found HSP regions. Note that the computation of the score and its corresponding mi-value involves use of adequate gap penalties.

Researcher Tools, Services and Support

The National Center for Biotechnology Information advances science and health by providing access to biomedical and genomic information.

Popular NCBI Databases:

    • EXPLOSIÓN (Basic Local Alignment Search Tool) compares nucleotide or protein sequences to sequence databases and calculates the statistical significance of matches. BLAST can be used to infer functional and evolutionary relationships between sequences as well as help identify members of gene families.
        is a searchable database of genes, from RefSeq genomes, and defined by sequence and/or located in the NCBI Map Viewer.
          is a collection of sequences from several sources, including GenBank, RefSeq, TPA and PDB. Genome, gene and transcript sequence data provide the foundation for biomedical research and discovery.
            database is a collection of sequences from several sources, including translations from annotated coding regions in GenBank, RefSeq and TPA, as well as records from SwissProt, PIR, PRF, and PDB. Protein sequences are the fundamental determinants of biological structure and function.
              is a bibliographic database of more than 19 million citations for biomedical literature from MEDLINE, life science journals, and online books.

            The power of NCBI's resources is found in their relationship to one another, as most are linked together, providing a comprehensive toolkit for researchers in biomedicine. Online tutorials and help are available at each site, and a nice collection of tutorials can be found on NCBI's YouTube channel.

            Need a brief refresher on the sciences behind biotechnology? Check out NCBI's Science Primer site covering topics from bioinformatics to microarray technology to pharmacogenomics.


            Ver el vídeo: Basic Local Alignment Search Tool - BLAST (Junio 2022).


Comentarios:

  1. Dulkis

    Bravo, este pensamiento tiene que ser a propósito

  2. Gale

    Ahora todo está claro, gracias por la ayuda en esta pregunta.

  3. Tazahn

    magnifico pensamiento

  4. Colvert

    Lo siento, no puedo ayudarte en nada. Pero estoy seguro de que encontrará la solución adecuada. No se desesperen.

  5. Kikasa

    Es así como sucede :)

  6. Fauzuru

    Está aquí si no me equivoco.



Escribe un mensaje