Motivos, patrones y perfiles - UB

Motivos, patrones y perfiles - UB

Motivos, patrones y perfiles Representacin de Alineamientos Mltiples, Homologas remotas y Bases de datos secundarias Esquema de la presentacin Representacin de alineamientos mltiples Bases de datos secundarias o de patrones PROSITE Representacin de los AMS

Los AMS se utilizan para representar o caracterizar familias de secuencias relacionadas. No resulta prctico trabajar directamente con los AMS por lo que se han desarrollado diversas maneras de representarlos. Los distintos mtodos de representacin de AMS forman una jerarqua de modelos: cada mtodo s un caso particular del que le sigue en complejidad. Una jerarqua de modelos para AMS Hay muchos mtodos

Secuencia exacta Secuencias consenso Expresiones regulares o patrones Perfiles o Matrices de pesos posicionales Modelos ocultos de Markov En este curso solo consideramos los tres primeros Ms informacin en este enlace Motivos seales o patrones Consideremos un alfabeto como el del ADN o las protenas.

Un motivo (patrn o seal) es una forma de caracterizar un conjunto de secuencias de este alfabeto. Dada una secuencia, S, y un motivo M diremos que M est presente en S si cualquiera de las secuencias descritas por M ocurre en S. P.ej. M="TATA", S1="GATTACA" y S2="PATATA" M est presente en S2 pero no en S1 Aplicaciones de los Motivos Los motivos representan zonas conservadas entre las secuencias que suelen asociarse a caractersticas funcionales del grupo de secuencias. Una vez se ha construido un motivo o patrn de un grupo de secuencias puede utilizarse Para asociar una nueva secuencia con la familia de

secuencias que lo ha generado (si presenta el motivo es de la familia y puede que comparta sus funciones) Para buscar secuencias que pertenezcan a aquella familia Modelos para AMS y motivos Una manera natural de representar un AMS es a travs de los motivos o patrones que contiene. La jerarqua de modelos para AMS a la que hemos hecho referencia es, pues, tambin una jerarqua de modelos para motivos: El patrn caracterstico del alineamiento es el "motivo" que lo caracteriza. Descripcin de motivos (1) Palabra exacta La manera ms simple de describir un motivo contenido en un AMS es a travs de la secuencia

exacta de letras (la "palabra") que lo forman G G G G G Muy preciso si se presenta pero no admite variaciones A A A A A A T T T T T T

T T T T T T A A A A A A C C C C C C A T

T A C G G T C A A A A A A A T C T T T ?

T T T T T T A A A G A ? C C C C C C A T T

A C Descripcin de motivos (2) La secuencia consenso Si en alguna posicin aparecen cambios en la palabra exacta se pueden utilizar caracteres diversos para indicar estas variaciones. Por ejemplo Si todas las secuencias tienen el mismo residuo en una posicin dada se pone la letra mayscula Si la mayora tiene la letra se pone minscula Si hay empate se ponen las letras empatadas

Un ejemplo de secuencia consenso 1 2 3 4 5 6 7 8 9 10 I Y

D G G A V - E A L II Y D

G G - - - E A L III F E G

G I L V E A L IV F D - G

I L V Q A V V Y E G G A

V V Q A L y d G G A/I V/L V

e A l Descripcin de motivos (3) Expresiones regulares Secuencia consenso: til si hay pocas variaciones. Buscando una mayor flexibilidad se propuso el uso de expresiones regulares Una expresin regular, a menudo llamada tambin patrn, es una expresin que describe un conjunto de cadenas sin enumerar sus elementos (Wikipedia

) Son ampliamente utilizadas en informtica, en entornos UNIX/Linux especialmente, para manipular cadenas de caracteres de manera muy flexible. Sintaxis de expresiones regulares Una expresin regular o patrn describe un conjunto de caracteres sin enumerarlos. Para ello utiliza algunos constructores cuya sintaxis puede cambiar entre lenguajes o S.Op. En general todo sistema de e.r. dispone de Comodines: Apto para cualquier caracter Ambiguidades: Se presenta/prohibe varios caracteres

Factores de repeticin: Nmero de veces que se presenta [o puede presentarse] un caracter Sintaxis de expresiones regulares Caracteres comodn Si en una posicin dada puede aparecer cualquier carcter se indica con el signo comodn Aunque en informtica ste es a menudo un * aqu se utilizar una x G G T A A A A A A

T C A T x T T T T T A A A A A Patrn: A-x-T-A-C C C C

C C A T T C Sintaxis de expresiones regulares Ambiguedades Si en una posicin dada puede aparecer varios caracteres distintos podemos indicarlo de dos formas Aquellos que pueden aparecer: entre [ y ] Aquellos que no se encuentran en la posicin: entre { y } Una misma secuencia se puede indicar de maneras

distintas. P.ej: [ATC] equivale a {G} G G T A A A T T [AT] T C A T x T T T T T

A T C A {G} C C C C C A T T C Patrn: [AT]-x-T-{G}-C={CG}-x-T-[ATC]-C= ... Sintaxis de expresiones regulares Elementos repetidos La repeticin de un elemento se indica con

ste entre parntesis: (y) A(4) indica una A repetida 4 veces x(3) indica un caracter cualquiera repetido 3 veces Si el elemento que se repite es uno cualquiera (x) puede asignarsele un nmero variable de repeticiones, incluso el cero x(2-4): x-x, x-x-x, x-x-x-x x(0-2): , x, x-x Ejemplos (1|2) Las secuencias en negrita verifican el patrn A.

Patrn: [AC]-x-V-x(4)-{ED} 1. 2. 3. 4. 5. ACVCCCCE CDVAAAA ACVVVVVV AVVVVVVV CEVACCAC B. Patrn: A-x(0,1)-{V} 1. 2. 3. 4. 5. ACA AE

AVE AV EA Ejemplos (2|2) Generar el patrn de las secuencias siguientes A. Secuencias: ACCM 2. ADVM 3. ACEM 4. ACMM 5. ACTM A-[CD]-x-M 1. B. Secuencias : SCCCM 2. SCVM

3. TCAM 4. TCMM 5. TCSM [ST]-C-x(1-2)-M 1. Ejercicios (1|2) Indicar que secuencias verifican los patrones indicados o explica porque no lo verifican A. Patrn: A-x-V(3)-{AL} Secuencias: 1. 2. 3. 4. 5. AAVVVA AVVVAM

ASVVVM ACVVVC ACVVVE Patrn: [ST](2)-x(0,1)-V Secuencias : B. 1. 2. 3. 4. 5. nSSV TSEV SAV TTVV TTTV Ejercicios (2|2)

Generar el patrn de las secuencias siguientes A. Secuencias: 1. 2. 3. 4. 5. MAS MCAT MVAT MAAS MTAS B. Secuencias: 1. 2. 3. 4.

5. CCCSAC CCVTC CCASSC CCMSC CCSTC HOMOLOGAS REMOTAS Bases de datos secundarias o de patrones Homologas remotas Cuando realizamos bsquedas una secuencia con BLAST sucede a menudo que no se encuentran

secuencias similares Esto no significa que parte de la secuencia no pueda estar conservada entre los miembros de una misma familia Un alineamento mltiple puede revelar la existencia de patrones comunes a un grupo de secuencias. Esta conservacin de pequeos motivos suele tomarse como indicativo de que existe homologa remota. Bases de datos de patrones Los patrones que se han obtenido de un AMS pueden actuar como "firmas" o caractersticas de las familias de secuencias de las que se han obtenido. Estos patrones pueden utilizarse para:

Decidir si una neva secuencia pertenece a una familia que presenta el patron que la caracteriza. Buscar secuencias que contengan elmismo patrn que una dada La base de datos secundaria ms importante es PROSITE. Prediccin de funcin de una secuencia La asociacin entre patrones y familias de secuencias nos facilita una aproximacin a la prediccin de la funcin de una secuencia

Si tenemos una secuencia de funcin desconocida Y esta secuencia contiene un cierto patrn Que sabemos asociado a cierta familia de protenas con una funcin concreta Podemos deducir/predecir que sta es la funcin que realiza tambin dicha secuencia. Un protocolo para la prediccin de la funcin de una secuencia Determinar, con FASTA o BLAST si posee homlogos (cercanos) en una Base de Datos 1. 2. 3. Si es as podemos mirar de asociar su funcin con la de

stos. Si no posee homlogos cercanos podemos Realizar un AMS con las secuencias ms similares a ella Extraer el patron que las caracteriza Buscar en BD secundarias (PROSITE) si dicho patrn puede asociarse con una familia de funcin conocida En la prctica podemos omitir (1) y (2) y someter directamente la secuencia a PROSITE Ms informacin sobre homologas remotas El concepto de homologa remota en contraposicin al de homologia proxima o de alto grado de similitud est explicado en este tutorial: Distant homologies: motifs, patterns, profiles Un artculo de revisin donde se desarrolla la relacin entre homologas, patrones y bases de datos secundarias es el siguiente:

The role of protein databases in sequence analysis (Terry Atwood) PROSITE Esta parte de la presentacin est tomada integramente del material de la asignatura Aplicacions Informtiques que el curso 20072008 todava se imparte en la facultad de Biologa de la UB. QU ES PROSITE? Es una base de datos con patrones y dominios de protenas. Desarrollada por ExPaSy (Expert Protein Analysis System) UNA VISITA A ExPaSy: http://us.expasy.org/ Una visita a PROSITE (2)

Programa ScanProsite QU CONTIENE PROSITE ? Contiene patrones de aminocidos con significado biolgico, dispuestos de manera que los programas informticos (por ejemplo: ScanProsite) puedan determinar la familia de pertenencia (si se encuentra en PROSITE) de la nueva secuencia de manera rpida y eficiente. UN EJEMPLO DE ENTRADA EN PROSITE UN EJEMPLO DE ENTRADA EN PROSITE (continuacin) OBJETIVO DE PROSITE

Su objetivo principal es determinar la funcin de nuevas protenas no caracterizadas, cuyas secuencias se han obtenido por traduccin de DNA genmico o cDNA y que son demasiado distantes de las ya conocidas para poder ser alineadas globalmente por los mtodos ya vistos. Algunas observaciones experimentales: La mayora de protenas pueden agruparse en una serie de familias derivadas de un antecesor comn y con caractersticas funcionales similares.

Algunas regiones de las protenas se conservan mejor que otras. En general las ms conservadas son las relacionadas con el mantenimiento de la estructura 3D y con la funcin a realizar. CUNDO UTILIZAR PROSITE ? Cuando la nueva secuencia sea demasiado distante de las conocidas hasta el momento como para poder obtener un alineamiento global. En estos casos puede suceder que determinadas secuencias de AA se conserven debido a su importancia biolgica (patterns, motifs, signatures, fingerprints). Por ejemplo en las zonas de unin de un enzima con un substrato, etc. CMO UTILIZAR PROSITE ? Bsicamente consideraremos 3 posibilidades: 1.

2. 3. Introducir un cdigo de identificacin y que nos d la informacin relacionada. Introducir una secuencia de aminocidos para que busque posibles patrones contenidos en ella. Introducir un patrn y buscar protenas que cumplan dicho patrn. CMO ACCEDER A PROSITE ? http:// us.expasy.org/prosite/ Utilizaremos el programa ScanProsite para realizar las bsquedas en PROSITE. UTILIZACIN DE ScanProsite IDENTIFICACIN DE LA FUNCIN DE UNA SECUENCIA DE AA CON PROSITE (1)

Supongamos que acabamos de obtener la siguiente secuencia humana de aa: MANLGCWMLVLFVATWSDLGLCKKRPKPGGWNTGGSRYPGQGSPGGNRYPPQGGGGWGQP HGGGWGQPHGGGWGQPHGGGWGQPHGGGWGQGGGTHSQWNKPSKPKTNMKHMAGAAAAGA VVGGLGGYMLGSAMSRPIIHFGSDYEDRYYRENMHRYPNQVYYRPMDEYSNQNNFVHDCV NITIKQHTVTTTTKGENFTETDVKMMERVVEQMCITQYERESQAYYQRGSSMVLFSSPPV ILLISFLIFLIVG Y queremos identificar su funcin. IDENTIFICACIN DE LA FUNCIN DE UNA SECUENCIA DE AA CON PROSITE (2) Entramos la secuencia Iniciamos la bsqueda IDENTIFICACIN DE LA FUNCIN DE UNA SECUENCIA DE AA CON PROSITE (3) Ha encontrado 2 patterns

Posicin de los patterns en la secuencia de aa. IDENTIFICACIN DE LA FUNCIN DE UNA SECUENCIA DE AA CON PROSITE (4) Vemos que ha encontrado dos patrones ambos incluidos en la familia de los priones: >PDOC00263 PS00291 PRION_1 Prion protein signature 1 [pattern]. 113 - 128 AGAAAAGAVVGGLGGY (totalmente conservado) >PDOC00263 PS00706 PRION_2 Prion protein signature 2 [pattern]. 200 - 218 EtDvKMMeRVVeQMCitQY (no totalmente conservado) IDENTIFICACIN DE LA FUNCIN DE UNA SECUENCIA DE AA CON PROSITE (4) Vista del pattern 1: IDENTIFICACIN DE LA FUNCIN DE UNA SECUENCIA DE AA CON PROSITE (5) Vista del pattern 2: CONCLUSIN

Parece bastante claro que se trata de la secuencia de aa correspondiente a un prin ya que ha encontrado 2 patterns ambos correspondiente a la familia de los priones. Bsqueda de protenas que cumplen un patrn (1). El registro: PS00236 de PROSITE hace referencia a los neurotransmisores que activan la entrada de iones y permiten la transmisin sinptica rpida. Existe un patrn que caracteriza a este tipo de protenas: C-x-[LIVMFQ]-x-[LIVMF]-x(2)-[FY]-P-x-D-x(3)-C Vamos a buscar todas las secuencias SWISSPROT que cumplen dicho patrn. de Bsqueda de protenas que cumplen un

patrn (2). Bsqueda de protenas que cumplen un patrn (3). Bsqueda de protenas que cumplen un patrn (4). Como se puede ver aparecen un gran nmero de protenas, todas ellas con la funcin indicada (ion-channel receptor) que cumplen el patrn introducido. Resultado: 197 hits in 197 sequences from 176 entries (existen 21 casos de secuencias isomorfas) Comprobacin de que se cumple el patrn introducido: Tomemos las 2 primeras secuencias del listado y una posterior (el orden de aparicin no tiene importancia en este tipo de anlisis): x [LIVM FQ]

x [LIVM F] x(2) [FY] P x D x(3) C C s L

d I yn F P f D vqn C Homo sapiens Serotonin-gated ion channel receptor C

s L d I yn F P f D vqn C

,,, ,,, ,,, ,,, ,,, ,,, ,,, ,,, ,,, ,,, ,,, ,,,

D. melanogaster Acetylcholine receptor protein C e M n V ey F P y D

eqi C Patrn Guinea pig Serotonin-gated ion channel receptor C P46098

Recently Viewed Presentations

  • processR Shiny App

    processR Shiny App

    Select Process Macro Model Number. Select Model 1. Assign Variables. ... This model is saturated, it includes every possible effect. Were we to delete in interaction term, it would not be saturated. ... The simple effect of misanthropy is significant...
  • Epistemology

    Epistemology

    Epistemology: the science of knowing. To Know. Three Different Types of Knowledge. Knowledge by acquaintance. A person S knows something or someone X. Competence knowledge. Person S knows how to D. Propositional knowledge. Person S knows that p. Introduction.
  • NYC PUBLIC SCHOOLS Whats your favorit e  part?

    NYC PUBLIC SCHOOLS Whats your favorit e part?

    So, What is Recycling?. Recycling = Taking a product or material and turning it into a usable raw material to make another product.. Recycling, as opposed to reusing, is something that requires not just physical, but chemical, changes in a...
  • AO1: key vocabulary & terms Gas lighting Confrontation

    AO1: key vocabulary & terms Gas lighting Confrontation

    The use of Plastic Theatre and senses. Consider the way the Southern Gothic is embedded. Animalistic imagery. Light and darkness motif. The class divide: the old ways of the Southern cotton fields were fading, whilst the American Dream resulted in...
  • Chapter 16

    Chapter 16

    The hands and feet of all primates have… 5 digits . Flat nails . Sensitive areas on the end their digits . The first digit of the hand or feet are . opposable. Thumb or Toe . Set apart from...
  • Zero - Energy Building

    Zero - Energy Building

    What constitutes a zero energy building? A building that uses a "net" of zero energy - typically producing excess energy via renewables with the excess being sold into the grid and purchasing energy from the grid when renewables are not...
  • Spark Commercialization and Innovation Centre INTERNATIONAL SOFT LANDING

    Spark Commercialization and Innovation Centre INTERNATIONAL SOFT LANDING

    What you Need to Know... Employment Standards Act (ESA) Employee Files. Employers are required to keep written files for all employees. Hours of Work
  • Preventing Type 2 Diabetes - Carleton University

    Preventing Type 2 Diabetes - Carleton University

    Preventing Type 2 Diabetes Presented by: Cindy Sass, RD, CDE Registered Dietitian, Certified Diabetes Educator Nov. 12, 2013 The Blood Sugar Blues In 2009 2.4 million Canadians had type 2 diabetes. Numbers are predicted to climb to 3.7 million by...