bases de datos no redundantes de secuencias procedentes de ... · •las búsquedas de similaridad...

The SLING project is funded by the European Commission within Research Infrastructures of the FP7 Capacities Specific Programme, grant agreement number 226073 (Integrating Activity)

Bases de Datos No Redundantes de

Secuencias procedentes de Patentes

OEPM (Madrid)

4 de Noviembre de 2010

Irina Benediktovich

Ana Richart de la Torre

500 resultados

idénticos. Mucho

por analizar!!

Situación Actual: Es necesario acelerar el proceso de búsqueda

La misma secuencia puede aparecer varias veces en la base de datos, debido a:

1) Depósito de la misma invención en diversas oficinas de patentes

2) Inventores diferentes, usan la misma secuencia en contextos distintos

GM671154

CS017585 ACQ13114 DI603183 AAR79155 DD649656ADA42650

Secuencias 100% idénticas

Invención A Invención B

HB492658

EP WO EP US JP

Familia

Simple

Por qué hay 500 resultados a analizar?

USPTO

JPO

KIPO

EPO

Esperamos más redundancia en un futuro, ya que otras Oficinas de

Patentes participarán en el intercambio de datos

Las Oficinas de Patentes Trilaterales intercambian y publican

secuencias biológicas, a través de los Proveedores Públicos de

Bases de Datos (INSDC)

ONONON

ON

Cooperación Internacional

VISIÓN GENERAL DEL PROYECTO

Arquitectura de la

Aplicación para la

Adquisición de

secuencias

CAPTURA DE DATOS

Algoritmo para detectar

secuencias:

Detecta la presencia de secuencias en

todas las solicitudes entrantes en la

EPO, usando diversos niveles de

detección. Evita la

mis-deteccíon

Flujos de Gestión de Datos:

Aumentan la covertura de las

Bases de Datos, sin crear

redundancia

CAPTURA DE DATOS

2 types of

NR databases

Statistics

Sept 2010

NR Databases Abbreviation Coverage Number of

entries

Redundancy

before

NR Patent Nucleotides

Level1

NRNL1 EMBL-Bank patents

(17,526,371 entries )

10,077,547 1.74

NR Patent Nucleotides

Level2

NRNL2 EMBL-Bank patents

(17,526,371 entries )

14,612,812 1.2

NR Patent Proteins

Level1

NRPL1 EPO+JPO+KIPO+USPTO

(4,947,423 entries)

2,124,798 2,33

NR Patent Proteins

Level2

NRPL2 EPO+JPO+KIPO+USPTO

(4,947,423 entries)

3,372,114 1,47

Bases de Datos No redundantes

00003f38f0619583f

4a536583d92c240

1. caggc .... gatcc

2. caggc .... gatcc

3. caggc .... gatcc

....

500. caggc .... gatcc

00003f38f0619583f4

a536583d92c240

A) caggc .... gatcc from Umbrella Corp.

B) caggc .... gatcc from SuperGen Ltd.

C) caggc .... gatcc from GeneTech S.A.

1) Calculamos la "Huella dactilar" de

cada secuencia (checksum), porque

es más rápido comparar checksums

que secuencias

2) Se unen en la misma

entrada, todas las

secuencias con el mismo

checksum y que

pertenezcan a la misma

invención

L2Links to Family

members

Earliest

Priority in Family

Earliest PD in

Family

L1Earliest PD in

all Families

Cluster Members

(from SEQ-DB)

Corrección de Números de

Publicación y tipos de documento

Secuencias idénticas procedentes de la misma invención (Familia), a menudo no presentan

las mismas anotaciones biológicas

En las entradas de esta base de datos a nivel 2 (L2), se han unido todas las anotaciones,

preservando los enlaces a las entradas en las Bases de Datos originales

PR más antigüa

Primera

publicación

en la Base de

Datos de

secuencias

Anotaciones Biológicas

Secuencia y

checksum MD5

5 miembros del

cluster con

correcciones de

Publicación

Ejemplo: El usuario tendría que analizar 5 entradas

Sólo se necesita analizar una entrada con esta Base de datos No Redundante!!

Resultado

Final

Las Bases de Datos No redundantes están accesibles al público

a través del entorno de búsqueda de EBI

• Las búsquedas de similaridad y homología de Sequencias en una base de

datos no redundante, son más sensibles y rápidas, puesto que hay que

escanear menos entradas.

•Estas bases de datos no redundantes, son la primera colección de este tipo,

basada no sólo en las secuencias, pero introduciendo también el concepto de

familia.

•Las correcciones de datos de publicación, aumentan significativamente la

calidad de los datos. La disponibilidad de la primera fecha de publicación en

cada caso, ofrece un enlace directo a el historial de la patente en cuestión.

•La unión en una sóla entrada de todas las anotaciones biológicas,

proporciona una mejora en el entendimiento del contexto biológico en el que

se ha utilizado la secuencia.

•La colaboración conjunta (oficinas de patentes, y solicitantes) en proporcionar

datos e invertir en la calidad de anotaciones de los mismos, es beneficiosa

para todos los usuarios de los servicios públicos

CONCLUSIONES

Muchas Gracias

Irina Benediktovich: [email protected]

Ana Richart de la Torre [email protected]

bases de datos no redundantes de secuencias procedentes de ... · •las búsquedas de similaridad...

Documents