bases de datos no redundantes de secuencias procedentes de ... · •las búsquedas de similaridad...
TRANSCRIPT
The SLING project is funded by the European Commission within Research Infrastructures of the FP7 Capacities Specific Programme, grant agreement number 226073 (Integrating Activity)
Bases de Datos No Redundantes de
Secuencias procedentes de Patentes
OEPM (Madrid)
4 de Noviembre de 2010
Irina Benediktovich
Ana Richart de la Torre
500 resultados
idénticos. Mucho
por analizar!!
Situación Actual: Es necesario acelerar el proceso de búsqueda
La misma secuencia puede aparecer varias veces en la base de datos, debido a:
1) Depósito de la misma invención en diversas oficinas de patentes
2) Inventores diferentes, usan la misma secuencia en contextos distintos
GM671154
CS017585 ACQ13114 DI603183 AAR79155 DD649656ADA42650
Secuencias 100% idénticas
Invención A Invención B
HB492658
EP WO EP US JP
Familia
Simple
Por qué hay 500 resultados a analizar?
USPTO
JPO
KIPO
EPO
Esperamos más redundancia en un futuro, ya que otras Oficinas de
Patentes participarán en el intercambio de datos
Las Oficinas de Patentes Trilaterales intercambian y publican
secuencias biológicas, a través de los Proveedores Públicos de
Bases de Datos (INSDC)
ONONON
ON
Cooperación Internacional
VISIÓN GENERAL DEL PROYECTO
Arquitectura de la
Aplicación para la
Adquisición de
secuencias
CAPTURA DE DATOS
Algoritmo para detectar
secuencias:
Detecta la presencia de secuencias en
todas las solicitudes entrantes en la
EPO, usando diversos niveles de
detección. Evita la
mis-deteccíon
Flujos de Gestión de Datos:
Aumentan la covertura de las
Bases de Datos, sin crear
redundancia
CAPTURA DE DATOS
VISIÓN GENERAL DEL PROYECTO
2 types of
NR databases
Statistics
Sept 2010
NR Databases Abbreviation Coverage Number of
entries
Redundancy
before
NR Patent Nucleotides
Level1
NRNL1 EMBL-Bank patents
(17,526,371 entries )
10,077,547 1.74
NR Patent Nucleotides
Level2
NRNL2 EMBL-Bank patents
(17,526,371 entries )
14,612,812 1.2
NR Patent Proteins
Level1
NRPL1 EPO+JPO+KIPO+USPTO
(4,947,423 entries)
2,124,798 2,33
NR Patent Proteins
Level2
NRPL2 EPO+JPO+KIPO+USPTO
(4,947,423 entries)
3,372,114 1,47
Bases de Datos No redundantes
00003f38f0619583f
4a536583d92c240
1. caggc .... gatcc
2. caggc .... gatcc
3. caggc .... gatcc
....
500. caggc .... gatcc
00003f38f0619583f4
a536583d92c240
A) caggc .... gatcc from Umbrella Corp.
B) caggc .... gatcc from SuperGen Ltd.
C) caggc .... gatcc from GeneTech S.A.
1) Calculamos la "Huella dactilar" de
cada secuencia (checksum), porque
es más rápido comparar checksums
que secuencias
2) Se unen en la misma
entrada, todas las
secuencias con el mismo
checksum y que
pertenezcan a la misma
invención
L2Links to Family
members
Earliest
Priority in Family
Earliest PD in
Family
L1Earliest PD in
all Families
Cluster Members
(from SEQ-DB)
VISIÓN GENERAL DEL PROYECTO
Corrección de Números de
Publicación y tipos de documento
Secuencias idénticas procedentes de la misma invención (Familia), a menudo no presentan
las mismas anotaciones biológicas
En las entradas de esta base de datos a nivel 2 (L2), se han unido todas las anotaciones,
preservando los enlaces a las entradas en las Bases de Datos originales
PR más antigüa
Primera
publicación
en la Base de
Datos de
secuencias
Anotaciones Biológicas
Secuencia y
checksum MD5
5 miembros del
cluster con
correcciones de
Publicación
Ejemplo: El usuario tendría que analizar 5 entradas
Sólo se necesita analizar una entrada con esta Base de datos No Redundante!!
Resultado
Final
Las Bases de Datos No redundantes están accesibles al público
a través del entorno de búsqueda de EBI
• Las búsquedas de similaridad y homología de Sequencias en una base de
datos no redundante, son más sensibles y rápidas, puesto que hay que
escanear menos entradas.
•Estas bases de datos no redundantes, son la primera colección de este tipo,
basada no sólo en las secuencias, pero introduciendo también el concepto de
familia.
•Las correcciones de datos de publicación, aumentan significativamente la
calidad de los datos. La disponibilidad de la primera fecha de publicación en
cada caso, ofrece un enlace directo a el historial de la patente en cuestión.
•La unión en una sóla entrada de todas las anotaciones biológicas,
proporciona una mejora en el entendimiento del contexto biológico en el que
se ha utilizado la secuencia.
•La colaboración conjunta (oficinas de patentes, y solicitantes) en proporcionar
datos e invertir en la calidad de anotaciones de los mismos, es beneficiosa
para todos los usuarios de los servicios públicos
CONCLUSIONES