indización automática y “vector mining”: herramientas para recuperación y vinculación de...

22
Indización automática y “vector mining”: herramientas para recuperación y vinculación de información en las fuentes de información de la BVS Adalberto Tardelli <[email protected]> Operación de Fuentes de Información, Coordinador BIREME/OPS/OMS 3a Reunión de Coordinación Regional de la BVS, Puebla, México, 5-6/Mayo/2003

Upload: maria-angeles-pineiro-benitez

Post on 03-Feb-2016

212 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Indización automática y “vector mining”: herramientas para recuperación y vinculación de información en las fuentes de información de la BVS Adalberto

Indización automática y “vector mining”: herramientas para recuperación y vinculación de información en las fuentes de información de la BVS

Adalberto Tardelli <[email protected]>Operación de Fuentes de Información, CoordinadorBIREME/OPS/OMS

3a Reunión de Coordinación Regional de la BVS, Puebla, México, 5-6/Mayo/2003

Page 2: Indización automática y “vector mining”: herramientas para recuperación y vinculación de información en las fuentes de información de la BVS Adalberto

• Motivación

• Métodos

• El paper Salton 1988

• La iniciativa Indexing Initiative de la NLM

• La Interface CISIS

• Aplicaciones en la BVS

• Conclusiones

Agenda

Page 3: Indización automática y “vector mining”: herramientas para recuperación y vinculación de información en las fuentes de información de la BVS Adalberto

• Motivación [$$.$$$.$$$]

[búsqueda por modelo booleano x resultado ordenado por relevancia]

• Métodos

• El paper Salton 1988 [contexto de su afirmación; la idea, similaridad, pesos]

• La iniciativa Indexing Initiative [5 métodos; hemos usado 1,5]

• Utilitarios de la Interface CISIS [nueva funcionalidad wtrig para similaridad]

• Aplicaciones en la BVS [Indización, similaridad de documentos, links y mapeo]

• Conclusiones [mas rápido, económico, no requiere capacitación de IH, sistemático]

[adecuación a la RI por modelo vetorial = precision + recall] [dominio de la tecnología]

Resumen

Page 4: Indización automática y “vector mining”: herramientas para recuperación y vinculación de información en las fuentes de información de la BVS Adalberto

Nosotros x usuario

• nosotros: busqueda booleana por términos del VC de la IH (precisión)

? (bibliotecarios or informáticos or periodistas científicos) and(Centro Latinoamericano y del Caribe de Información

en Ciencias de la Salud orCentro especializado and gestión and información científico técnica

and Organización Panamericana de la Salud or BIREME or BIblioteca REgional de MEdicina or modelo de cooperación técnica orBVS or Biblioteca Virtual en Salud)

• el usuario: descripción de la query (o sus palabras en un box muy pequeño!)

“fatores humanos envolucrados en el proceso de incorporar metodologías y tecnologías a la organizaciones y personas que participan del proceso de informar y diseminar contenidos científico técnicos en salud en la América Latina yCaribe?”

Page 5: Indización automática y “vector mining”: herramientas para recuperación y vinculación de información en las fuentes de información de la BVS Adalberto

• “The problems of disease are more complicated and difficult than any others with which the trained mind has to grapple… Variability is the law of life. As no two faces are the same, so no two bodies are alike, and no two individuals react alike and behave under the abnormal conditions which we know as disease. This is the fundamental difficulty in the education of the physician, and one which he or she may never grasp… … Probability is the guide of life.”

Willian Osler. Medical Education. In: Counsels and Ideals, 2nd ed. Houghton Mifflin, 1921

Variabilidad y probabilidad

• grapple: Dicionário Inglês-Português Collins Gem, p.116; grasp: p.116

• el teste ergométrico (enfermedad arterial coronariana) N Engl J Med 1979; 300:1350-58

La verdad (cinecoronariografia)Tiene EAC No tiene EAC

Positivo 605 340Negativo 284 702

Testeergométrico

total 889 1042

Sensibilidade ~ recall = 605 / 889 = 68%Especificidade ~ precision = 702 / 1042 = 77%

• diabetes; mellitus

• hipertensión; coronariopatia; dieta; sal

Page 6: Indización automática y “vector mining”: herramientas para recuperación y vinculación de información en las fuentes de información de la BVS Adalberto

El paper Salton 1988

Page 7: Indización automática y “vector mining”: herramientas para recuperación y vinculación de información en las fuentes de información de la BVS Adalberto

D1=(humano,masculino)

Q=(humano,feminino)

D2=(humano)

D3=(humano,feminino)

El paper Salton 1988 / La idea

Page 8: Indización automática y “vector mining”: herramientas para recuperación y vinculación de información en las fuentes de información de la BVS Adalberto

El paper Salton 1988 / Similaridad

D2=(humano,1 ; masculino,0 ; feminino,0)

Similaridad(Q,D2) = 1 + 0 + 0 = 1

Similaridad(Q,D3) = 1 + 0 + 1 = 2

D3=(humano,1 ; masculino,0 ; feminino,1)

Similaridad(Q,D1) = 1 + 0 + 0 = 1

D1=(humano,1 ; masculino,1 ; feminino,0)

Q=(humano,1 ; masculino,0 ; feminino,1)

Page 9: Indización automática y “vector mining”: herramientas para recuperación y vinculación de información en las fuentes de información de la BVS Adalberto

El paper Salton 1988 / Como calcular los pesos

TF (term frequency) x IDF (inverse doc frequency) x Normalization

Page 10: Indización automática y “vector mining”: herramientas para recuperación y vinculación de información en las fuentes de información de la BVS Adalberto

La iniciativa Indexing Initiative de la NLM

http://ii.nlm.nih.gov

Page 11: Indización automática y “vector mining”: herramientas para recuperación y vinculación de información en las fuentes de información de la BVS Adalberto

La iniciativa Indexing Initiative / Esquema general

Page 12: Indización automática y “vector mining”: herramientas para recuperación y vinculación de información en las fuentes de información de la BVS Adalberto

La iniciativa Indexing Initiative / Demo

Page 13: Indización automática y “vector mining”: herramientas para recuperación y vinculación de información en las fuentes de información de la BVS Adalberto

La iniciativa Indexing Initiative / Demo

Page 14: Indización automática y “vector mining”: herramientas para recuperación y vinculación de información en las fuentes de información de la BVS Adalberto

Utilitarios de la Interface CISIS

• C library para desarrollo de aplicaciones con bases de dados CDS/ISIS

• 1991: LILACS/CD-ROM 13a edición

• programa MX y otros utilitários, para mantenimiento de BD CISIS

• operación de LILACS, MEDLINE, …, SciELO

• programa WWWISIS, ISIS_DLL, WinISIS (i/o)

• programa WTRIG1 para generación de vectores de términos

• trigramas o palabras del resultado de formatación (o desde archivos XML)

• programa WTRIG2 para calcular la similaridad de “documentos”

• resultados son grabados en bases de dados (o XML)

Aplicaciones..

Page 15: Indización automática y “vector mining”: herramientas para recuperación y vinculación de información en las fuentes de información de la BVS Adalberto
Page 16: Indización automática y “vector mining”: herramientas para recuperación y vinculación de información en las fuentes de información de la BVS Adalberto
Page 17: Indización automática y “vector mining”: herramientas para recuperación y vinculación de información en las fuentes de información de la BVS Adalberto
Page 18: Indización automática y “vector mining”: herramientas para recuperación y vinculación de información en las fuentes de información de la BVS Adalberto
Page 19: Indización automática y “vector mining”: herramientas para recuperación y vinculación de información en las fuentes de información de la BVS Adalberto
Page 20: Indización automática y “vector mining”: herramientas para recuperación y vinculación de información en las fuentes de información de la BVS Adalberto
Page 21: Indización automática y “vector mining”: herramientas para recuperación y vinculación de información en las fuentes de información de la BVS Adalberto
Page 22: Indización automática y “vector mining”: herramientas para recuperación y vinculación de información en las fuentes de información de la BVS Adalberto

Conclusiones

• Dominio de la tecnología, hoy día con la Interface CISIS

• Indización automática es:

• mas económica, mas ágil y no requiere la capacitación de los IH

• sistemática => reprodutibilidad, comparabilidad

• Búsqueda por el modelo vectorial mezcla precisión + recall

• como una expresión con and para los primeros documentos recuperados

• como una expresión con or por defecto

• Aplicaciones con similaridad por trigramas y MV son inúmeras

• buscar texto de documentos desde nombre+titulo de CVs

• mapeo de nombres de revistas de las citas en la base ISSN

• vinculación de fuentes de información de la BVS!