dr. josé luis ochoa hernández - inicio | cudi · g e ttin g th e s e m a n tic ro le a d e s s e...

49
El Procesamiento del Lenguaje Natural para extraer conocimiento de la Web, Documentos y Redes sociales Dr. José Luis Ochoa Hernández Departamento de Ingeniería Industrial Universidad de Sonora Hermosillo, Sonora, México

Upload: others

Post on 04-Aug-2020

9 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Dr. José Luis Ochoa Hernández - inicio | Cudi · G e ttin g th e s e m a n tic ro le A D E S S E F in a l R e la tio n s N o n - T a x o n o m ic R e la tio n s O n to lo g y C

El Procesamiento del Lenguaje Natural para extraer conocimiento de la Web, Documentos y Redes

sociales

Dr. José Luis Ochoa Hernández

Departamento de Ingeniería Industrial

Universidad de Sonora

Hermosillo, Sonora, México

Page 2: Dr. José Luis Ochoa Hernández - inicio | Cudi · G e ttin g th e s e m a n tic ro le A D E S S E F in a l R e la tio n s N o n - T a x o n o m ic R e la tio n s O n to lo g y C

• Introducción

• Objetivos

• Metodología

• Herramienta de SW

• Resultados

2

Contenido

Page 3: Dr. José Luis Ochoa Hernández - inicio | Cudi · G e ttin g th e s e m a n tic ro le A D E S S E F in a l R e la tio n s N o n - T a x o n o m ic R e la tio n s O n to lo g y C

INTRODUCCIÓN

3

Introducción Objetivos Metodología Herramienta de SW Resultados Conclusiones Trabajos Futuros

Page 4: Dr. José Luis Ochoa Hernández - inicio | Cudi · G e ttin g th e s e m a n tic ro le A D E S S E F in a l R e la tio n s N o n - T a x o n o m ic R e la tio n s O n to lo g y C

• Obtener información válida, es una tarea fundamental en diversos contextos.

• Actualmente la información digital se expande exponencialmente.

• Internet cuenta con más de 644.275.754 páginas Web.

• Con mucha frecuencia, las páginas duplican la información y no siempre es correcta, consistente o completa.

• El idioma y la polisemia constituyen algunos de los principales problemas en recuperación de información.

• La Web Semántica se plantea como una solución, pero ….. hay que crearla.

4

Problema Actual

Introducción Objetivos Metodología Herramienta de SW Resultados Conclusiones Trabajos Futuros

Page 5: Dr. José Luis Ochoa Hernández - inicio | Cudi · G e ttin g th e s e m a n tic ro le A D E S S E F in a l R e la tio n s N o n - T a x o n o m ic R e la tio n s O n to lo g y C

5

¿Qué es el Contenido Digital?

Introducción Objetivos Metodología Herramienta de SW Resultados Conclusiones Trabajos Futuros

Page 6: Dr. José Luis Ochoa Hernández - inicio | Cudi · G e ttin g th e s e m a n tic ro le A D E S S E F in a l R e la tio n s N o n - T a x o n o m ic R e la tio n s O n to lo g y C

• La Web Semántica

– Ontologías

• Metodologías para construir Ontologías – Metodología para construir ontologías a partir de cero

– Metodologías para reingeniería ontológica

– Metodologías de extracción de ontologías a partir de texto en lenguaje natural

6

Posibles Soluciones

Introducción Objetivos Metodología Herramienta de SW Resultados Conclusiones Trabajos Futuros

Page 7: Dr. José Luis Ochoa Hernández - inicio | Cudi · G e ttin g th e s e m a n tic ro le A D E S S E F in a l R e la tio n s N o n - T a x o n o m ic R e la tio n s O n to lo g y C

Web semántica

Actualmente la web se asemeja a un grafo formado por nodos del mismo tipo, y arcos (hiperenlaces)

igualmente indiferenciados. Por ejemplo, no se hace distinción entre la página personal de un profesor y el

portal de una tienda on-line, como tampoco se distinguen explícitamente los enlaces a las asignaturas que

imparte un profesor de los enlaces a sus publicaciones. Por el contrario en la web semántica cada nodo

(recurso) tiene un tipo (profesor, tienda, pintor, libro), y los arcos representan relaciones explícitamente

diferenciadas (pintor – obra, profesor – departamento, libro – editorial).

Introducción Objetivos Metodología Herramienta de SW Resultados Conclusiones Trabajos Futuros

Page 8: Dr. José Luis Ochoa Hernández - inicio | Cudi · G e ttin g th e s e m a n tic ro le A D E S S E F in a l R e la tio n s N o n - T a x o n o m ic R e la tio n s O n to lo g y C

8

Metodologías Actuales

Introducción Objetivos Metodología Herramienta de SW Resultados Conclusiones Trabajos Futuros

Ontology Learning

En Ingles [Abascal-Mena, 2009] Towards a semantic web: ontology development based on the extraction of semantic concepts from digital documents.

En Chino [Lee et al., 2007] Automated ontology construction for unstructured text documents.

En Tailandés [Kawtrakul et al., 2004] Automatic Thai Ontology Construction and Maintenance System.

En Persa [Khosravi and Vazifedoost, 2007] Creating a Persian Ontology through Thesaurus Reengineering for Organizing the Digital Library of the National Library of Iran.

En Alemán [Bontas et al., 2005] Creating ontologies for content representation — the OntoSeed suite.

En Francés [Passant, 2007] Using Ontologies to Strengthen Folksonomies and Enrich Information Retrieval in Weblogs.

En Español [Valencia-Garcia et al., 2006] A Methodology for Extracting Ontological Knowledge from Spanish Documents.

Page 9: Dr. José Luis Ochoa Hernández - inicio | Cudi · G e ttin g th e s e m a n tic ro le A D E S S E F in a l R e la tio n s N o n - T a x o n o m ic R e la tio n s O n to lo g y C

Objetivos

9

Introducción Objetivos Metodología Herramienta de SW Resultados Conclusiones Trabajos Futuros

Page 10: Dr. José Luis Ochoa Hernández - inicio | Cudi · G e ttin g th e s e m a n tic ro le A D E S S E F in a l R e la tio n s N o n - T a x o n o m ic R e la tio n s O n to lo g y C

• Desarrollo de un método para la construcción automática de ontologías a partir de textos escritos en Lenguaje Natural, que tenga en cuenta un amplio conjunto de relaciones semánticas entre conceptos, de forma independiente del dominio y en el lenguaje español.

10

Objetivos General

Introducción Objetivos Metodología Herramienta de SW Resultados Conclusiones Trabajos Futuros

Page 11: Dr. José Luis Ochoa Hernández - inicio | Cudi · G e ttin g th e s e m a n tic ro le A D E S S E F in a l R e la tio n s N o n - T a x o n o m ic R e la tio n s O n to lo g y C

• Independencia del dominio: Que sea posible generar ontologías en cualquier dominio.

• Adaptabilidad y parametrización: El sistema debe permitir la configuración de diversos aspectos del sistema.

• Eficiencia y flexibilidad: El sistema podrá intercambiar las herramientas externas fácilmente.

11

A tomar en cuenta…..

Introducción Objetivos Metodología Herramienta de SW Resultados Conclusiones Trabajos Futuros

Page 12: Dr. José Luis Ochoa Hernández - inicio | Cudi · G e ttin g th e s e m a n tic ro le A D E S S E F in a l R e la tio n s N o n - T a x o n o m ic R e la tio n s O n to lo g y C

Metodología

12

Introducción Objetivos Metodología Herramienta de SW Resultados Conclusiones Trabajos Futuros

Page 13: Dr. José Luis Ochoa Hernández - inicio | Cudi · G e ttin g th e s e m a n tic ro le A D E S S E F in a l R e la tio n s N o n - T a x o n o m ic R e la tio n s O n to lo g y C

Arquitectura Desarrollada

13

Introducción Objetivos Metodología Herramienta de SW Resultados Conclusiones Trabajos Futuros

Concept Extraction Process

NLP stage

Tokenizer

Sentence

Splitter

POS taggers

Lemmatizer

NE

Recognition

Lingüistic Patterns

Statistics & Lingüistic Methods

TF-IDF

C-Value NC-Value

Domain valid concepts

Single MultiWord

Learning Patterns

Relation Extraction Process

Verbs identification

Identification of Non-Taxonomic

Relations

Getting the semantic role

ADESSE

Final Relations

Non-Taxonomic Relations

Ontology Construction Process

Modules Identification of:

Classes

Properties

SubClasses

SubProperties

Validation of:

Modules Identification of:

Domain Ranges

Ontology in OWL

Classes name

OWL-API

Ontology Visualization

Patterns Optimization

LEARNING PATTERN METHOD

Identifying Patterns

Guide Patterns

Filtering Patterns

Optimization Modules

M1 M2

Final Morphological Patterns

Filtering Unwanted

Patterns

Comparison with the

Original patterns

M3 M4

M5

Identification of Taxonomic

Relations

Identification of Partonomic

Relations

Partonomic Relations

Taxonomic Relations

Natural Language Text

Domain Corpus

Page 14: Dr. José Luis Ochoa Hernández - inicio | Cudi · G e ttin g th e s e m a n tic ro le A D E S S E F in a l R e la tio n s N o n - T a x o n o m ic R e la tio n s O n to lo g y C

• Fase de PLN

• Fase de patrones lingüísticos

• Fase de extracción de conceptos compuestos

• Fase de extracción de conceptos simples

14

Módulo - Extracción de conceptos

Introducción Objetivos Metodología Herramienta de SW Resultados Conclusiones Trabajos Futuros

Page 15: Dr. José Luis Ochoa Hernández - inicio | Cudi · G e ttin g th e s e m a n tic ro le A D E S S E F in a l R e la tio n s N o n - T a x o n o m ic R e la tio n s O n to lo g y C

Fase de Procesamiento del Lenguaje Natural

T

T

T

Texto Libre

(Lenguaje Natural)

TokenizadorAplicar Método

Divisor de Oraciones Aplicar Método

Etiquetador GramaticalAplicar M

étodo

15

Aplicar Método Lematizador

Reconocedor de

Nombres Aplicar Método

Texto Etiquetado

Obtener Texto

Introducción Objetivos Metodología Herramienta de SW Resultados Conclusiones Trabajos Futuros

Page 16: Dr. José Luis Ochoa Hernández - inicio | Cudi · G e ttin g th e s e m a n tic ro le A D E S S E F in a l R e la tio n s N o n - T a x o n o m ic R e la tio n s O n to lo g y C

Fase de Procesamiento del Lenguaje Natural (Ejemplo)

El procedimiento para designar al nuevo Rector es

establecido en el presente estatuto.

el•el•DA0MS0

procedimiento•procedimiento•NCMS000

para•para•SPS00

designar•designar•VMN0000

a•a•SPS00

el•el•DA0MS0

nuevo•nuevo•AQ0MS0

rector•rector•NCMS000

es•ser•VSIP3S0

establecido•establecer•VMP00SM

en•en•SPS00

el•el•DA0MS0

presente•presente•AQ0CS0

estatuto•estatuto•NCMS000

. •. •Fp

16

Introducción Objetivos Metodología Herramienta de SW Resultados Conclusiones Trabajos Futuros

Page 17: Dr. José Luis Ochoa Hernández - inicio | Cudi · G e ttin g th e s e m a n tic ro le A D E S S E F in a l R e la tio n s N o n - T a x o n o m ic R e la tio n s O n to lo g y C

• Fase de PLN

• Fase de patrones lingüísticos

• Fase de extracción de conceptos compuestos

• Fase de extracción de conceptos simples

17

Módulo - Extracción de conceptos

Introducción Objetivos Metodología Herramienta de SW Resultados Conclusiones Trabajos Futuros

Page 18: Dr. José Luis Ochoa Hernández - inicio | Cudi · G e ttin g th e s e m a n tic ro le A D E S S E F in a l R e la tio n s N o n - T a x o n o m ic R e la tio n s O n to lo g y C

Fase de patrones lingüísticos

• Aprendizaje automático de patrones • Definir la longitud máxima del patrón

• Definir la especificación de cada patrón

• Creación de una lista de patrones guía

• Identificación de patrones en el corpus

• Optimización de patrones

• Proporcionados por el usuario • Añadirlos al sistema

18

Introducción Objetivos Metodología Herramienta de SW Resultados Conclusiones Trabajos Futuros

Page 19: Dr. José Luis Ochoa Hernández - inicio | Cudi · G e ttin g th e s e m a n tic ro le A D E S S E F in a l R e la tio n s N o n - T a x o n o m ic R e la tio n s O n to lo g y C

Aprendizaje automático de patrones Representación gráfica

Usuario

(Consumidor)

Define Patrones Identificación con

Patrones Guía

T

T

T

Texto Libre

(Lenguaje Natural)

Obtener texto

Obtener Patrones

Patrones lingüísticos

19

Optimización de Patrones

Comparación de los patrones

Depuración de Patrones

(Método de Filtración)

Aplicar Método

Obtener Patrones

Método Estadístico

Aplicar Método

Método Heurístico

Aplicar Método

Patrones Obtenidos VS

Originales

Obtener Patrones

Obtener Patrones

Patrones Originales

Mejores Patrones

Obtenidos

Introducción Objetivos Metodología Herramienta de SW Resultados Conclusiones Trabajos Futuros

Page 20: Dr. José Luis Ochoa Hernández - inicio | Cudi · G e ttin g th e s e m a n tic ro le A D E S S E F in a l R e la tio n s N o n - T a x o n o m ic R e la tio n s O n to lo g y C

Patrones lingüísticos obtenidos (Ejemplo)

Longitud del

Patrón

Patrones Guía Patrones Obtenidos Términos

1 xx NC

AQ

secretario

académico

2 xx·xx NC + AQ contrato colectivo

3 xx·xx·xx NC + AQ + AQ

NC + SP + NP

secretario general académico

programa de doctorado

4 xx·xx·xx·x NC + SP + NC + A institución de educación superior

6 xx·x·xx·xx·xx·xx NC+A+SP+NC+SP+NC título profesional a nivel de licenciatura

20

Introducción Objetivos Metodología Herramienta de SW Resultados Conclusiones Trabajos Futuros

Page 21: Dr. José Luis Ochoa Hernández - inicio | Cudi · G e ttin g th e s e m a n tic ro le A D E S S E F in a l R e la tio n s N o n - T a x o n o m ic R e la tio n s O n to lo g y C

• Fase de PLN

• Fase de patrones lingüísticos

• Fase de extracción de conceptos compuestos

• Fase de extracción de conceptos simples

21

Módulo - Extracción de conceptos

Introducción Objetivos Metodología Herramienta de SW Resultados Conclusiones Trabajos Futuros

Page 22: Dr. José Luis Ochoa Hernández - inicio | Cudi · G e ttin g th e s e m a n tic ro le A D E S S E F in a l R e la tio n s N o n - T a x o n o m ic R e la tio n s O n to lo g y C

Extracción de conceptos compuestos

• Obtención de términos candidatos basado en patrones – Método de Clasificación C-Value [Frantzi et al., 2000]

– Donde: • a es el término candidato. • |a| es la longitud del término candidato. • ƒ(a) es la frecuencia del término candidato a en el corpus. • Ta es el conjunto de candidatos de mayor longitud que contienen a a. • P(Ta) es el número de los candidatos de mayor longitud que contienen a a. • es la ocurrencia total de a como subtérmino de cualquier término candidato

b tal que |a| < |b|. )(bf

22

aTba

bfTP

afa

afa

ValueC)(

)(

1*log

*log

2

2

Introducción Objetivos Metodología Herramienta de SW Resultados Conclusiones Trabajos Futuros

Page 23: Dr. José Luis Ochoa Hernández - inicio | Cudi · G e ttin g th e s e m a n tic ro le A D E S S E F in a l R e la tio n s N o n - T a x o n o m ic R e la tio n s O n to lo g y C

• Factor de ponderación de contexto – Método de clasificación NC-Value [Frantzi et al., 2000]

– Donde:

• w es la palabra de contexto. • t(w) es el número de veces que aparece la palabra de

contexto con el término. • n es el número total de veces que se considero. • weight (w) es el factor de ponderación de contexto.

23

Extracción de conceptos compuestos

n

wtwweight

)()(

Introducción Objetivos Metodología Herramienta de SW Resultados Conclusiones Trabajos Futuros

Page 24: Dr. José Luis Ochoa Hernández - inicio | Cudi · G e ttin g th e s e m a n tic ro le A D E S S E F in a l R e la tio n s N o n - T a x o n o m ic R e la tio n s O n to lo g y C

• Obtención de términos candidatos basado en patrones

– Donde:

• a es el término candidato.

• Ca es el conjunto de palabras de contexto de a.

• b es una palabra de Ca.

• ƒ(a) es la frecuencia de b como palabra de contexto de a.

• weight (b) es el peso de b como palabra de contexto.

24

Extracción de conceptos compuestos

aCb

a bweightbfavalueCavalueNC )()(2.0)(8.0)(

Introducción Objetivos Metodología Herramienta de SW Resultados Conclusiones Trabajos Futuros

Page 25: Dr. José Luis Ochoa Hernández - inicio | Cudi · G e ttin g th e s e m a n tic ro le A D E S S E F in a l R e la tio n s N o n - T a x o n o m ic R e la tio n s O n to lo g y C

Extracción de conceptos compuestos Representación gráfica

Candidatos del

Corpus Obtener texto

Texto Etiquetado

Aplicar p

atrones

Patrones

Lingüísticos

Aplicar MétodoMétodo C – value

25

Aplicar MétodoMétodo NC – value

Conceptos

obtenidos VS

Originales

Obtener conceptos

Conceptos

Originales

Obtener conceptos

Obtener candidatos

Conceptos

Compuestos

Obtiene palabras

vecinas

Obtener candidatos

Mejores conceptos

compuestos

Obtener

candidatos

Introducción Objetivos Metodología Herramienta de SW Resultados Conclusiones Trabajos Futuros

Page 26: Dr. José Luis Ochoa Hernández - inicio | Cudi · G e ttin g th e s e m a n tic ro le A D E S S E F in a l R e la tio n s N o n - T a x o n o m ic R e la tio n s O n to lo g y C

• Fase de PLN

• Fase de patrones lingüísticos

• Fase de extracción de conceptos compuestos

• Fase de extracción de conceptos simples

26

Módulo - Extracción de conceptos

Introducción Objetivos Metodología Herramienta de SW Resultados Conclusiones Trabajos Futuros

Page 27: Dr. José Luis Ochoa Hernández - inicio | Cudi · G e ttin g th e s e m a n tic ro le A D E S S E F in a l R e la tio n s N o n - T a x o n o m ic R e la tio n s O n to lo g y C

• Obtención de términos candidatos basado en patrones – Método TF-IDF de Clasificación [(Salton, 1991); (Knoth et al., 2009)]

27

Extracción de conceptos simples

Donde:

tfi,j representa la frecuencia del término

idfi que representa la frecuencia del documento inversa

ijiji idftfidftf ,,)(

Introducción Objetivos Metodología Herramienta de SW Resultados Conclusiones Trabajos Futuros

Page 28: Dr. José Luis Ochoa Hernández - inicio | Cudi · G e ttin g th e s e m a n tic ro le A D E S S E F in a l R e la tio n s N o n - T a x o n o m ic R e la tio n s O n to lo g y C

Extracción de conceptos simples

28

k jk

ji

jin

ntf

,

,

, }:{log

dtd

Didf

i

i

• Método TF- IDF de clasificación

Donde:

El numerador n i,j: es el número de

ocurrencias del término considerado (ti)

en el documento dj.

El denominador es la suma del

número de ocurrencias de los términos

en el documento dj, es decir, el tamaño

del documento | d j |.

Donde:

|D| : es el número total de documentos

en el corpus.

. es el número de

documentos en los que aparece el

término ti.

En el supuesto de que el término no

este en el corpus, se producirá una

división por cero. Por lo tanto es común

utilizar .

}:{ dtd i

}:{1 dtd i

Introducción Objetivos Metodología Herramienta de SW Resultados Conclusiones Trabajos Futuros

Page 29: Dr. José Luis Ochoa Hernández - inicio | Cudi · G e ttin g th e s e m a n tic ro le A D E S S E F in a l R e la tio n s N o n - T a x o n o m ic R e la tio n s O n to lo g y C

Extracción de conceptos simples Representación gráfica

Texto EtiquetadoObtener Texto

Aplicar p

atrones

Patrones

Lingüísticos

Candidatos por cada

elemento del Corpus

Aplicar MétodoMétodo TF-IDF

29

Obtener candidatos

Mejores conceptos

sencillos

Candidatos

obtenidos VS

Originales

Obtener candidatos

Conceptos

originales

Obtener conceptos

Introducción Objetivos Metodología Herramienta de SW Resultados Conclusiones Trabajos Futuros

Page 30: Dr. José Luis Ochoa Hernández - inicio | Cudi · G e ttin g th e s e m a n tic ro le A D E S S E F in a l R e la tio n s N o n - T a x o n o m ic R e la tio n s O n to lo g y C

NC-value Conceptos TF-IDF Conceptos

60.23 dirección de servicio escolar 48.58 Docencia

60.00 plan de estudio 48.57 Programa

57.06 personal académico 45.99 Asignatura

55.47 jefe de departamento 44.75 Nivel

50.00 institución de educación superior 40.68 Conclusión

44.38 programa de doctorado 35.87 Posgrado

30

Ejemplo de los conceptos extraídos

Introducción Objetivos Metodología Herramienta de SW Resultados Conclusiones Trabajos Futuros

Page 31: Dr. José Luis Ochoa Hernández - inicio | Cudi · G e ttin g th e s e m a n tic ro le A D E S S E F in a l R e la tio n s N o n - T a x o n o m ic R e la tio n s O n to lo g y C

Módulo - Extracción de relaciones

31

Introducción Objetivos Metodología Herramienta de SW Resultados Conclusiones Trabajos Futuros

Page 32: Dr. José Luis Ochoa Hernández - inicio | Cudi · G e ttin g th e s e m a n tic ro le A D E S S E F in a l R e la tio n s N o n - T a x o n o m ic R e la tio n s O n to lo g y C

FASE

Identificación de Verbos

FASE

Identificación de Relaciones

Módulo - Extracción de relaciones Representación gráfica

T

T

T

Corpus

(Etiquetado)

Obtener texto

Relaciones

Obtener Relaciones

Identificar conceptos

válidos

Obtener

candidatos

Mejores conceptos

Simples Obtener conceptos

32

Algoritmo TBR Aplicar Algoritmo

Base de Datos

ADESSE

Añadir semántica

Identificar Verbos y

palabras de contexto

Relaciones

Semánticas

Obtener Relaciones

Mejores conceptos

compuestosObtener

conceptos

Introducción Objetivos Metodología Herramienta de SW Resultados Conclusiones Trabajos Futuros

Page 33: Dr. José Luis Ochoa Hernández - inicio | Cudi · G e ttin g th e s e m a n tic ro le A D E S S E F in a l R e la tio n s N o n - T a x o n o m ic R e la tio n s O n to lo g y C

Identificación y extracción de relaciones

• Identificación de verbos

Oración Relaciones

…y difundir las convocatorias de movilidad estudiantil

proporcionadas por la dirección de movilidad,

intercambio y…

movilidad estudiantil

proporcionar dirección de

movilidad

33

Búsqueda de conceptos alrededor del Verbo

Introducción Objetivos Metodología Herramienta de SW Resultados Conclusiones Trabajos Futuros

CONCEPTOS IDENTIFICADOS IZQUIERDA VERBO CONCEPTOS IDENTIFICADOS DERECHA

movilidad estudiantil

proporcionar

Dirección

convocatorias Movilidad

movilidad Intercambio

estudiantil dirección de movilidad

Page 34: Dr. José Luis Ochoa Hernández - inicio | Cudi · G e ttin g th e s e m a n tic ro le A D E S S E F in a l R e la tio n s N o n - T a x o n o m ic R e la tio n s O n to lo g y C

• Roles Semánticos = significado no implícito

34

Asignación de roles semánticos

Introducción Objetivos Metodología Herramienta de SW Resultados Conclusiones Trabajos Futuros

<predicate lemma="sustituir">

<roleset id=”sustitución”>

<roles>

<role n="0" descr="holder"/>

<role n="1" descr="sustituir"/>

</roles>

</roleset>

El [0rector] es sustituido por el [1Secretario General Académico].

Page 35: Dr. José Luis Ochoa Hernández - inicio | Cudi · G e ttin g th e s e m a n tic ro le A D E S S E F in a l R e la tio n s N o n - T a x o n o m ic R e la tio n s O n to lo g y C

Relaciones Taxonómicas

• Para identificar las relaciones taxonómicas, se busca la unión del verbo “ser” en tercera persona “es” con un determinante “un ó una”,

Oración Relación taxonómica Explicación

“La Junta Directiva es un órgano colegiado con

facultades de nombrar al Rector.”

junta directiva es un

órgano colegiado

Nos dice que la junta directiva

perteneces a la categoría de

órganos colegiados.

La Universidad de Sonora es una institución

autónoma de servicio público.

Universidad de Sonora es una

Institución autónoma

Nos dice que a la Universidad de

sonora se le considera una

institución independiente.

Page 36: Dr. José Luis Ochoa Hernández - inicio | Cudi · G e ttin g th e s e m a n tic ro le A D E S S E F in a l R e la tio n s N o n - T a x o n o m ic R e la tio n s O n to lo g y C

• Para identificar las relaciones partonómicas, se busca la unión de preposiciones y artículos “de la ó de el”.

Relaciones Partonómicas Oración Relación Relación semántica Explicación

“Nos fue turnada para su estudio y dictamen la

Iniciativa de Ley Orgánica de la Universidad de

Sonora.”

Ley Orgánica de la

Universidad de Sonora

Universidad de Sonora tiene una

Ley Orgánica.

De la cual obtenemos la relación

semántica asociada a la conjunción

“de la”, que puede ser “tener” o

“tiene un“.

La obligatoriedad del Estado de sostener el

"Fondo Universidad de Sonora", administrado

por el Instituto de Crédito Educativo del Estado

de Sonora….”

a) obligatoriedad del Estado =

obligatoriedad de el Estado

b) Instituto de crédito educativo

del Estado de Sonora =

Instituto de crédito educativo

de el Estado de Sonora

a) el estado tiene una

obligatoriedad, es decir,

obligaciones

b) el estado de Sonora tiene un

Instituto de Crédito Educativo

a) De la cual obtenemos la relación

semántica asociada a la conjunción

“de el”, que puede ser “tener” o

“tiene“.

b) De la cual obtenemos la relación

semántica asociada a la conjunción

“de el”, que puede ser “tener” o

“tiene un“.

Page 37: Dr. José Luis Ochoa Hernández - inicio | Cudi · G e ttin g th e s e m a n tic ro le A D E S S E F in a l R e la tio n s N o n - T a x o n o m ic R e la tio n s O n to lo g y C

Módulo - Construcción de la ontología

37

Introducción Objetivos Metodología Herramienta de SW Resultados Conclusiones Trabajos Futuros

Page 38: Dr. José Luis Ochoa Hernández - inicio | Cudi · G e ttin g th e s e m a n tic ro le A D E S S E F in a l R e la tio n s N o n - T a x o n o m ic R e la tio n s O n to lo g y C

• Fase de identificación de nombres de clases y subclases

• Fase de identificación de nombres de propiedades y subpropiedades

• Fase de identificación de algunas restricciones

38

Módulo - Construcción de la ontología

Introducción Objetivos Metodología Herramienta de SW Resultados Conclusiones Trabajos Futuros

Page 39: Dr. José Luis Ochoa Hernández - inicio | Cudi · G e ttin g th e s e m a n tic ro le A D E S S E F in a l R e la tio n s N o n - T a x o n o m ic R e la tio n s O n to lo g y C

Módulo - Construcción de la ontología Representación gráfica

Relaciones

SemánticasIdentificar Clases

Obtener Conceptos

Obtener Nombre de Clases

39

Identificar

SubClases

Obtener Relaciones

Identificar

Propiedades

Obtener V

erbos

Obtener nombres de

propiedades

Identificar

subPropiedades

Obtener R

elaciones

Identificación de

Dominios y Rangos

Obtener nombre de Clases

Obtener parámetros

Implementar API-

OWL

Obtener Parámetros

Generar Ontología

Introducción Objetivos Metodología Herramienta de SW Resultados Conclusiones Trabajos Futuros

Page 40: Dr. José Luis Ochoa Hernández - inicio | Cudi · G e ttin g th e s e m a n tic ro le A D E S S E F in a l R e la tio n s N o n - T a x o n o m ic R e la tio n s O n to lo g y C

Módulo - Construcción de la ontología

40

Conceptos compuestos • La categoría gramatical

nombre = nombre de clase

• Las subclases son los conceptos

Conceptos simples

• Las clases son los conceptos

Identificación de nombres de clases y subclases

Introducción Objetivos Metodología Herramienta de SW Resultados Conclusiones Trabajos Futuros

Page 41: Dr. José Luis Ochoa Hernández - inicio | Cudi · G e ttin g th e s e m a n tic ro le A D E S S E F in a l R e la tio n s N o n - T a x o n o m ic R e la tio n s O n to lo g y C

• Identificación de propiedades y subpropiedades

Para conceptos compuestos y simples

• Las propiedades son obtenidas a partir del rol semántico.

• Las subpropiedades son el verbo original en su forma lematizada.

41

Módulo - Construcción de la ontología

Introducción Objetivos Metodología Herramienta de SW Resultados Conclusiones Trabajos Futuros

Page 42: Dr. José Luis Ochoa Hernández - inicio | Cudi · G e ttin g th e s e m a n tic ro le A D E S S E F in a l R e la tio n s N o n - T a x o n o m ic R e la tio n s O n to lo g y C

• Identificación de algunas restricciones

Dominio y rango

• Las clases a la izquierda de cada relación determina el dominio.

• Las clases a la derecha de cada relación determina el rango.

42

Módulo - Construcción de la ontología

Introducción Objetivos Metodología Herramienta de SW Resultados Conclusiones Trabajos Futuros

Page 43: Dr. José Luis Ochoa Hernández - inicio | Cudi · G e ttin g th e s e m a n tic ro le A D E S S E F in a l R e la tio n s N o n - T a x o n o m ic R e la tio n s O n to lo g y C

43

Ejemplo de una ontología generada con esta metodología.

Introducción Objetivos Metodología Herramienta de SW Resultados Conclusiones Trabajos Futuros

Page 44: Dr. José Luis Ochoa Hernández - inicio | Cudi · G e ttin g th e s e m a n tic ro le A D E S S E F in a l R e la tio n s N o n - T a x o n o m ic R e la tio n s O n to lo g y C

Herramienta de Software

44

Introducción Objetivos Metodología Herramienta de SW Resultados Conclusiones Trabajos Futuros

Page 45: Dr. José Luis Ochoa Hernández - inicio | Cudi · G e ttin g th e s e m a n tic ro le A D E S S E F in a l R e la tio n s N o n - T a x o n o m ic R e la tio n s O n to lo g y C

45

Herramienta de SW

Introducción Objetivos Metodología Herramienta de SW Resultados Conclusiones Trabajos Futuros

Page 46: Dr. José Luis Ochoa Hernández - inicio | Cudi · G e ttin g th e s e m a n tic ro le A D E S S E F in a l R e la tio n s N o n - T a x o n o m ic R e la tio n s O n to lo g y C

Resultados

46

Introducción Objetivos Metodología Herramienta de SW Resultados Conclusiones Trabajos Futuros

Page 47: Dr. José Luis Ochoa Hernández - inicio | Cudi · G e ttin g th e s e m a n tic ro le A D E S S E F in a l R e la tio n s N o n - T a x o n o m ic R e la tio n s O n to lo g y C

• Los resultados han sido cuantificados y valorados de acuerdo a las siguientes métricas de evaluación. • Precisión:

• Recall:

• Medida F:

47

||

||

extraídasentidades

relevantesentidadesextraídasentidadesprecisión

||

||

relevantesentidades

relevantesentidadesextraídasentidadesrecall

recallprecision

recallprecisionmeasureF

2

Introducción Objetivos Metodología Herramienta de SW Resultados Conclusiones Trabajos Futuros

Page 48: Dr. José Luis Ochoa Hernández - inicio | Cudi · G e ttin g th e s e m a n tic ro le A D E S S E F in a l R e la tio n s N o n - T a x o n o m ic R e la tio n s O n to lo g y C

48

Resultados obtenidos en el dominio universitario

Introducción Objetivos Metodología Herramienta de SW Resultados Conclusiones Trabajos Futuros

Precision

0,00%

10,00%

20,00%

30,00%

40,00%

50,00%

60,00%

70,00%

80,00%

90,00%

100,00%

Single-word

Concepts

Multi-word

Concepts

Total Taxonomic R. Partonomic R. Other semantic

R.

Total Overall Total

Recall

0,00%

10,00%

20,00%

30,00%

40,00%

50,00%

60,00%

70,00%

80,00%

90,00%

100,00%

110,00%

Single-word

Concepts

Multi-word

Concepts

Total Taxonomic R. Partonomic R. Other semantic

R.

Total Overall Total

F-Measure

0,00%

10,00%

20,00%

30,00%

40,00%

50,00%

60,00%

70,00%

80,00%

90,00%

100,00%

Single-word

Concepts

Multi-word

Concepts

Total Taxonomic R. Partonomic R. Other semantic

R.

Total Overall Total

Page 49: Dr. José Luis Ochoa Hernández - inicio | Cudi · G e ttin g th e s e m a n tic ro le A D E S S E F in a l R e la tio n s N o n - T a x o n o m ic R e la tio n s O n to lo g y C

Muchas Gracias

Mail de contacto: [email protected]

49

Departamento de Ingeniería Industrial,

Universidad de Sonora

Hermosillo, Sonora, México.

Se agradece al gobierno mexicano

y al programa de consolidación Institucional

de repatriación de conacyt (168341)

¿Preguntas?