taxonomías documentales y categorización textual

25
Hondarribi 2004 Hondarribi 2004 Taxonomías documentales Taxonomías documentales y categorización textual y categorización textual Abaitua, Barrutieta, Díaz, Jacob, Abaitua, Barrutieta, Díaz, Jacob, Quintana Quintana DELi DELi

Upload: beatrice-hebert

Post on 04-Jan-2016

60 views

Category:

Documents


1 download

DESCRIPTION

Hondarribi 2004. Taxonomías documentales y categorización textual. Abaitua, Barrutieta, Díaz, Jacob, Quintana. DELi. Objetivos. Convertir un corpus en una base documental organizar la masa informe de textos en taxonomías “pragmáticas” (p.ej. géneros) Categorización automática - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Taxonomías documentales y categorización textual

Hondarribi 2004Hondarribi 2004

Taxonomías documentales y Taxonomías documentales y categorización textualcategorización textual

Abaitua, Barrutieta, Díaz, Jacob, QuintanaAbaitua, Barrutieta, Díaz, Jacob, Quintana

DELiDELi

Page 2: Taxonomías documentales y categorización textual

22DELi (UD)DELi (UD)

ObjetivosObjetivos

• Convertir un corpus en una base Convertir un corpus en una base documentaldocumental

– organizar la masa informe de textos en organizar la masa informe de textos en

taxonomías “pragmáticas” taxonomías “pragmáticas” (p.ej. géneros)(p.ej. géneros)

• Categorización automáticaCategorización automática• Segmentación de texto basada en Segmentación de texto basada en

unidades retóricas unidades retóricas (¿RST?)(¿RST?)

• Open Taxonomy MLOpen Taxonomy ML

Page 3: Taxonomías documentales y categorización textual

33DELi (UD)DELi (UD)

Clasificación documental:Clasificación documental:tres corrientestres corrientes

• Documentación Documentación – (metadatos)(metadatos)

• Recuperación de información Recuperación de información – (machine learning, clasificadores (machine learning, clasificadores

probabilísticos, algoritmos genéticos)probabilísticos, algoritmos genéticos)

• Traductología, lingüística aplicada, Traductología, lingüística aplicada, pragmática pragmática – (funciones comunicativas, género)(funciones comunicativas, género)

Page 4: Taxonomías documentales y categorización textual

44DELi (UD)DELi (UD)

Clasificación documental:Clasificación documental:corriente 1corriente 1

• Documentación (metadatos)Documentación (metadatos)– bibliotecas MARCS, UDC, tesaurosbibliotecas MARCS, UDC, tesauros

• metadata (author, title, series, subject, physical metadata (author, title, series, subject, physical description, etc.)description, etc.)

• httphttp://://xmlmarcxmlmarc..stanfordstanford..eduedu/XML//XML/samplessamples/99F937L./99F937L.xmlxml

• subjectssubjects (e.g. 8 Language, 82 Literature, 82.06 (e.g. 8 Language, 82 Literature, 82.06 Translation)Translation)

– lingüística de corpus (TEI, EAGLES, lingüística de corpus (TEI, EAGLES, MULTEXT, CES, ISLE, OLAC)MULTEXT, CES, ISLE, OLAC)

– web semántica (DCMI, WOL)web semántica (DCMI, WOL)

Page 5: Taxonomías documentales y categorización textual

55DELi (UD)DELi (UD)

Clasificación documental:Clasificación documental:corriente 2corriente 2

• Recuperación de informaciónRecuperación de información– Categorización textual Categorización textual (Sebastiani 1999)(Sebastiani 1999)

• indexación automática indexación automática (asignación de palabras claves)(asignación de palabras claves)

• organización documental (clasificación por categorías, organización documental (clasificación por categorías, directorios Yahoo!), directorios Yahoo!),

• filtrado (dentro del flujo de trabajo)filtrado (dentro del flujo de trabajo)

• WSDWSD

– Categorías basadas en “contenidos”Categorías basadas en “contenidos”• Categorisation into “concept” hierarchies (Sebastiani 1999, Categorisation into “concept” hierarchies (Sebastiani 1999, Bouquet et al

2003)2003)• ““into topical categories on the basis of content [...] within the general into topical categories on the basis of content [...] within the general

machine learning paradigm”machine learning paradigm”• ““semantic mappings across hierarchical classifications of contentsemantic mappings across hierarchical classifications of content””

Page 6: Taxonomías documentales y categorización textual

66DELi (UD)DELi (UD)

Clasificación documental:Clasificación documental:corriente 3corriente 3

• Ciencias cognitivas Ciencias cognitivas (Austin 1962, Searle 1969, (Austin 1962, Searle 1969, Cohen & Perrault 1979)Cohen & Perrault 1979)– speech actsspeech acts

• Lingüística aplicada, pragmática Lingüística aplicada, pragmática (Halliday (Halliday 1971, Biber 1989, Bhatia 1993)1971, Biber 1989, Bhatia 1993)– communicative functions, rhetorical strategies, genrescommunicative functions, rhetorical strategies, genres

• Traductología Traductología (Hatim & Basin 1990, Trosborg (Hatim & Basin 1990, Trosborg 1997)1997)– text typology, genrestext typology, genres

Page 7: Taxonomías documentales y categorización textual

77DELi (UD)DELi (UD)

Clasificación por génerosClasificación por géneros• tipos textuales fáciles de reconocer por los tipos textuales fáciles de reconocer por los

“traductores”“traductores”• ““reflect differences in reflect differences in external format external format

and situations of useand situations of use, and are defined , and are defined on the basis of systematic on the basis of systematic non-linguistic non-linguistic criteriacriteria”” (Trosborg 1997) (Trosborg 1997)

• ““coded andcoded and keyed eventskeyed events set within set within social communicative processsocial communicative process”(Todorov ”(Todorov 1976, Fowler 1982, Swales 1990).1976, Fowler 1982, Swales 1990).

• UD-corpus: 25 genresUD-corpus: 25 genres• Not effective for rapid interactionNot effective for rapid interaction

Page 8: Taxonomías documentales y categorización textual

88DELi (UD)DELi (UD)

Sistema de gestión documental Sistema de gestión documental (SARE-Bi)(SARE-Bi)

• Hierarchical Hierarchical taxonomy of 3 levelstaxonomy of 3 levels– communicative communicative

function (3)function (3)– genre (25)genre (25)– topic (250)topic (250)

(Trosborg 1997)(Trosborg 1997)

30000/inquirir31100/ ficha31101/ aceptación o renuncia de beca31102/ boletín de inscripción31103/ datos de viaje31104/ modelo de pago31105/ relación de coordinadores departamentales31106/ planificación actividad de profesores31107/ prácticas31108/ datos estadísticos31109/ boletín subscripción revista31200/ impreso31201/ de solicitud de beca31202/ de solicitud de expediente31203/ de solicitud de admisión31204/ de solicitud de alojamiento31205/ de programa Sócrates31206/ de matrícula31207/ factura31208/ recibí31209/ petición de fotocopias

Page 9: Taxonomías documentales y categorización textual

99DELi (UD)DELi (UD)

Clasificación por génerosClasificación por géneros

11000/autorización

11100/acuerdo

11200/instrucciones

11300/normativa

11400/bases

11500/plan

11600/ceremonial

21100/aviso

21200/carta (está firmada)

21300/saluda (no se rubrica)

21400/certificado (por)

21500/convocatoria

21600/tarjeta de invitación

21700/folleto (imprenta)

21800/guía

21900/memoria

22000/catálogo

23000/actas

23100/anuncios en prensa

23200/carteles de propaganda

23700/nombramientos

31100/ficha

31200/impreso

31300/cuestionario

31400/instancia

Page 10: Taxonomías documentales y categorización textual

1010DELi (UD)DELi (UD)

Géneros y subgénerosGéneros y subgéneros(o ¿temas?)(o ¿temas?)

21400/certificado (por)

21401/matrícula de curso

21402/asistencia a curso 21403/participación en curso 21404/plaza en programa 21405/admisión en estudios 21406/derechos de título pagados 21407/asignaturas de carrera superadas y prueba de conjunto pendiente

21408/asignaturas de carrera y prueba de conjunto superadas 21409/superación de pruebas 21410/suficiencia investigadora

21421/oyente en actividad (congreso, jornada, seminario...) 21422/organizador de actividad 21423/ponente en actividad 21424/evaluador en actividad 21425/miembro de comité científico en actividad

21441/participación en informe 21442/participación en proyecto de investigación

21443/financiación para proyecto 21444/participación en comisión 21445/prácticas

21446/solicitud de beca 21447/especialidad-itinerario

Page 11: Taxonomías documentales y categorización textual

1111DELi (UD)DELi (UD)

Funciones comunicativasFunciones comunicativas

• classification according to the classification according to the purposepurpose of of the dicourse (aka the dicourse (aka rethorical strategiesrethorical strategies))

• ¿the discourse intends to ¿the discourse intends to inform inform express an attitude express an attitude persuade persuade create a debate ?create a debate ?

UD documents:UD documents: regulateregulate informeinforme request (for information)request (for information)

Longacre (1976, 1982), Smith (1985) and Biber Longacre (1976, 1982), Smith (1985) and Biber (1989) (1989)

Page 12: Taxonomías documentales y categorización textual

1212DELi (UD)DELi (UD)

Géneros por funcionesGéneros por funciones

10000/reglamentar

11000/autorización

11100/acuerdo

11200/instrucciones

11300/normativa

11400/bases

11500/plan

11600/ceremonial

30000/inquirir

31100/ficha

31200/impreso

31300/cuestionario

31400/instancia

20000/informar

21100/aviso

21200/carta (está firmada)

21300/saluda (no se rubrica)

21400/certificado (por) 21500/convocatoria

21600/tarjeta de invitación

21700/folleto (imprenta)

21800/guía

21900/memoria

22000/catálogo

23000/actas

23100/anuncios en prensa

23200/carteles de propaganda

23700/nombramientos

Page 13: Taxonomías documentales y categorización textual

1313DELi (UD)DELi (UD)

Categorización por génerosCategorización por géneros

• (Sebastiani 1999)(Sebastiani 1999)– ““Un proceso inductivo construye automáticamente un clasificador para Un proceso inductivo construye automáticamente un clasificador para

una categoría observando las una categoría observando las característicascaracterísticas de un conjunto de de un conjunto de documentos previamente clasificados a mano por un experto.”documentos previamente clasificados a mano por un experto.”

– Las características se representan como vectores de términosLas características se representan como vectores de términos• términostérminos

– palabras aisladas palabras aisladas – agrupaciones (gramaticales, estadísticas)agrupaciones (gramaticales, estadísticas)

• (Lewis 1992)(Lewis 1992)

– En nuestro caso las características están definidas por la En nuestro caso las características están definidas por la estructura que define cada géneroestructura que define cada género

• documento se define por disposición estructural de los párrafosdocumento se define por disposición estructural de los párrafos

• previamente se deben categorizar los parrafos (definidos por vector previamente se deben categorizar los parrafos (definidos por vector de palabras)de palabras)

Page 14: Taxonomías documentales y categorización textual

1414DELi (UD)DELi (UD)

Gestor documetal basado en Gestor documetal basado en metadatos metadatos

• TitleTitle• LanguagesLanguages• Text categoriesText categories• DateDate• AuthorAuthor• PlacePlace• CenterCenter• CollectionCollection• VisibilityVisibility

Page 15: Taxonomías documentales y categorización textual

1515DELi (UD)DELi (UD)

Open Taxonomy Markup LanguageOpen Taxonomy Markup Language<taxonomy><taxonomy>

<levels><levels><level>función</level><level>función</level><level>género</level><level>género</level><level>tema</level> <level>tema</level>

</levels></levels><cat>informar<cat>informar

<cat>certificado<cat>certificado<cat>organización de actividad</cat><cat>organización de actividad</cat><cat>ponencia en actividad</cat><cat>ponencia en actividad</cat><cat>asistencia a actividad</cat><cat>asistencia a actividad</cat>

</cat></cat></cat></cat>

<<//taxonomy>taxonomy>

Page 16: Taxonomías documentales y categorización textual

1616DELi (UD)DELi (UD)

ConclusionesConclusiones• Convertir un corpus en una base Convertir un corpus en una base

documentaldocumental– organizar la masa informe de textos en organizar la masa informe de textos en

categorías pragmáticascategorías pragmáticas

• Segmentación de texto basada en Segmentación de texto basada en unidades retóricas (RST)unidades retóricas (RST)

• Open Taxonomy MLOpen Taxonomy ML• Sindicación de catálogos abiertosSindicación de catálogos abiertos• Protocolo para recolección de metadatos Protocolo para recolección de metadatos

(OAI-PMH) (OAI-PMH)

Page 17: Taxonomías documentales y categorización textual

1717DELi (UD)DELi (UD)

Page 18: Taxonomías documentales y categorización textual

1818DELi (UD)DELi (UD)

Classification Hierarchies – CH Classification Hierarchies – CH (Magnini 2003)(Magnini 2003)

Taxonomic organization of documentsTaxonomic organization of documents Easy to build: no formal language is requiredEasy to build: no formal language is required Widespread used:Widespread used:

Web directories Web directories (Google, Yahoo!, Looksmart, portals)(Google, Yahoo!, Looksmart, portals) Market place cataloguesMarket place catalogues for product classifications for product classifications File systemsFile systems Local OntologiesLocal Ontologies

Documents are classified at all levels of the hierarchyDocuments are classified at all levels of the hierarchy CHs structure reflect both the documents and world CHs structure reflect both the documents and world

knowledgeknowledge

Page 19: Taxonomías documentales y categorización textual

1919DELi (UD)DELi (UD)

CH CH (Magnini 2003)(Magnini 2003)

Vacation

2001 2000

Sea LakeSeaMountains

Tuscany Spain USA

Semi-structuredSemi-structured: : relations among nodes are not relations among nodes are not formally defined.formally defined.

Document dependentDocument dependent: : CHs are organized according to CHs are organized according to the documents that have to be the documents that have to be

classified.classified. Specificity criterionSpecificity criterion: : a a

document is classified in the document is classified in the more specific node of the more specific node of the hierarchy.hierarchy.

Page 20: Taxonomías documentales y categorización textual

2020DELi (UD)DELi (UD)

CH: e.g. organizing papers on a CH: e.g. organizing papers on a file system: file system:

Work

WSD QA

PapersProjectsExperiments

Senseval-2

ACL-02

Submission Camera ready Submission

Knowledge about the Knowledge about the domain is used domain is used

Classification schema Classification schema are repeatedare repeated

Labels are interpreted Labels are interpreted in their contextin their context

(Magnini 2003)(Magnini 2003)

Page 21: Taxonomías documentales y categorización textual

2121DELi (UD)DELi (UD)

Interoperability among CHs Interoperability among CHs (Magnini 2003)(Magnini 2003)

Scientific interest.Scientific interest. Various terms have been recently used, Various terms have been recently used, including:including: Meaning negotiationMeaning negotiation Semantic coordinationSemantic coordination Mapping between domain models Mapping between domain models Semantic mediationSemantic mediation Ontology merging, integration or alignmentOntology merging, integration or alignment Integration of hierarchical categorizationIntegration of hierarchical categorization

Fits well in theFits well in the Semantic Web Semantic Web perspectiveperspective Commercial interestCommercial interest: : Distributed Knowledge Management Distributed Knowledge Management

in corporationsin corporations

Common goal: Common goal: find find mappingsmappings between nodes of two between nodes of two classification hierarchiesclassification hierarchies

Page 22: Taxonomías documentales y categorización textual

2222DELi (UD)DELi (UD)

Source CH Target CH

Vacation

2001 2000

Sea LakeSeaMountains

Tuscany Spain USA

Sea holidays

Italy in Europe

Interoperability among CHsInteroperability among CHs

Page 23: Taxonomías documentales y categorización textual

2323DELi (UD)DELi (UD)

Source CH Target CH

Vacation

2001 2000

Sea LakeSeaMountains

Tuscany Spain USA

Sea holidays

Italy in Europe

Interoperability among CHsInteroperability among CHs

Page 24: Taxonomías documentales y categorización textual

2424DELi (UD)DELi (UD)

Matching Google and Yahoo! :Matching Google and Yahoo! : (Magnini 2003)(Magnini 2003)

.88 (.93) .46 (.43).88 (.93) .46 (.43)

.60 (.67) .78 (.69).60 (.67) .78 (.69)

.78 (.71) .13 (.10).78 (.71) .13 (.10)

Pr. Re.Pr. Re.

MedicineMedicine

.85 (.96) .49 (.48).85 (.96) .49 (.48)

.51 (.61) .91 (.62).51 (.61) .91 (.62)

.71 (.60) .10 (.10).71 (.60) .10 (.10)

Pr. Re.Pr. Re.

ArchitectureArchitecture

More specificMore specific

More generalMore general

EquivalenceEquivalence

Google: Architecture/History/Periods_and_Styles/Gothic

Yahoo: Architecture/History/Medieval

Is More specific than

Page 25: Taxonomías documentales y categorización textual

2525DELi (UD)DELi (UD)

ExperimentsExperiments

Web directoriesWeb directories: build a reference benchmark for : build a reference benchmark for evaluating matching algorithms.evaluating matching algorithms. Include LooksmartInclude Looksmart Google English vs Google ItalianGoogle English vs Google Italian

File systemsFile systems Collaboration Edamok, SWAP, MEANINGCollaboration Edamok, SWAP, MEANING

Domain specific applicationsDomain specific applications Medical classification: integration of UML in the algorithmMedical classification: integration of UML in the algorithm Public Administration: matching document classification Public Administration: matching document classification

hierarchies for automatic routinghierarchies for automatic routing