namn- och termigenkänning i specialiserade texter
DESCRIPTION
Namn- och termigenkänning i specialiserade texter. Cecilia Hemming Högskolan i Skövde Institutionen för Kommunikation och Information Datalingvistik. Namn- och termigenkänning. Automatisk sammanfattning plocka ut det väsentliga ur en text Informationsextrahering (IE) - PowerPoint PPT PresentationTRANSCRIPT
![Page 1: Namn- och termigenkänning i specialiserade texter](https://reader035.vdocuments.mx/reader035/viewer/2022062309/56814950550346895db69f76/html5/thumbnails/1.jpg)
Namn- och termigenkänning i specialiserade texter
Cecilia Hemming
Högskolan i SkövdeInstitutionen för Kommunikation och Information
Datalingvistik
![Page 2: Namn- och termigenkänning i specialiserade texter](https://reader035.vdocuments.mx/reader035/viewer/2022062309/56814950550346895db69f76/html5/thumbnails/2.jpg)
GU-Språkteknologidagen, 22 april 2005.
Namn- och termigenkänning
Automatisk sammanfattningplocka ut det väsentliga ur en text
Informationsextrahering (IE) hitta och presentera relevant information
Informationsåtkomst (IR)hitta och presentera relevanta dokument
Frågebesvarande systemMaskinöversättning
![Page 3: Namn- och termigenkänning i specialiserade texter](https://reader035.vdocuments.mx/reader035/viewer/2022062309/56814950550346895db69f76/html5/thumbnails/3.jpg)
GU-Språkteknologidagen, 22 april 2005.
Namn och översättning
I met Usama bin Laden
Jag mötte Usama slänga i soptunnan Laden
![Page 4: Namn- och termigenkänning i specialiserade texter](https://reader035.vdocuments.mx/reader035/viewer/2022062309/56814950550346895db69f76/html5/thumbnails/4.jpg)
GU-Språkteknologidagen, 22 april 2005.
Vad är ett namn?
Ett eller flera ord som betecknar person, organisation, plats, datum, tid, valuta, procentuttryck.
Inte specifikt för en viss domän
![Page 5: Namn- och termigenkänning i specialiserade texter](https://reader035.vdocuments.mx/reader035/viewer/2022062309/56814950550346895db69f76/html5/thumbnails/5.jpg)
GU-Språkteknologidagen, 22 april 2005.
Namnigenkänning
Hitta datum-/tid-/måttsuttryck, telefon/e-post,…
Identifiera namn och dela in i relevanta kategorierNamn på personer, organisationer, platser, …
Hitta domänspecifika termernamn på biologiska objekt (gener, proteiner,…)namn på tekniska objekt (maskiner, maskindelar, …)
![Page 6: Namn- och termigenkänning i specialiserade texter](https://reader035.vdocuments.mx/reader035/viewer/2022062309/56814950550346895db69f76/html5/thumbnails/6.jpg)
GU-Språkteknologidagen, 22 april 2005.
Problem
Metonymi: mer än bara egentlig betydelse
PolysemiMaj – person eller månad (maj)?
Namn eller vanligt ord?Stig Flod
Interpunktion, stavning, mellanrum, formatering
Olika i olika språk och typer av text“Högskolan i Skövde”, “541 45” Skövde
, Volvo satsar i Polen, släpp av mig på Volvo han har en Volvoorganisation platsprodukt
![Page 7: Namn- och termigenkänning i specialiserade texter](https://reader035.vdocuments.mx/reader035/viewer/2022062309/56814950550346895db69f76/html5/thumbnails/7.jpg)
GU-Språkteknologidagen, 22 april 2005.
Hur kan namn hittas?
Namndatabaser och namnlistor+enkelt, snabbt, språkoberoende, anpassningsbart- samla/underhålla, hanterar inte
ambiguitet/varianter
Även titta på ords inre strukturFörnamn + Ord -> person (Ola Person)Ord + AB, HB, KB, … -> organisation (Bala AB)
![Page 8: Namn- och termigenkänning i specialiserade texter](https://reader035.vdocuments.mx/reader035/viewer/2022062309/56814950550346895db69f76/html5/thumbnails/8.jpg)
GU-Språkteknologidagen, 22 april 2005.
Databaser/namnlistor + ytparsning
(forts.)
Dessutom titta på kontextenOrd + “är {en|ett}” + Adj* + [Plats] Göteborg är en trevlig stad.
Problem med ytparsningCharles de Gaulle [namn], [flygplats]?Svenska Britt Ekland gör ny film. Högskolan i Skövde – Föräldrarna i Bullerbyn
![Page 9: Namn- och termigenkänning i specialiserade texter](https://reader035.vdocuments.mx/reader035/viewer/2022062309/56814950550346895db69f76/html5/thumbnails/9.jpg)
Namnigenkänning (engelsk nyhetstext)
The
English-languageArab NewsreportedonMondaythatPrinceNayefrefusedtoanswerreportersquestionsonthe arrest of HaniAbdel-RahimHusseinal-Sayegh
From previous procedure
Place pointer at the firstword in the sentence
Move pointer to next word*
First LetterUppercase?
Closed-class word?
Add to Proper NameCandidate String **
Word inProper Name
IndicatorDB?***
More words in thesentence?
To next procedure(if needed, takes care of thefirst word in the sentence)
Yes
No
Yes
No
NoYes
No
Proper NameCandidate String
empty?Yes
Yes
The 1:st wordin Proper Name Candidate
String =2nd word in the
sentence?
The 1:st word in thesentence = closed-
class word?
Add to Proper NameCandidate String (initial
position)
Yes
NoYes
No
No
Mark CandidateString as Proper
Name
From previous procedure
Place pointer at the firstword in the sentence
Move pointer to next word*
Yes
No
Closed-class word?
Add to Proper NameCandidate String **Yes
English-languageArabNews
No
First LetterUppercase?
No
Word inProper Name
IndicatorDB?***
No
Yes
Yes
The 1:st word in thesentence = closed-
class word?
Mark CandidateString as Proper
Name
Yes
Proper NameCandidate String
empty?Yes
Prince Nayef
No
The 1:st wordin Proper Name Candidate
String =2nd word in the
sentence?
HaniAbdel-RahimHussein
Yes
al-Sayegh
No
From previous procedure
Place pointer at the firstword in the sentence
Move pointer to next word*
First LetterUppercase?
Closed-class word?
Add to Proper NameCandidate String **
Word inProper Name
IndicatorDB?***
More words in thesentence?
To next procedure(if needed, takes care of thefirst word in the sentence)
Yes
No
Yes
No
NoYes
No
Proper NameCandidate String
empty?Yes
Yes
The 1:st wordin Proper Name Candidate
String =2nd word in the
sentence?
The 1:st word in thesentence = closed-
class word?
Add to Proper NameCandidate String (initial
position)
Yes
NoYes
No
No
Mark CandidateString as Proper
Name
More words in thesentence?
To next procedure(if needed, takes care of the firstword in the sentence and mark
Candidate String as Proper Name ifnot empty)
![Page 10: Namn- och termigenkänning i specialiserade texter](https://reader035.vdocuments.mx/reader035/viewer/2022062309/56814950550346895db69f76/html5/thumbnails/10.jpg)
GU-Språkteknologidagen, 22 april 2005.
Termer
“lexikal enhet huvudsakligen använd inom specifik domän” [Kageura 2002]
Ofta sammansättningar Ett eller flera ordOfta okända (inte i termdatabaser/-listor)
![Page 11: Namn- och termigenkänning i specialiserade texter](https://reader035.vdocuments.mx/reader035/viewer/2022062309/56814950550346895db69f76/html5/thumbnails/11.jpg)
GU-Språkteknologidagen, 22 april 2005.
Termer och översättning
oljeledningsfäste
oil management foothold
![Page 12: Namn- och termigenkänning i specialiserade texter](https://reader035.vdocuments.mx/reader035/viewer/2022062309/56814950550346895db69f76/html5/thumbnails/12.jpg)
GU-Språkteknologidagen, 22 april 2005.
Problem med termer – exempel från biomedicinska
texter
Olika benämningar/kortversioner för samma sak
Interleukin-1 beta interleukin NF-IL6-beta NF IL
Samma benämning på flera olika sakerIngen enhetlig standard
på hur termer byggs uppTR2interferon alpha-D
hur termer skrivsnamn, term eller vanlig nominalffras?
Enkla termer, minst 6 olika skrivsättEGR-1, EGR 1, Egr-1, Egr 1, egr-1, egr 1
![Page 13: Namn- och termigenkänning i specialiserade texter](https://reader035.vdocuments.mx/reader035/viewer/2022062309/56814950550346895db69f76/html5/thumbnails/13.jpg)
GU-Språkteknologidagen, 22 april 2005.
Komplexa termer
-- NF Kappa B – alltid stor inledande bokstav och mellanslag
-- NF kappa B -- ingående ord skrivs med liten bokstav
-- NF kappaB --vissa delar av namnet skrivs ihop
-- NFkappaB --alla delar skrivs ihop
![Page 14: Namn- och termigenkänning i specialiserade texter](https://reader035.vdocuments.mx/reader035/viewer/2022062309/56814950550346895db69f76/html5/thumbnails/14.jpg)
Länka akronymer till namn på biologiska objekt
Find next acronym
Found?
L1:= First Letter in theacronym
N := Number ofoccurrences of L1 in the
acronym
Yes Withinparentheses
Yes
Find the N:th word beginningin L1 to the left of the
parentheses and mark thatword and the rest of the left
side context as Named Entityand link to the acronym
Yes
Is the acronymfollowed by ’(’ and a
word beginning whithL1
No
Mark the words insidethe (…) as Named Entityand link to the acronym
YesNo
No
Place pointer at the firstword in the sentence
To next procedure(Named Entity Recognition
shown in Figure 4)
From previousprocedure
ThereareaslotumorrelatedgeneslikeNF2neurofibromatose of type 2.p16INK4a
belongsto a groupcellcycleregulator calledcyclindependentkinaseinhibitors CDKI .
( )
( )
![Page 15: Namn- och termigenkänning i specialiserade texter](https://reader035.vdocuments.mx/reader035/viewer/2022062309/56814950550346895db69f76/html5/thumbnails/15.jpg)
GU-Språkteknologidagen, 22 april 2005.
Tack för mig!
![Page 16: Namn- och termigenkänning i specialiserade texter](https://reader035.vdocuments.mx/reader035/viewer/2022062309/56814950550346895db69f76/html5/thumbnails/16.jpg)
GU-Språkteknologidagen, 22 april 2005.
Syntaktiska termbildningsmönster
Språkspecifika bildningsmönstersvenska noun+noun ->
franska noun prep noun/verb
Swedish noun-2+noun-1 (modifierare+huvud) ->
French noun-1 prep noun-2 (huvud + prep + modifierare)
oljekanal # canalisation à huile
bränsleledning # conduite de carburant
![Page 17: Namn- och termigenkänning i specialiserade texter](https://reader035.vdocuments.mx/reader035/viewer/2022062309/56814950550346895db69f76/html5/thumbnails/17.jpg)
GU-Språkteknologidagen, 22 april 2005.
Semantiska koncept
Term: lingvistisk representation för ett domänspecifikt konceptViktiga semantiska koncept för en domän relevanta termer för domänenFör att kunna översätta en sammansatt term krävs korrekt semantisk tolkning
t.ex. val av preposition“de” om modifierande substantiv uttrycker vad ngt är avsett för