história, língua e informática – interfaces€¦ · departamento de informática...
TRANSCRIPT
![Page 1: História, Língua e Informática – Interfaces€¦ · Departamento de Informática pq@di.uevora.pt Universidade de Évora L2F/INESC-ID CITI/UEvora. 2 História, Língua e Informática](https://reader034.vdocuments.mx/reader034/viewer/2022050609/5fb02566cc0f2935063dee09/html5/thumbnails/1.jpg)
1
História, Língua e Informática – Interfaces
Paulo [email protected] de Informática
Universidade de ÉvoraL2F/INESC-IDCITI/UEvora
![Page 2: História, Língua e Informática – Interfaces€¦ · Departamento de Informática pq@di.uevora.pt Universidade de Évora L2F/INESC-ID CITI/UEvora. 2 História, Língua e Informática](https://reader034.vdocuments.mx/reader034/viewer/2022050609/5fb02566cc0f2935063dee09/html5/thumbnails/2.jpg)
2
História, Língua e Informática
- Reconhecimento de caracteres (OCR)- Análise de corpora- Análise lexical, sintáctica, semântica- Extracção de informação- Povoamento de ontologias- ...
![Page 3: História, Língua e Informática – Interfaces€¦ · Departamento de Informática pq@di.uevora.pt Universidade de Évora L2F/INESC-ID CITI/UEvora. 2 História, Língua e Informática](https://reader034.vdocuments.mx/reader034/viewer/2022050609/5fb02566cc0f2935063dee09/html5/thumbnails/3.jpg)
3
História, Língua e Informática
- Domínio:- Gazetas Manuscritas de BPE (1729-1754)
• Lígia Ferreira (aluna doutoramento UEvora) • Extracção de relações de parentesco e
povoamento de um ontologia
![Page 4: História, Língua e Informática – Interfaces€¦ · Departamento de Informática pq@di.uevora.pt Universidade de Évora L2F/INESC-ID CITI/UEvora. 2 História, Língua e Informática](https://reader034.vdocuments.mx/reader034/viewer/2022050609/5fb02566cc0f2935063dee09/html5/thumbnails/4.jpg)
4
Gazetas Manuscritas da BPE
![Page 5: História, Língua e Informática – Interfaces€¦ · Departamento de Informática pq@di.uevora.pt Universidade de Évora L2F/INESC-ID CITI/UEvora. 2 História, Língua e Informática](https://reader034.vdocuments.mx/reader034/viewer/2022050609/5fb02566cc0f2935063dee09/html5/thumbnails/5.jpg)
5
Gazetas Manuscritas da BPE
![Page 6: História, Língua e Informática – Interfaces€¦ · Departamento de Informática pq@di.uevora.pt Universidade de Évora L2F/INESC-ID CITI/UEvora. 2 História, Língua e Informática](https://reader034.vdocuments.mx/reader034/viewer/2022050609/5fb02566cc0f2935063dee09/html5/thumbnails/6.jpg)
6
Gazetas Manuscritas da BPE
![Page 7: História, Língua e Informática – Interfaces€¦ · Departamento de Informática pq@di.uevora.pt Universidade de Évora L2F/INESC-ID CITI/UEvora. 2 História, Língua e Informática](https://reader034.vdocuments.mx/reader034/viewer/2022050609/5fb02566cc0f2935063dee09/html5/thumbnails/7.jpg)
7
Análise de corpus
• Natural Language Toolkit (NLTK) – www.nltk.org• Linguagem de programação Python•
• >>> f = open('/home/pq/workshop/gazetas_BPE.txt').read()
• >>> tokens = word_tokenize(raw)• >>> text = nltk.Text(tokens)
![Page 8: História, Língua e Informática – Interfaces€¦ · Departamento de Informática pq@di.uevora.pt Universidade de Évora L2F/INESC-ID CITI/UEvora. 2 História, Língua e Informática](https://reader034.vdocuments.mx/reader034/viewer/2022050609/5fb02566cc0f2935063dee09/html5/thumbnails/8.jpg)
8
Análise de corpus
• >>> len(text)119142
• >>> len(set(text))11795
• >>> 100 * len(set(text)) / len(text)9% – “lexical richness”
• >>> text.count("Rey")• 457• >>> 100 * text.count("a") / len(text)• 3 %•
![Page 9: História, Língua e Informática – Interfaces€¦ · Departamento de Informática pq@di.uevora.pt Universidade de Évora L2F/INESC-ID CITI/UEvora. 2 História, Língua e Informática](https://reader034.vdocuments.mx/reader034/viewer/2022050609/5fb02566cc0f2935063dee09/html5/thumbnails/9.jpg)
9
Análise de corpus
• >>> text.collocations()• mil cruzados; Sr. Jnfante; dizem que; del Rey; Sra.
Condessa; Sra. Marqueza; seu pay; com grande; seu filho; que tinha; Campo Grande; mil reis; que lhe; Dizem que; dos seus; sua may; Rey Catholico; que estava
![Page 10: História, Língua e Informática – Interfaces€¦ · Departamento de Informática pq@di.uevora.pt Universidade de Évora L2F/INESC-ID CITI/UEvora. 2 História, Língua e Informática](https://reader034.vdocuments.mx/reader034/viewer/2022050609/5fb02566cc0f2935063dee09/html5/thumbnails/10.jpg)
10
Análise de corpus
• >>> text.concordance('Rey')Displaying 25 of 466 matches:
• m diamantes , huns e outros mandou El Rey dar livres • ados em votar no Duque de Lorena para Rey dos Romanos • achado prezo em Cascaes informou a El Rey da sua
inocencia nas contendas • do o Conde de Val dos Reys em quem El Rey quizesse , os
Jrmaos da meza deu cada• dos retratos junto a da audiencia del Rey e vai sahir a Caza
da Jndia para serv
![Page 11: História, Língua e Informática – Interfaces€¦ · Departamento de Informática pq@di.uevora.pt Universidade de Évora L2F/INESC-ID CITI/UEvora. 2 História, Língua e Informática](https://reader034.vdocuments.mx/reader034/viewer/2022050609/5fb02566cc0f2935063dee09/html5/thumbnails/11.jpg)
11
Análise de corpus
• >>> text.dispersion_plot(["Rey", "Rainha", "conde", "Papa"])
![Page 12: História, Língua e Informática – Interfaces€¦ · Departamento de Informática pq@di.uevora.pt Universidade de Évora L2F/INESC-ID CITI/UEvora. 2 História, Língua e Informática](https://reader034.vdocuments.mx/reader034/viewer/2022050609/5fb02566cc0f2935063dee09/html5/thumbnails/12.jpg)
12
Análise de corpus
• >>> fd = FreqDist(text)• >>> fd.freq('Rey')
0.0038357590102566686• >>> fd.items()[:7]• [('o', 5953), ('de', 5360), ('a', 4006), ('e', 3962), (',', 3699),
('que', 3371), ('.', 1358)]• fd1 = FreqDist(bigrams(text))• fd1.items()[:20]
(('El', 'Rey'), 354), (('Conde', 'de'), 282), (('dizem', 'que'), 190), (('mil', 'cruzados'), 156), ...
![Page 13: História, Língua e Informática – Interfaces€¦ · Departamento de Informática pq@di.uevora.pt Universidade de Évora L2F/INESC-ID CITI/UEvora. 2 História, Língua e Informática](https://reader034.vdocuments.mx/reader034/viewer/2022050609/5fb02566cc0f2935063dee09/html5/thumbnails/13.jpg)
13
Análise lexical
“A Maria leu o livro.” – analisador “freeling”
A o DA0FS0 0.667849
Maria maria NP00000 1
leu ler VMIS3S0 0.875
o o DA0MS0 0.944727
livro livro NCMS000 0.977273
. . Fp 1
![Page 14: História, Língua e Informática – Interfaces€¦ · Departamento de Informática pq@di.uevora.pt Universidade de Évora L2F/INESC-ID CITI/UEvora. 2 História, Língua e Informática](https://reader034.vdocuments.mx/reader034/viewer/2022050609/5fb02566cc0f2935063dee09/html5/thumbnails/14.jpg)
14
NER – Reconhecimento entidades
• “A Maria leu o livro em Lisboa.” – analisador “freeling”
A o DA0FS0 0.667849
Maria maria NP00SP0 1
leu ler VMIS3S0 0.875
o o DA0MS0 0.944727
livro livro NCMS000 0.977273
em em SPS00 1
Lisboa lisboa NP00G00 1
. . Fp 1
![Page 15: História, Língua e Informática – Interfaces€¦ · Departamento de Informática pq@di.uevora.pt Universidade de Évora L2F/INESC-ID CITI/UEvora. 2 História, Língua e Informática](https://reader034.vdocuments.mx/reader034/viewer/2022050609/5fb02566cc0f2935063dee09/html5/thumbnails/15.jpg)
15
Análise sintáctica
• “A Maria leu o livro.” – analisador PALAVRAS [Bick]
UTT:cl(fcl)
|-S:g(np)
| |-D:pron(det "o" <artd> DET F S) a
| |-H:prop("Maria" F S) Maria
|-P:v(fin "ler" <fmc> PS 3S IND VFIN) leu
|-Od:g(np)
|-D:pron(det "o" <artd> DET M S) o
|-H:n("livro" M S) livro
![Page 16: História, Língua e Informática – Interfaces€¦ · Departamento de Informática pq@di.uevora.pt Universidade de Évora L2F/INESC-ID CITI/UEvora. 2 História, Língua e Informática](https://reader034.vdocuments.mx/reader034/viewer/2022050609/5fb02566cc0f2935063dee09/html5/thumbnails/16.jpg)
16
Análise semântica
• A Maria leu o livro.” – analisador “Boxer” [Bos]
| x0 x1 | | x2 |
|____________________| |________________|
(| nome(x0,maria,pes) |+| ler(x2) |)
| livro(x1) | | evento(x2) |
|____________________| | agente(x2,x0) |
| objecto(x2,x1) |
|________________|
![Page 17: História, Língua e Informática – Interfaces€¦ · Departamento de Informática pq@di.uevora.pt Universidade de Évora L2F/INESC-ID CITI/UEvora. 2 História, Língua e Informática](https://reader034.vdocuments.mx/reader034/viewer/2022050609/5fb02566cc0f2935063dee09/html5/thumbnails/17.jpg)
17
Gazetas Manuscritas da BPE
“João de Saldanha cazou hum filho que daqui tinha hido, com
hua filha herdeira de Martinho da Sylveira de Menezes.”
João=de=Saldanha [João=de=Saldanha] PROP M/F S/P
cazou ALT cázou [cazar] <DERS> V PS 3S IND VFIN
hum [um] <quant> <arti> DET M S
filho [filho] <Hfam> N M S
que [que] <rel> SPEC M/F S/P
de [de] <sam-> PRP
aqui [aqui] <-sam> ADV
![Page 18: História, Língua e Informática – Interfaces€¦ · Departamento de Informática pq@di.uevora.pt Universidade de Évora L2F/INESC-ID CITI/UEvora. 2 História, Língua e Informática](https://reader034.vdocuments.mx/reader034/viewer/2022050609/5fb02566cc0f2935063dee09/html5/thumbnails/18.jpg)
18
Gazetas Manuscritas da BPE
tinha [ter] V IMPF 1/3S IND VFIN
hido ALT xxxo [hido] N M S
$,
com [com] PRP
hua ALT xxx [hua] N F S
filha [filho] ADJ F S
herdeira [herdeira] <H> N F S
de [de] PRP
Martinho=da=Sylveira=de=Menezes [Martinho=da=Sylveira=de=Menezes]PROP M/FS/P
![Page 19: História, Língua e Informática – Interfaces€¦ · Departamento de Informática pq@di.uevora.pt Universidade de Évora L2F/INESC-ID CITI/UEvora. 2 História, Língua e Informática](https://reader034.vdocuments.mx/reader034/viewer/2022050609/5fb02566cc0f2935063dee09/html5/thumbnails/19.jpg)
19
Gazetas Manuscritas da BPE
Criação de ferramentas para a construção automática dos actuais índices:
Análise sintáctica automática – PALAVRAS;
Identificação de nomes próprios;
Confrontação dos nomes identificados com a base de dados existente;
Análise semântica aos “novos” nomes: pessoa, local, etc.
Proposta de novas entradas nos índices
![Page 20: História, Língua e Informática – Interfaces€¦ · Departamento de Informática pq@di.uevora.pt Universidade de Évora L2F/INESC-ID CITI/UEvora. 2 História, Língua e Informática](https://reader034.vdocuments.mx/reader034/viewer/2022050609/5fb02566cc0f2935063dee09/html5/thumbnails/20.jpg)
20
Gazetas Manuscritas da BPE
Criação de ferramentas para a construção automática dos actuais índices:
Exemplo:
“Veyo de Goa D. Joseph de Souto Maior...”
“Goa” pode ser identificado como um local e “D. Joseph de Souto Maior” como uma pessoa
![Page 21: História, Língua e Informática – Interfaces€¦ · Departamento de Informática pq@di.uevora.pt Universidade de Évora L2F/INESC-ID CITI/UEvora. 2 História, Língua e Informática](https://reader034.vdocuments.mx/reader034/viewer/2022050609/5fb02566cc0f2935063dee09/html5/thumbnails/21.jpg)
21
Gazetas Manuscritas da BPE
Criação de novos índices:
Ontologia / Rede semântica – OWL (Ontology Web Language)
Extracção de informação:
Relações familiares
Casamento
Descendência
...
Relações sociais
Participação em eventos
![Page 22: História, Língua e Informática – Interfaces€¦ · Departamento de Informática pq@di.uevora.pt Universidade de Évora L2F/INESC-ID CITI/UEvora. 2 História, Língua e Informática](https://reader034.vdocuments.mx/reader034/viewer/2022050609/5fb02566cc0f2935063dee09/html5/thumbnails/22.jpg)
22
Gazetas Manuscritas da BPE
Relações familiares
Identificação de padrões léxico/sintáctico/semântico que caracterize as relações familiares;
Criação de regras, com base nos padrões;
Aplicação das regras à totalidade dos textos, para identificação das relações.
Povoamento da ontologia
![Page 23: História, Língua e Informática – Interfaces€¦ · Departamento de Informática pq@di.uevora.pt Universidade de Évora L2F/INESC-ID CITI/UEvora. 2 História, Língua e Informática](https://reader034.vdocuments.mx/reader034/viewer/2022050609/5fb02566cc0f2935063dee09/html5/thumbnails/23.jpg)
23
Gazetas Manuscritas da BPE
Relações parentesco
878 entre 1729-1734 [Lígia Duarte]• Ímplicito: Titulares, família real; Ex: “condeça moça”,
“príncipe”• Explícito:
• Simples: “filho de”• Estruturadas: “neto de X, mulher de Y”
![Page 24: História, Língua e Informática – Interfaces€¦ · Departamento de Informática pq@di.uevora.pt Universidade de Évora L2F/INESC-ID CITI/UEvora. 2 História, Língua e Informática](https://reader034.vdocuments.mx/reader034/viewer/2022050609/5fb02566cc0f2935063dee09/html5/thumbnails/24.jpg)
24
Gazetas Manuscritas da BPE
Relações familiares:
“Declarouse o cazamento de D. Bras da Silveira com a Sra. D. Maria Caetana de Tavora Dama do Paço e irmã do Conde de Povolide. que de mais de alvará tem dezouto mil cruzados de legitima, ainda senão sabe se hirá para a Beira e não tem dispençação.”
![Page 25: História, Língua e Informática – Interfaces€¦ · Departamento de Informática pq@di.uevora.pt Universidade de Évora L2F/INESC-ID CITI/UEvora. 2 História, Língua e Informática](https://reader034.vdocuments.mx/reader034/viewer/2022050609/5fb02566cc0f2935063dee09/html5/thumbnails/25.jpg)
25
Gazetas Manuscritas da BPE
Relações familiares
“Deve tratar-se de D. Afonso de Noronha, filho terceiro dos 4os Condes dos Arcos, que, não tendo descendência do primeiro casamento, desposou D. Guiomar Bernarda de Lencastre, filha herdeira de D. Rodrigo de Lencastre”
![Page 26: História, Língua e Informática – Interfaces€¦ · Departamento de Informática pq@di.uevora.pt Universidade de Évora L2F/INESC-ID CITI/UEvora. 2 História, Língua e Informática](https://reader034.vdocuments.mx/reader034/viewer/2022050609/5fb02566cc0f2935063dee09/html5/thumbnails/26.jpg)
26
Gazetas Manuscritas da BPE
Regras para extracção de relações familiares
X desposou Y
cazamento de X com Y
cazou X com Y
caza X com Y
![Page 27: História, Língua e Informática – Interfaces€¦ · Departamento de Informática pq@di.uevora.pt Universidade de Évora L2F/INESC-ID CITI/UEvora. 2 História, Língua e Informática](https://reader034.vdocuments.mx/reader034/viewer/2022050609/5fb02566cc0f2935063dee09/html5/thumbnails/27.jpg)
27
Conclusões
O recurso a técnicas de processamento de Língua Natural permite a criação de ferramentas com a capacidade de automaticamente analisar, extrair e representar o conteúdo de documentos (históricos ou não).
Em documentos históricos, o léxico e a sintaxe utilizada coloca um conjunto novo de problemas e requer a adaptação das metodologias existentes (criação de novo léxico e alteração das regras de sintaxe).