arquivo histórico desenvolvimento urbano (ah de da de em da e da … · europeana data model (edm)...

Arquivo Histórico do Ordenamento do Território e Desenvolvimento Urbano (AH‐OTDU) ‐ Proposta de ponto único de acesso online

Maria Joana Ferreira da Rosa da Cruz Diniz

Outubro, 2015

Dissertação de Mestrado em Ciências da Informação e da Documentação ‐ Área de especialização em Arquivística

Dissertação apresentada para cumprimento dos requisitos necessários à

obtenção do grau de Mestre em Ciências da Informação e da Documentação

‐ Área de especialização em Arquivística, realizada sob a orientação científica

da Professora Doutora Maria de Lurdes Pereira Rosa e do Dr. João Paulo da

Costa Amado

ii

Aos meus Pais,

por toda a motivação, sacrifícios feitos e apoio prestado …

iii

AGRADECIMENTOS

Agradeço à Professora Doutora Maria de Lurdes Rosa e ao Dr. João Paulo da

Costa Amado pela orientação científica, disponibilidade providenciada e as pistas e

conselhos fornecidos, durante os meses em que esta dissertação foi elaborada.

Gostaria também de agradecer à Direção‐Geral do Território pela oportunidade

e acesso providenciado aos fundos documentais que constituem o Arquivo Histórico

do Ordenamento do Território e Desenvolvimento Urbano (AH‐OTDU).

Os meus agradecimentos vão igualmente para os meus colegas de turma, por

todo o seu companheirismo nesta "caminhada".

Por fim, agradeço aos meus pais, por todo o apoio prestado nesta etapa do

meu percurso académico.

Joana Cruz Diniz

Lisboa, outubro de 2015

iv

ARQUIVO HISTÓRICO DO ORDENAMENTO DO TERRITÓRIO E DESENVOLVIMENTO

URBANO (AH‐OTDU) ‐ PROPOSTA DE PONTO ÚNICO DE ACESSO ONLINE

MARIA JOANA FERREIRA DA ROSA DA CRUZ DINIZ

RESUMO

A presente tese de mestrado aborda as questões levantadas pela utilização de pontos únicos de acesso online a recursos documentais de natureza variada e diferenciada (Arquivos e Bibliotecas). As abordagens de‐facto existentes para o acesso a tais recursos dependem de uma pluralidade de bases de dados e interfaces de pesquisa, que dificultam significativamente a compreensão dos acervos históricos como um todo, bem como a sua manutenção e, portanto, custos acrescidos. Nesta tese, é feito um estudo de caso, onde é analisada a viabilidade da utilização do Europeana Data Model (EDM) ‐ atualmente em uso no Portal Europeana ‐ e da sua possível aplicação no Arquivo Histórico do Ordenamento do Território e Desenvolvimento Urbano (AH‐OTDU). Este arquivo é atualmente detido pela Direção‐Geral do Território, sendo que apenas uma parte se encontra disponível online através do Sistema Nacional de Informação Territorial (SNIT/AH‐OTDU) desde 2007. Esta tese estrutura‐se da seguinte forma: inicia‐se com uma análise comparativa de textos centrados em trabalhos relacionados com os pontos únicos de acesso online e a abordagem Linked Data como alternativa no âmbito da convergência digital das Bibliotecas, Arquivos e Museus; é depois apresentado o Europeana Data Model (EDM) e discutidos os vários aspectos levantados pela sua aplicação no AH‐OTDU. Como conclusão, são apresentadas recomendações e possíveis soluções, tendo em vista uma futura implementação do EDM no SNIT/AH‐OTDU.

PALAVRAS‐CHAVE: Arquivo histórico, Linked Data, Europeana Data Model (EDM), Ordenamento do território, Desenvolvimento urbano

v

THE HISTORICAL ARCHIVE OF SPATIAL PLANNING AND URBAN DEVELOPMENT

(AH‐OTDU) ‐ A PROPOSAL FOR AN ONLINE SINGLE POINT OF ACCESS

MARIA JOANA FERREIRA DA ROSA DA CRUZ DINIZ

ABSTRACT

This master thesis addresses the issues raised by single‐point online access of documentation resources with varied and differentiated nature (Archive and Library). The de‐facto approaches to such resources rely on a plurality of databases and search interfaces significantly hampering the understanding of historical archives as a whole as well as its maintainability and hence cost. In this thesis we perform a feasibility study of the use of the Europeana Data Model (EDM) currently in use in the Europeana portal as a case‐study of a possible implementation to the Historical Archive of Spatial Planning and Urban Development (AH‐OTDU). This archive has been held by the Directorate General of Territorial Development, part of this collection has been accessible online through the National System of Territorial Information (SNIT/AH‐OTDU) since 2007. This thesis is structured as follows: we begin with a comparative analysis of related work naturally focusing on work regarding online single points of access and the Linked Data approach as an alternative within the digital convergence of Libraries, Archives and Museums; we then present, the Europeana Data Model (EDM) and discuss the various aspects raised by its use with the AH‐OTDU. We conclude by presenting recommendations and possible solutions regarding a future implementation of the EDM to the SNIT/AH‐ODTU.

KEYWORDS: Historical Archive, Linked Data, Europeana Data Model (EDM), Spatial planning, Urban development

vi

ÍNDICE

Introdução ............................................................................................................................... 1

Capítulo 1: Problemática e metodologia seguida .................................................................. 4

1.1. Apresentação e definição da problemática e objetivos da dissertação .................. 4

1.1.1. Apresentação e definição da problemática ..................................................... 4

1.1.2. Objetivos da dissertação .................................................................................. 4

1.2. Metodologia seguida ................................................................................................. 5

Capítulo 2: Revisão da Literatura ........................................................................................... 7

2.1. Pontos únicos de acesso online ‐ Antecedentes e motivos ..................................... 7

2.2. A Internet dos Dados e os Linked Data ................................................................... 12

2.3. Linked Data e as instituições culturais ‐ o Projecto Europeana e o modelo de

dados EDM ...................................................................................................................... 19

Capítulo 3: Ponto único de acesso online do AH‐OTDU ‐ Definição da sua proposta ........ 23

3.1. O Arquivo Histórico do Ordenamento do Território e Desenvolvimento Urbano

(AH‐OTDU) ...................................................................................................................... 23

3.1.1. Breve história da entidade produtora ‐ Direcção‐Geral do Ordenamento do

Território e Desenvolvimento Urbano (DGOTDU) ................................................... 23

3.1.2. O AH‐OTDU ‐ História custodial e arquivística ............................................... 25

3.1.3. O AH‐OTDU ‐ Caracterização dos fundos documentais alvo do estudo e

definição da sua amostragem .................................................................................. 26

a) Fundo documental dos Instrumentos de Gestão Territorial (IGTs) ..................... 29

b) Fundo documental dos Equipamentos de Utilização Coletiva (EUC) .................. 31

c) Álbuns fotográficos respeitantes a esses equipamentos e outras obras públicas ..

.................................................................................................................................. 32

d) Fotografias aéreas de localidades, das décadas de 40 ‐ 50 do séc. XX ................ 33

e) Fundos Bibliográficos do AH‐OTDU ..................................................................... 34

vii

3.2. Ponto único de acesso online do AH‐OTDU ‐ Definição da sua proposta ............. 35

3.2.1. O modelo de dados EDM ‐ Análise SWOT ...................................................... 35

3.2.2. Experiências realizadas .................................................................................. 37

Capítulo 4: Ponto único de acesso online do AH‐OTDU ‐ Resultados e discussão ............. 43

4.1. Considerações sobre a estruturação dos RDF das amostragens em estudo ........ 43

4.2. Considerações sobre a reconciliação dos RDFs das amostragens com os datasets

"Linked Data" internacionais ......................................................................................... 46

4.3. Considerações sobre a fase de experiências com as queries de teste processados

no SPARQL Endpoint ....................................................................................................... 55

Capítulo 5: Reflexões finais e propostas para implementação do ponto único de acesso

online do AH‐OTDU .............................................................................................................. 57

Conclusão .............................................................................................................................. 62

REFERÊNCIAS BIBLIOGRÁFICAS ............................................................................................ 63

LISTA DE FIGURAS OU ILUSTRAÇÕES ................................................................................... 67

LISTA DE TABELAS ................................................................................................................. 68

LISTA DE ANEXOS .................................................................................................................. 69

ANEXOS (amostras exemplificativas) ................................................................................... 70

viii

LISTA DE ABREVIATURAS

AH‐OTDU ‐ Arquivo Histórico do Ordenamento do Território e Desenvolvimento

Urbano

BD AH‐OTDU ‐ Base de Dados do Arquivo Histórico do Ordenamento do Território e

Desenvolvimento Urbano

CHO ‐ Cultural Heritage Object

DGOTDU – Direcção‐Geral do Ordenamento do Território e Desenvolvimento Urbano

DGSU ‐ Direcção‐Geral dos Serviços de Urbanização

DGT – Direcção‐Geral do Território

EDM ‐ Europeana Data Model

EUC ‐ Equipamentos de Utilização Coletiva

FRD ‐ Folha de recolha de dados

IGT – Instrumentos de Gestão Territorial

ISAD(G) ‐ General International Standard Archival Description (Norma Geral

Internacional de Descrição Arquivística)

MOPC ‐ Ministério das Obras Públicas e Comunicações

ODA ‐ Orientações para a Descrição Arquivística

OWL ‐ Web Ontology Language

RDF ‐ Resource Description Framework

SKOS ‐ Simple Knowledge Organization System

SNIT/AH‐OTDU – Sistema Nacional de Informação Territorial / Arquivo Histórico do

Ordenamento do Território e Desenvolvimento Urbano

SPARQL ‐ Simple Protocol and RDF Query Language

TIC – Tecnologias de Informação e Comunicação

URI ‐ Universal Resource Identifier

W3C ‐ World Wide Web Consortium

1

Introdução

A presente dissertação de Mestrado foi desenvolvida no âmbito do Mestrado

em Ciências da Informação e da Documentação ‐ Área de especialização em

Arquivística, a decorrer na Faculdade de Ciências Sociais e Humanas da Universidade

Nova de Lisboa, tendo como objetivo elaborar uma proposta de ponto único de acesso

online para o Arquivo Histórico do Ordenamento do Território e Desenvolvimento

Urbano (AH‐OTDU), fundamentada em análise e reflexão teórica arquivística. Mesmo

sendo a aluna funcionária da instituição que detém este arquivo, a investigação aqui

realizada teve o aval da sua direção superior, que autorizou o acesso aos seus dados e

fontes documentais, quer em termos da sua história institucional, quer em termos dos

problemas levantados, visando a sua colmatação.

O AH‐OTDU constitui‐se como uma importante fonte de informação sobre a

história, teorização, desenvolvimento e aplicação das matérias relacionadas com o

ordenamento do território, urbanismo e arquitetura em território português, ocorridas

desde meados da década de 1940 do século passado.

Muito ligada às atividades e competências exercidas pelas instituições que

antecederam a atual Direção‐Geral do Território (DGT), a documentação presente nos

fundos que constituem este acervo ‐ de arquivo e bibliográficos ‐ detém uma natureza

especial, nomeadamente tipologias documentais variadas, entre as quais peças

desenhadas e escritas, fotografias e publicações.

Com o lançamento do Sistema Nacional de Informação Territorial (SNIT), em

2007, são disponibilizados online, em SNIT/AH‐DGOTDU (hoje SNIT/AH‐OTDU)

representações digitais de parte deste acervo histórico, nomeadamente alguns

processos de Instrumentos de Gestão Territorial (IGT) e algumas monografias do seu

fundo bibliográfico, cada um recorrendo a um modo de acesso diferente, derivado dos

formatos de visualização então escolhidos.

Face a esta situação, e antevendo a necessidade de disponibilizar futuramente

as representações digitais dos restantes fundos documentais, foram definidos como

problemática e objetivos desta dissertação de mestrado a elaboração de uma proposta

de ponto único de acesso online, visando a agregação a nível digital da informação

2

contida nestes fundos documentais, de tipologias variadas e diferenciadas, e a sua

disponibilização online de uma forma integrada e recorrendo a um único motor de

pesquisa, tentando evitar a dispersão de bases de dados e a multiplicidade de motores

de pesquisa, facilitando assim o acesso deste conhecimento aos utilizadores.

O presente trabalho encontra‐se dividido em quatro capítulos. No primeiro

capítulo, para além da definição da problemática e objetivos da dissertação já acima

referidos, é também apresentada a metodologia adotada. Esta baseou‐se na

caracterização dos fundos documentais em estudo e definição das suas amostragens,

na análise da literatura sobre a temática em investigação e estudos de caso, e na

experimentação da aplicação do modelo de dados tendente à convergência digital

destas fontes informativas.

O segundo capítulo compreende a revisão de literatura. Tomando por base a

opinião de vários autores, são apresentados os antecedentes e motivos que

conduziram ao surgimento dos pontos únicos de acesso online e a problemática da

convergência digital da informação presente em Arquivos, Bibliotecas e Museus. É

também feita a explanação dos Linked Data, e a apresentação do estudo de caso da

aplicação destes a instituições culturais, nomeadamente o Portal Europeana e o seu

modelo de dados EDM (Europeana Data Model), como alternativa viável para o estudo

em apreço.

No terceiro capítulo, é apresentada a aplicação da metodologia proposta para o

trabalho em apreço. Para além de uma breve história sobre a entidade produtora, são

caracterizados os fundos documentais do AH‐OTDU alvo do estudo e definidas as suas

amostragens. É feita uma Análise SWOT sobre a aplicação do modelo de dados EDM no

presente estudo. Na explanação das experiências realizadas, são apresentados os

campos de descrição utilizados (em apêndice) das amostragens atrás definidas e

correspondentes estruturas RDF, destinados ao processo de reconciliação com os

datasets Linked Data internacionais.

O quarto capítulo destinou‐se à apresentação das considerações decorrentes

da fase de experiências realizadas, tomando por base os resultados obtidos na

reconciliação dos dados das amostragens com os já referidos datasets Linked Data e

ainda os testes de queries no SPARQL Endpoint escolhido.

3

Face ao atrás exposto, no quinto capítulo, e por fim na conclusão, são

destacados vários aspetos do desenvolvimento da proposta em estudo, e são feitas

recomendações e apresentadas possíveis soluções, visando a sua resolução e não

descurando a eventual integração futura de outros fundos documentais de cariz

histórico.

4

Capítulo 1: Problemática e metodologia seguida

1.1. Apresentação e definição da problemática e objetivos da dissertação

1.1.1. Apresentação e definição da problemática

A presente dissertação de Mestrado pretende fazer um estudo de caso, que

consistirá na elaboração de uma proposta de ponto único de acesso online, visando a

agregação a nível digital da informação dos documentos de arquivo e bibliográficos

presentes nos fundos documentais do Arquivo Histórico do Ordenamento do Território

e Desenvolvimento Urbano (AH‐OTDU), provenientes da ex‐Direcção‐Geral do

Ordenamento do Território (DGOTDU), e detidos hoje pela Direcção‐Geral do

Território (DGT). Visando a sua disponibilização online de uma forma integrada e

recorrendo a um único motor de pesquisa, esta proposta constituir‐se‐á como um

contributo para o Sistema Nacional de Informação Territorial / Arquivo Histórico do

Ordenamento do Território e Desenvolvimento Urbano (SNIT/AH‐OTDU).

A justificação e importância deste estudo de caso prende‐se com o interesse e

aprofundamento de conhecimentos sobre a temática da agregação de conteúdos e

convergência digital ‐ temática atual e em desenvolvimento ‐ e a aplicação destas

matérias na elaboração da proposta acima referida.

A pergunta de partida definida foi "como fazer a agregação de conteúdos

digitais de documentação variada numa base de dados ligada a um motor de

pesquisa". Neste âmbito, várias problemáticas foram levantadas, nomeadamente

como descrever a documentação e registar os seus metadados, integrar e relacionar

documentação de cariz histórico dos fundos documentais citados e de diferentes

tipologias documentais ‐ peças desenhadas e escritas, fotografias ‐ e sua

disponibilização no meio digital, que neste caso é o motor de pesquisa online

disponibilizado em SNIT/AH‐OTDU, tentando evitar a dispersão de bases de dados.

1.1.2. Objetivos da dissertação

Muito ligados à temática do ordenamento do território, urbanismo e

arquitetura, os fundos documentais e bibliográficos que compõem o acervo do AH‐

OTDU são constituídos por tipologias documentais variadas, tais como peças

desenhadas, peças escritas e fotografias.

5

Com este estudo, e com base na recolha de pequenas amostragens de

documentos dos vários fundos documentais e suas tipologias documentais que

compõem este arquivo histórico, assim como a sua descrição feita ao nível das

unidades de instalação / documentos compostos, e ainda a aplicação experimental do

melhor modelo de dados, pretendeu‐se elaborar uma proposta de agregação a nível

digital da informação destes fundos documentais de arquivo e bibliográficos, visando a

convergência da informação digital proveniente dessa base de dados e a sua

disponibilização online de uma forma integrada, recorrendo a um único motor de

pesquisa.

1.2. Metodologia seguida

A presente dissertação de Mestrado incidirá sobre os fundos documentais de

arquivo e bibliográficos pertencentes ao AH‐OTDU e ainda sobre a base de dados AH‐

OTDU (em SQL Server) que alimenta o motor de pesquisa em SNIT/AH‐OTDU.

A metodologia adotada adquiriu uma natureza compósita, partindo de

diferentes modos de recolha e interpretação dos dados. Baseou‐se na

experimentação, amostragem dos fundos documentais supra citados e análise da

literatura (nacional e internacional) sobre a temática em investigação. Neste sentido,

foram feitas pesquisas bibliográficas e leituras, destinadas à revisão de literatura e

estudo de casos. Tendo por base estas leituras, foi feita ainda uma análise SWOT sobre

a aplicação do modelo de dados utilizado pela Europeana ‐ o Europeana Data Model

(EDM)1 ‐ no SNIT/AH‐OTDU.

Para a definição das amostragens, e antevendo o possível inter‐relacionamento

desta documentação aquando da fase de testes da reconciliação de dados com

datasets Linked Data, foi adotada a técnica de amostragem por conveniência2. Neste

sentido, foram selecionadas, analisadas e recolhidas pequenas amostragens de

registos de descrição (em folhas de recolha de dados (FRD)), já feitos para uma parte

da documentação dos fundos documentais acima indicados, vindos da Base de Dados

1 Modelo de dados em desenvolvimento pela Europeana.

2 Para uma breve descrição desta técnica de amostragem, vide nota de rodapé no ponto "3.1.3. O AH‐OTDU ‐ Caracterização dos fundos documentais alvo do estudo e definição da sua amostragem".

6

AH‐OTDU, e que detivessem dados informativos em comum, tais como a autoria e a

localização geográfica do processo. Seguindo o mesmo critério de seleção, para os

elementos das amostragens que não detinham registos de descrição feitos, foi

elaborado o seu pré‐inventário, em FRD conforme as orientações indicadas na

ISAD(G)3 (Norma Geral Internacional de Descrição Arquivística) e nas ODA4

(Orientações para a Descrição Arquivística).

Uma vez concluídos estes pontos de trabalhos e obtidos os ficheiros contendo

estas FRD (em formato Excel), para definir a proposta de estrutura de base de dados

passível de ser usada no motor de pesquisa online convergente, recorreu‐se ao

software Open Refine5, a fim de criar os projetos (experimentais) e correspondentes

ficheiros RDF conforme as orientações estabelecidas no Mapping Guidelines do

modelo de dados EDM, e reconciliação com datasets "Linked Data" existentes. Para

testar a pesquisa destes dados reconciliados e a sua convergência, recorreu‐se a uma

interface de testes de queries num SPARQL Endpoint, designado OpenLink Virtuoso

SPARQL Query Editor 6.

3 Desenvolvida pelo International Council on Archives (ICA), a ISAD(G) (General International Standard Archival Description), é uma norma que estabelece orientações gerais para a descrição arquivística, devendo a sua utilização ser conjugada com as normas nacionais existentes, ou servir de base para o seu desenvolvimento (ISAD(G), v. 2, pg. 9).

4 As ODA (Orientações para a Descrição Arquivística) foram desenvolvidas com a finalidade de dotar a comunidade arquivística portuguesa com um instrumento de trabalho em consonância com as normas de descrição internacionais, como a ISAD(G). Estas orientações pretendem assim contribuir para a criação de descrições consistentes da documentação de arquivo e dos seus produtores e coleccionadores, visando facilitar a pesquisa e a troca de informação a nível nacional e internacional (ODA, v.2, pg. 16).

5 O software Open Refine (anterior Google Refine) consiste numa ferramenta para trabalhar com dados de várias naturezas. Possibilita a sua limpeza, conversão para outros formatos, ampliando a sua versatilidade com recurso a serviços web e conectá‐los a bases de dados online (Linked Data) (fonte: http://openrefine.org/index.html).

6 Disponível em http://demo.openlinksw.com/sparql.

7

Capítulo 2: Revisão da Literatura

2.1. Pontos únicos de acesso online ‐ Antecedentes e motivos

A convergência entre Bibliotecas, Arquivos, Museus e outras instituições

culturais tem vindo a adquirir bastante importância, num mundo cada vez mais digital.

Não é de esperar que os utilizadores compreendam e aceitem os limites

organizacionais existentes entre estas instituições, uma vez que o seu principal

interesse reside na aquisição da informação e não de onde esta é proveniente. Neste

sentido, os utilizadores desconhecem se a informação provém de um livro presente

numa biblioteca, da descrição de uma peça de museu ou de um documento de arquivo

(Hedegaard, 2003, p. 2; Bermes, 2011, p. 2).

Apelidadas de "Instituições de Memória", pelo facto de manterem e

organizarem os registos referentes à memória cultural e intelectual das comunidades e

povos que servem (embora com diferentes regras de tratamento e organização da

informação relativa aos seus materiais e documentação), as bibliotecas, arquivos e

museus partilham um objetivo comum: a preservação e disponibilização desta herança

cultural. Este objetivo comum é maximizado pela utilização da Internet, que potencia a

divulgação da sua informação e a visibilidade destas mesmas instituições. Face a este

novo meio de divulgação, estas instituições viram‐se na necessidade de concretizar

projetos de digitalização dos seus acervos e disponibilizar online as suas bases de

dados (Kirchhoff, Schwelbenz e Sieglerschmidt, 2008, p. 252; Bermes, 2011, p. 2;

Cortês e Raposo, 2012, p. 1).

Com as mudanças introduzidas pelas Tecnologias de Informação e

Comunicação (TIC), são também desenvolvidas novas interfaces de pesquisa digitais,

levando a que os instrumentos de pesquisa pré‐existentes (guias, catálogos,

inventários) ganhassem novos meios e recursos, possibilitando assim ao utilizador uma

maior interação e novos usos da informação depositada nestas instituições (Jorente,

2012, p. 53).

Embora reportando apenas aos arquivos históricos, segundo Jorente (2012, pg.

53), para estas instituições estas mudanças potenciaram um novo significado social

mais alargado, seguindo um novo paradigma pós‐custodial – onde cada utilizador

8

consegue aceder, investigar e reconstruir coleções virtuais, criando assim “caminhos”

únicos para a apropriação dos conteúdos informacionais e históricos.

O paradigma custodial assentava na detenção da custódia da documentação e

património público e administrativo por parte das instituições (fossem eles Arquivos

ou Bibliotecas), estas criadas no seguimento das alterações administrativas trazidas

pela Revolução Francesa. Como tal, é um modelo paradigmático que assenta muito no

espaço físico, no edifício, seguindo um ideal muito assente no positivismo (Ribeiro,

2005 apud Jorente, 2012, p. 59).

Com os recentes desenvolvimentos ao nível das TIC, este paradigma custodial

sofreria adaptações, levando a que fosse preconizado um paradigma pós‐custodial.

Neste novo modelo, as restrições físicas tenderão a ser superadas, na medida em que

é providenciado o acesso à informação que antes só era possível através da consulta

presencial da documentação feita pelo utilizador (Jorente, 2012, p. 53).

Pode dizer‐se que a convergência entre estas instituições não é considerada

uma ideia recente – em 1934 Paul Otlet (1868‐1944), bibliotecário belga e fundador do

Mundaneum, descrevia na sua obra “Traité de Documentation” um cenário de

convergência entre estas três instituições, onde os metadados sobre os acervos destas

“instituições de memória” estariam organizados, classificados e localizados num ponto

central, podendo ser acedidos pelos utilizadores via televisão. Neste cenário, e

segundo a documentação por si deixada, Otlet considerava todo o tipo de informação

– texto, objetos, registos sonoros, entre outros ‐ utilizando como instrumento de

recuperação da informação a classificação destes objetos segundo a Classificação

Decimal Universal (CDU), revelando também alternativas de representação desta

informação, bem como dos possíveis relacionamentos entre classes de objetos

(Kirchhoff, Schwelbenz e Sieglerschmidt, 2008, p. 252‐253; Jorente, 2012, p. 53; Sayão,

2008, p. 4).

Estas experiências tiveram continuidade no futuro. O Projecto Memex, criado

por Vannevar Bush em 1945, visava ser um amplificador da memória, e consistia numa

solução que suportasse quer o armazenamento quer a recuperação da informação,

tendo a capacidade de relacionar e ligar diferentes documentos entre si, criando aquilo

9

que viria a ser chamado por “multimodalidade” (Jorente, 2012, p. 53; Sayão, 2008, p.

4).

Na continuação do desenvolvimento deste conceito de “multimodalidade”, na

década de 1960, Douglas Engelbart criou o oN‐LINE System (NLS), um “workspace”

colaborativo que, mais tarde veio a ser considerado o primeiro sistema colaborativo a

operar num ambiente digital. Recorrendo a links e utilizando um dispositivo apontador

concebido especificamente para essa funcionalidade, ao qual designaram “rato”, a

interação do utilizador era feita através da seleção dos temas, que depois seriam

organizados de acordo com a sua importância no contexto requerido, e apresentados

em várias “janelas” (Jorente, 2012, p. 54).

Decorrente desta experiência, e defendendo que os computadores aumentam

a compreensão graças á complexidade da organização e estruturação da informação,

através do seu relatório denominado "Augmenting human intellect: a conceptual

framework" (1962), Engelbart salienta o aspeto de descontinuidade nas formas

tradicionais de acesso ao conhecimento até aí existentes (Jorente, 2012, p. 54).

Esta ideia de descontinuidade seria retomada em 1965 por Theodor Nelson,

quando apresenta o conceito de Hipertexto (Hypertext), através do Projeto Xanadu.

Este projeto consistia num sistema de hipertexto e de bases de dados de documentos

interligados, cuja conceção e software possibilitava visualizar um texto e as suas

ligações num monitor. Na visão do hipertexto defendida por Nelson, este novo meio

de divulgação eletrónico, destinado ao ensino e partilha, deveria suportar ligações bi‐

direcionais7 e oferecer meios para uma reutilização correta (Jorente, 2012, p. 54;

Sayão, 2008, p. 4‐5).

No seguimento desta experiência, em 1990 Tim Berners‐Lee desenvolveu a

World Wide Web. Este novo sistema foi considerado como uma versão mais complexa

do Projeto Xanadu, mas foi bastante criticada por Eric Drexler, devido à sua linearidade

e ligações mono‐direcionais. Neste contexto de crítica da Web, Drexler defendia que

7 O conceito de ligações bi‐direcionais é mais adiante referido por Drexler, já no contexto do hipertexto completo (full hipertext). Segundo este autor, enquanto que o semi‐hipertexto (semi‐hypertext) apenas suporta apontadores (pointers) e referências (references), que só podem ser seguidos numa única direção, o hipertexto completo deve suportar ligações que possam ser seguidas em duas direções (bi‐direcionais) (fonte: http://e‐drexler.com/d/06/00/Hypertext/HPEK1.html, consultado em 9 Set. 2015).

10

um hipertexto completo deveria suportar ligações que pudessem ser seguidas em duas

direções. No entanto, certo é que esta mesma Web acabou por gerar e desenvolver

uma cultura de partilha de informação ‐ ainda presente nos nossos dias ‐ bem como

revolucionado os meios de divulgação desta mesma informação (Jorente, 2012, p. 54).

Ainda neste contexto, em 2004, foi identificada uma segunda fase na vida da

Web, ganhando a designação "Web 2.0"8, no decorrer daquela que viria a ser chamada

por "Conferência Web 2.0"9. Apesar das controvérsias levantadas, acredita‐se que a

Web 2.0 ressaltou algumas qualidades, tais como a interatividade, partilha e

colaboração (Jorente, 2012, p. 54).

Neste contexto, e sob pena de se constituírem como "silos" isolados uns dos

outros, e isolados do mundo digital providenciado pela Internet, as bibliotecas,

arquivos e museus vêm‐se na necessidade de adotar e seguir uma estratégia conjunta

para a divulgação do seu património cultural (Kirchhoff, Schwelbenz e Sieglerschmidt,

2008, p. 255; Bermes, 2011, p. 2).

Existem vários motivos que podem fundamentar esta estratégia. A primeira

prende‐se com o facto de grande parte do património cultural estar localizado em

acervos pertencentes a mais do que uma instituição (ex: fotografias, documentos de

arquivo, entre outros), e às vezes em localizações geográficas distantes entre si. São

também de considerar as dificuldades de acesso à informação devido às barreiras

linguísticas e os diferentes contextos culturais (Hedegaard, 2003, p. 2).

Outra razão ‐ e talvez a mais importante ‐ prende‐se com a falta de normas

comuns a estas três instituições. Uma vez que os modelos de representação da

8 A Web 2.0 é caracterizada pela utilização de websites que destacam a usabilidade, interoperabilidade e a disponibilização de conteúdos criados pelos próprios utilizadores (user‐generated content). Contrastando com os websites onde os utilizadores apenas visualizam os seus conteúdos, na Web 2.0, os utilizadores recorrem a um diálogo assente nos media sociais, e interagirem e colaboram entre si como criadores dos seus próprios conteúdos, inseridos numa comunidade virtual. Blogs, wikis, websites de partilha de vídeos, redes sociais (ex: Facebook), folksonomias e mashups são considerados exemplos demonstrativos da Web 2.0 (Fonte: https://en.wikipedia.org/wiki/Web_2.0, consultado em 9 Set. 2015).

9 O nome desta conferência começou por ser "Web 2.0 Conference", mais tarde designada por "Web 2.0 Summit". Organizada pela empresa O'Reilly Media, a primeira conferência foi realizada em San Francisco (EUA) em 5‐7 de Outubro de 2004, acreditando‐se que foi aqui que foi utilizado pela primeira vez o termo "Web 2.0" por Tim O'Reilly (fonte: https://en.wikipedia.org/wiki/Web_2.0_Summit, consultado em 21 Ago. 2015).

11

informação adotados por cada instituição diferem entre si, a coexistência destes acaba

por ser posta em causa, uma vez que tal resulta em dificuldades na partilha de dados e

na interoperabilidade na comunicação da informação presente nas suas bases de

dados e repositórios digitais, aquando da recuperação da informação feita através de

uma pesquisa simultânea. Como resultado disso, os utilizadores vêm‐se obrigados a

"percorrer" várias bases de dados, utilizando diferentes interfaces de pesquisa,

devolvendo resultados de pesquisa que seguem diferentes normas de indexação e

descrição da informação (Hedegaard, 2003, p. 2; Bermes, 2011, p. 5; Cortês e Raposo,

2012, p. 1).

Neste sentido, e uma vez que os utilizadores estão familiarizados com a

utilização de motores de pesquisa da Internet (Bermes, 2011, p. 2), uma das opções

que estas instituições poderão adotar a fim de fomentar esta convergência, poderá

passar pela criação de "pontos únicos de acesso", motores de pesquisa online para os

quais convergem as informações presentes nas várias bases de dados, ajudando a

diminuir o risco de o utilizador perder fontes de informação. Daqui poderão decorrer

várias vantagens para o utilizador, nomeadamente a utilização de uma interface online

única ligada a várias bases de dados culturais, providenciando uma uniformidade nos

resultados de pesquisa devolvidos e reduzindo o “ruído”, redundância e falta de

precisão nos termos utilizados (Kirchhoff, Schwelbenz, Sieglerschmidt, 2008, p. 255).

No entanto, e como já referido, para alcançar esta convergência, é necessário

um esforço de conciliação dos modelos de normalização da informação utilizados por

estas entidades, conducentes à sua interoperabilidade (Bermes, 2011, p. 5; Cortês e

Raposo, 2012, p. 1).

No caso das bibliotecas, o seu modelo de dados assenta em dois conceitos

básicos: os registos bibliográficos (que descrevem documentos) e os registos de

autoridade (que descrevem entidades como pessoas, localidades, organizações,

conceitos, entre outros), encontrando‐se estes dois partilhados por vários documentos

bibliográficos (Bermes, 2011, p. 5).

No caso dos arquivos, o seu modelo de dados segue os conceitos de hierarquia

e contexto. Baseado na norma de descrição ISAD(G), o formato EAD (Encoded Archival

Description) possibilita a representação da hierarquia dos seus documentos nos seus

12

instrumentos de pesquisa, respeitando assim a natureza orgânica subjacente aos

fundos arquivísticos. É feita uma descrição multinível, partindo do geral para o

particular, ao contrário do que acontece com os modelos de dados das bibliotecas e

museus, onde a informação é tratada ao nível particular, ou seja, ao nível da peça. No

âmbito arquivístico, certos conceitos, como “autor” (diferente do conceito de

“Produtor”), adquirem menos importância do que no âmbito das bibliotecas (Bermes,

2011, p. 5; Cortês e Raposo, 2012, p. 4; Marcondes, 2012, p. 14).

Por sua vez, no caso do modelo de dados utilizado pelos museus, este é

caracterizado pelo facto de apenas se limitar à descrição de objetos únicos. Estes são

descritos não apenas em função do seu contexto de criação (como acontece nos

arquivos e nas bibliotecas), mas também em função dos diferentes eventos pelos quais

estes objetos passaram durante o seu ciclo de vida como peças de museu, partindo da

sua criação e abrangendo outros eventos, como a sua preservação, restauro,

mudanças da sua titularidade e apresentações em exposições. Neste sentido, o

conceito de evento ganha importância neste modelo de dados, encontrando‐se este

refletido no modelo CRM do CIDOC (Bermes, 2011, p. 5).

2.2. A Internet dos Dados e os Linked Data

Assim sendo, e a fim de tentar solucionar estas questões de interoperabilidade

entre instrumentos de recuperação da informação que recorrem a modelos de dados

díspares entre si, tem vindo a ganhar mais destaque o recurso aos Linked Data (“dados

ligados”) ou Web of Data (“Internet dos Dados”). Segundo Bizer, Heath e Berners‐Lee

(2009, p. 2), os Linked Data decorrem do uso da Internet para criar links entre dados

vindos de diferentes fontes, que por sua vez, poderão ser bases de dados geridas por

duas ou mais instituições situadas em localizações geográficas distantes ou sistemas de

informação dentro de uma organização e diferentes entre si em que a sua

interoperabilidade ao nível dos dados seja difícil de estabelecer. Como resultado, é

devolvida e apresentada de um modo unificado ao utilizador toda a informação

considerada relevante e que coincida com os critérios "semânticos" de pesquisa

definido por este (Gracy, 2014, p. 3).

A “Internet dos Dados” é considerada uma extensão da Web Semântica

(também conhecida por Web 3.0). Por sua vez, esta constitui‐se como uma extensão

13

da web atual, onde a informação ganha uma semântica bem definida, facilitando assim

uma melhor cooperação entre computadores e pessoas (Berners‐Lee, 2001 apud

Gracy, 2014, p. 2). Para tornar possível este cenário, julga‐se necessária a criação e

implementação de normas (standards), visando facilitar a troca de informação entre as

pessoas, mas sobretudo estabelecer uma linguagem comum que facilite e potencie a

partilha de dados entre dispositivos e sistemas de informação (Souza e Alvarenga,

2004, p. 134).

Neste sentido, a “Internet dos Dados” propõe uma forma de interoperabilidade

que não depende de uma pesquisa feita em simultâneo entre bases de dados distintas,

nem na redução ou conversão de bases de dados para um formato comum, mas

assentando na criação de um “espaço” de informação global, onde a utilização de links

é feita para pesquisar livremente entre várias fontes de informação. Para tal, e para

além da utilização de URIs10 (Uniform Resource Identifiers), a informação contida

nestes “dados ligados” terá que estar descrita de acordo com o modelo de dados RDF

(Resource Description Framework). Neste modelo, os links são qualificados,

possibilitando assim saber a relação exata entre duas fontes de informação:

semelhança, temática, entre outros atributos. Através desta abordagem, é possível a

criação de links entre recursos informacionais que são descritos conforme modelos

distintos, desde que a linguagem comum seja o modelo de dados RDF (Bizer, Heath e

Berners‐Lee, 2009, p. 2; Bermes, 2011, p. 5; Gracy, 2014, p. 3‐4).

Assim sendo, as instituições que queiram preparar e disponibilizar como

"Linked Data" a informação constante nas suas bases de dados, deverão seguir quatro

regras, conforme sugeridas por Tim Berners‐Lee (Heath e Bizer, 2011, apud Gracy,

2014, p. 3; Berners‐Lee, 2006, apud Van Holland e Verborgh, 2014, p. 45‐46):

10 Um URI (Uniform Resource Identifier) consiste numa sequência de caracteres que identificam o nome

de um recurso, abstrato ou físico. Esta identificação possibilita a interação com representações deste

recurso numa rede (habitualmente a web), utilizando protocolos específicos. Cada URI é definido por

esquemas (schemas), que por sua vez definem uma sintaxe e os protocolos a ela associados. A forma de

URI mais conhecida é o URL (Uniform Resource Locator), mais conhecido por endereço web. Outra

forma de URI, mas desta vez menos conhecida é o URN (Uniform Resource Name), concebido para

complementar URLs, providenciando um mecanismo para a identificação dos recursos em determinados

namespaces (fonte: https://en.wikipedia.org/wiki/Uniform_resource_identifier, consultado em 10 Set.

2015).

14

1) utilizar URIs como o nome dos "objetos";

2) utilizar HTTP URIs11 a fim de os utilizadores poderem procurar pelos nomes

atrás referidos;

3) quando o utilizador acede a um URI, dever‐se‐á providenciar informação útil,

recorrendo para tal às normas / standards (RDF, SPARQL);

4) Incluir links para outros URIs, de modo a que o utilizador consiga aceder e

descobrir mais informação.

Cada entidade ou objeto registado deverá ter um identificador único e ser

acessível através de um URI. Após a sua conversão para URIs, já é possível estabelecer

o relacionamento semântico entre estas entidades. Aqui, a utilização dos URIs é

considerada de extrema importância, por duas razões. A primeira razão prende‐se com

o facto de um URI fornecer com precisão a localização da informação sobre cada

entidade, através de um Uniform Resource Locator (URL)12. Uma vez definido este URL,

o motor de pesquisa já conseguirá localizar a informação pretendida, esteja onde

estiver (Gracy, 2014, p. 3; Van Holland e Verborgh, 2014, p. 46). A segunda razão

prende‐se com a maior precisão no recurso ao URI do que no recurso à linguagem

natural ‐ um URI de uma determinada entidade manter‐se‐á o mesmo, seja qual for a

linguagem utilizada (Coyle, 2012, apud Gracy, 2014, p. 3).

Por seu turno, a estrutura dos Linked Data assenta no modelo de dados

Resource Description Framework (RDF), servida para definir a "tripla"13 ‐ a unidade

semântica que é a expressão básica dos Linked Data. Esta consiste em três

componentes, nomeadamente (Gracy, 2014, p. 4‐5; Van Holland e Verborgh, 2014, p.

44):

11 Os HTTP URIs (em forma de URL) são frequentemente utilizados para identificar recursos abstratos, tais como classes, propriedades ou outro tipo de conceitos. Uma vez que estes URIs estão associados ao protocolo HTTP, tem sido levantadas bastantes questões sobre que tipo de representação se consegue obter através destes recursos obtidos por este protocolo ‐ geralmente através de um web browser (visualizador de conteúdos da WWW) ‐ e se a sintaxe do próprio URI consegue fazer a diferenciação entre recursos "abstratos" e recursos "informativos" (fonte: https://en.wikipedia.org/wiki/Web_resource, consultado em 12 Set. 2015).

12 O URL permite a localização de recursos num sentido apenas. Exemplo de um URL é um endereço HTTP (Hypertext transfer protocol) (Van Holland e Verborgh, 2014, p. 46).

13 Tradução livre de "triple".

15

Sujeito (subject) → Predicado (predicate) → Objeto (object)

Ex: Fundo ou série arquivística → has creator [tem como criador] → Pessoa

singular, família ou instituição.

Assim o sujeito (subject) corresponde à entidade que está a ser referenciada, o

objeto (object) corresponde a outra entidade com alguma relação com o sujeito, e o

predicado ‐ que define essa relação. Este modelo de dados permite uma maior

flexibilidade e facilidade na estruturação das expressões ("statements"), na medida em

que não existem limites sobre o que pode ser ligado: qualquer entidade (o sujeito)

pode ter uma relação específica (o predicado) com qualquer outra entidade (o objeto)

(Gracy, 2014, p. 4; Van Holland e Verborgh, 2014, p. 44).

Neste sentido, e ao contrário do que ocorre com os outros modelos de dados

(vide tabela 1) o modelo de dados do RDF é simplificado até ao máximo, na medida em

que a semântica fica toda explícita pelas "triplas", levando a que não seja necessário

recorrer a esquemas ("schemas") para os seus dados serem interpretados. Daí este

modelo de dados ser considerado neutro em termos de esquemas ("schema‐neutral").

Com o recurso ao RDF, é possível estruturar expressões sobre factos que nos são

conhecidos, e que possam interagir com expressões ("statements") estruturadas em

outros sistemas de informação residentes noutras instituições, tornando assim viável a

ligação e interação dos seus dados com outros formatos e estruturas (Van Holland e

Verborgh, 2014, p. 44).

Modelo de dados Vantagens / Desvantagens Utilização

Dados tabulares ("tabular data")

(ex: Ficheiros Excel, CSV)

(+) Abordagem mais intuitiva

(+) Mais suportável ("portable")

(+) Tecnologicamente "agnóstico"

(‐) Sujeito a redundância e conduzindo a inconsistências

(‐) Ineficiente na pesquisa e recuperação da informação

Importação e exportação de dados, seguindo uma estrutura simples

Modelo relacional

(ex: Bases de dados Access)

(+) Tratamento de dados complexos

(+) "Queries" de pesquisa optimizadas

(+) Software disponível no mercado mais desenvolvido

Gestão de dados complexos e que requeiram normalização

16

Modelo de dados Vantagens / Desvantagens Utilização

(‐) Formato binário

(‐) Dependente de esquemas ("schemas")

Meta‐markup

(ex: XML)

(+) Independente em termos de plataformas tecnológicas

(+) Capaz de ser lido quer por humanos ("human‐readable"), quer por máquinas ("machine‐readable") em simultâneo

(‐) Implementação complicada quando se trata de dados complexos

(‐) Verbosidade

Importação e exportação de dados complexos

RDF (+) Abordagem "schema‐neutral"

(+) Descoberta de novo conhecimento

(‐) Perda de normalização

(‐) Software disponível no mercado ainda não muito desenvolvido

Converte dados para ligação / interconexão ("linking")

Legenda: (+) Vantagem; (‐) Desvantagem.

Tabela 1: Sumário das vantagens / desvantagens dos diferentes modelos de dados,

adaptado de Van Holland e Verborgh (2014, p. 51)

No entanto, outras normas / standards ampliam as funcionalidades dos Linked

Data. São eles o Simple Knowledge Organization System (SKOS), a Web Ontology

Language (OWL) e ainda a linguagem de pesquisa Simple Protocol and RDF Query

Language (SPARQL) (Gracy, 2014, p. 5).

O SKOS consiste numa estrutura ou modelo de dados destinada a representar

vocabulários controlados na web. Podendo também ser expresso através de "triplas"

RDF, este modelo de dados possibilita a expressão de características comuns

partilhadas entre listas de termos controlados, Thesaurus, esquemas de classificação e

outras formas de vocabulários controlados. Define as relações entre termos

"alargados" (broader), "estreitos" (narrow) e relacionados (related), podendo ser

compatível com normas / standards de Thesaurus14. Por causa da sua flexibilidade e

14 Como por exemplo, a norma ISO 25964 ‐ Thesauri and interoperability with other vocabularies (Gracy, 2014, p. 5).

17

normalização pelo W3C15, e na medida em que possibilita a definição de relações entre

entidades "Linked Data", com o recurso ao SKOS, uma instituição consegue fazer o

mapeamento dos termos e criar alinhamentos entre diferentes conjuntos de dados

(datasets) (Gracy, 2014, p. 5; Van Holland e Verborgh, 2014, p. 129).

Por seu turno, o OWL consiste numa norma / standard que possibilita o acesso

do RDF a ontologias16 mais sofisticadas, podendo também serem expressas em RDF.

Juntamente com o RDFS17, o OWL providencia meios destinados a associar "those

classes and properties with formal reasoning rules that enforce constraints or produce

new knowledge by inference18" (Baker et al., 2013, p.2, apud Van Holland e Verborgh,

2014, p. 126). No entanto, o seu uso não é de todo obrigatório ‐ não é necessário que

todos os "dados ligados" sejam expressos com recurso a esta norma (Gracy, 2014, p. 5;

Van Holland e Verborgh, 2014, p. 126).

Por último, o SPARQL consiste na norma utilizada para pesquisar dados

semânticos na Internet, baseada na utilização de "padrões de grafos" (graph patterns)

e muito semelhante ao SQL (Structured Query Language). Recorrendo ou não a pontos

de acesso SPARQL (SPARQL endpoints), o utilizador consegue pesquisar informação

presente nas "triplas" RDF e assim obter os dados solicitados, proveniente de várias

fontes informativas (Gracy, 2014, p. 5; Van Holland e Verborgh, 2014, p. 48).

Neste sentido, a abordagem "Linked Data" oferece às instituições culturais

bastantes oportunidades para a melhoria do acesso à informação constante nos seus

depósitos e à convergência da informação presente nos seus instrumentos de

15 W3C é a abreviatura da World Wide Web Consortium, comunidade internacional cujo trabalho incide no desenvolvimento de normas / standards para a Web (fonte: http://www.w3.org/Consortium/, consultado em 28 Ago. 2015).

16 Neste contexto, uma ontologia consiste num agrupamento de entidades, onde são definidas as relações entre diferentes conceitos (Van Holland e Verborgh, 2014, p. 126).

17 O RDFS é uma linguagem de utilização geral utilizada para representar vocabulários RDF simples na Web. Outros modelos de vocabulários, como o OWL ou o SKOS, são construídos em RDFS e providenciam uma linguagem para definir ontologias baseadas na Web, possibilitando uma melhor integração e interoperabilidade dos dados (fonte: https://www.w3.org/2001/sw/wiki/RDFS, consultado em 29 Ago. 2015).

18 Fonte: Van Holland e Verborgh, 2014, pg. 126.

18

descrição (catálogos, listas) e nos seus sistemas e fontes de informação (Gracy, 2014,

p. 5).

Segundo Gracy (2014, p. 5), e embora referindo ao âmbito dos arquivos, estes

já dispunham de normas de codificação estabelecidas que facilitavam a pesquisa por

parte dos utilizadores e a partilha de registos fora dos limites institucionais,

nomeadamente a norma EAD (Encoded Archival Description), o formato MARC

(Machine Readable Cataloging) e ainda a norma METS (Metadata Encoding

Transmission Standard). Com o recurso aos "Linked Data", os Arquivos receberão pelo

menos dois benefícios. O primeiro consistirá na criação de ligações entre registos de

documentos de arquivo e fontes de informação externas, facilitando assim a

compreensão dos utilizadores em matéria da sua informação e dos seus produtores ou

autores. O segundo consistirá na já referida maior divulgação dos dados de cariz

arquivístico através da Internet, facilitando assim uma maior exploração e utilização da

sua informação por parte dos utilizadores que, caso contrário, não teriam acesso

(Gracy, 2014, p. 5).

No entanto, é necessário ter em mente a existência de "ilhas", ou sistemas de

informação que foram estruturados tendo em conta as necessidades e domínios de

aplicação da sua instituição, resultando assim em sistemas cuja interligação não seja

possível de ser feita de um modo automático. Nestes casos, é preciso primeiro saber

como estabelecer o acesso à base de dados das outras instituições, a fim de saber

quais os campos que estão a ser utilizados para descrever os seus objetos ou fundos

documentais. Uma vez encontrados, será necessário embeber manualmente os seus

URLs nos registos da base de dados da nossa instituição (Van Holland e Verborgh,

2014, p. 49).

Outro fator que também atua como uma barreira à implementação dos "Linked

Data" é a existência de fundos e coleções "escondidos" ("hidden collections"), para os

quais não existe acesso online aos seus registos (catálogos ou sistema de informação)

contendo as descrições dos seus objetos (Gracy, 2014, p. 11).

19

2.3. Linked Data e as instituições culturais ‐ o Projecto Europeana e o modelo

de dados EDM

Neste contexto, o Projeto Europeana constitui‐se como um exemplo de

aplicação destes princípios tendentes á convergência de dados. Dirigido pela Fundação

EDL (European Digital Library), este projeto de biblioteca digital foi lançado em 2005 e

disponibilizado ao público em 2008, tendo por objetivo constituir‐se como uma

plataforma tecnológica, sob a forma de Portal baseado na WWW, que agregasse os

metadados de conteúdos digitais culturais e históricos presentes nas bases de dados

de bibliotecas, arquivos, museus, arquivos audiovisuais, repositórios institucionais

(universidades e centros de investigação) e outras instituições culturais (públicas e

privadas) dos países aderentes (Borbinha e Freire, 2010, p. 5; Bermes, 2011, p. 8;

Winer e Rocha, 2013, p. 114).

Na sua fase inicial, o Portal Europeana seguia um modelo de dados conforme a

norma ESE (Europeana Standard Elements), uma extensão do DCMES (Dublin Core

Metadata Element Set, abreviadamente designado por DC), providenciando assim uma

primeira tentativa de interoperabilidade entre os repositórios de metadados

aderentes. Mais tarde, novas adições a este conjunto de metadados foram

acrescentados, nomeadamente a proveniência e os direitos associados à informação e

os links para as representações digitais disponibilizadas pelas entidades aderentes

(Bermes, 2011, p. 8). Este portal também recorria ao protocolo OAI‐PMH para

comunicação e recolha dos metadados das bases de dados das entidades aderentes,

que depois eram processados centralmente, utilizando técnicas semânticas que

viabilizassem a sua pesquisa (Borbinha e Freire, 2010, p. 5; Ferros, Filipe e Ramalho,

2010, p. 7).

Recentemente, e a fim de tentar solucionar alguns problemas do modelo de

dados então em utilização (o ESE), este projeto desenvolveu o modelo de dados EDM

(Europeana Data Model), constituindo‐se como uma ontologia bastante desenvolvida,

pretendendo aplicar os princípios da Web Semântica aos metadados relacionados com

o património cultural. É criada uma "camada" (layer) semântica de informação que

possibilita a interligação com outros conteúdos digitais agregados por esta biblioteca

digital, permitindo assim responder às questões "Quem?" ("Who?"), "O quê?"

20

("What?"), "Quando?" ("When?") e "Onde?" ("Where?")19, proporcionadas pelo seu

motor de pesquisa, entre outros termos utilizados. É esta "camada" semântica (ou o

conjunto de termos de vocabulários interligados, descrevendo pessoas, lugares,

conceitos, entre outros) que providencia a ligação entre os recursos informacionais.

Ainda neste contexto, o EDM permite a agregação de descrições centradas nos

documentos (utilizadas pelos arquivos), bem como descrições centradas em eventos

(utilizadas pelos museus), resolvendo assim uma das questões de convergência

levantadas (Bermes, 2011, p. 8; Winer e Rocha, 2013, p. 123).

Comparando com o ESE, o EDM constitui‐se como um modelo de dados mais

flexível e preciso, na medida em que possibilita a ligação de cada expressão com o

recurso específico (ao qual se aplica). Permite também visualizar os dados, de modos

diferenciados, de acordo com as práticas e domínios das entidades que contribuem

com a sua informação para a Europeana (Isaac et al., 2012, p. 35; Europeana, 2015a, p.

5).

Os requisitos principais que potenciaram o desenvolvimento do modelo de

dados EDM, incluíam (Isaac et al., 2012, p. 36):

A distinção entre o "item providenciado" (ex: pintura, livro, mapa) e a sua

representação digital;

A distinção entre este mesmo item e os metadados que o descrevem;

A possibilidade de permitir a ingestão de múltiplos registos para descrever

o mesmo item, podendo existir informações contraditórias sobre o mesmo;

Providenciar apoio para recursos contextuais, incluindo conceitos

provenientes de vocabulários controlados.

Assim, e detendo o mecanismo que permite fazer a distinção destes aspetos

referentes a um recurso específico, o EDM acaba por possibilitar a representação de

um determinado objeto cultural, através de diferentes perspetivas. Para além de

possibilitar a já referida contextualização sob a forma de entidades (lugares, pessoas,

períodos temporais), o EDM tem recebido desenvolvimentos e recomendações que

19 Serão mais adiante descritas na caracterização das "classes contextuais" do modelo de dados EDM.

21

possibilitem a representação de objetos complexos e estruturados hierarquicamente

(muito comum no domínio dos Arquivos) (Isaac et al., 2012, p. 36; Europeana, 2015c).

Em vez de introduzir novos elementos, no modelo de dados EDM é feita a

reutilização e ligação a vocabulários e ontologias existentes, tais como o Open Archives

Object Reuse and Exchange Model (OAI‐ORE), o Dublin Core (DC) e o já referido SKOS

(da W3C), entre outros (Isaac et al., 2012, p. 36).

As "classes de base" representam o objeto cultural ("cultural heritage object").

Com estas classes, o EDM faz a separação entre o objeto cultural e a sua representação

digital, tendo em vista a correta associação dos seus metadados. Essas "classes de

base" são (Europeana, 2015a, p. 5‐6):

Edm:ProvidedCHO ‐ o objeto cultural em apreço;

Edm:WebResource ‐ o recurso web onde se localiza a sua representação

digital;

Ore:Aggregation ‐ a agregação que faz o agrupamento das classes.

Fig. 1: As três "classes de base": uma Aggregation com um ProvidedCHO e o seu WebResource (fonte: Europeana, 2015a, pg. 6)

Tomando por base a fig. 1, os metadados sobre um determinado objeto

cultural e as suas representações digitais estão separados entre as classes

edm:ProvidedCHO e as edm:WebResource(s). O mecanismo que permite a sua

associação é a classe ore:Agreggation, que detém propriedades que permitem fazer a

sua ligação, para além de poder aplicar outras propriedades (ex: edm:dataProvider) a

todo o grupo (Europeana, 2015a, p. 6).

Por seu turno, as "classes contextuais" possibilitam a inclusão de dados detidos

por parte das instituições, sejam estes vindos de ficheiros de autoridade, Thesaurus e

22

vocabulários controlados. Tornam possível também a separação entre os dados de

contexto e os dados sobre a descrição do objeto. São elas (Europeana, 2015a, p. 5):

Edm:Agent ‐ Quem;

Edm:Place ‐ Onde;

Edm:TimeSpan ‐ Quando;

Skos:Concept ‐ O quê;

Cc:License ‐ acesso e utilização.

Fig. 2: Exemplo de um ProvidedCHO com dois recursos contextuais (fonte: Europeana, 2015a, pg. 7)

Ainda neste contexto, a Europeana tem a possibilidade de utilizar estes URIs

para poder adicionar mais dados destas fontes e recursos externos, desde que os

mesmos estejam disponíveis como "linked open data". Este é considerado o principal

método para "enriquecer" os dados fornecidos pelas entidades, adicionando

informações que não constavam nos dados providenciados. Neste sentido, a

Europeana espera adicionar vocabulários locais, num futuro próximo (Europeana,

2015a, p. 7).

23

Capítulo 3: Ponto único de acesso online do AH‐OTDU ‐ Definição da sua proposta

3.1. O Arquivo Histórico do Ordenamento do Território e Desenvolvimento

Urbano (AH‐OTDU)

3.1.1. Breve história da entidade produtora ‐ Direcção‐Geral do Ordenamento

do Território e Desenvolvimento Urbano (DGOTDU)

A Direcção‐Geral do Ordenamento do Território e Desenvolvimento Urbano

(DGOTDU) foi criada por força do Decreto‐Lei nº 271/94 de 28 de outubro, e exerceu

as suas competências na qualidade de autoridade técnica nacional de ordenamento do

território e do urbanismo20.

Das suas competências definidas por este diploma legal, destacam‐se a

elaboração dos estudos necessários à formulação das bases gerais da política de

ordenamento do território e de desenvolvimento urbano, a avaliação periódica do

estado do ordenamento do território, e também a dinamização da promoção dos

planos de ordenamento do território e instrumentos de planeamento territorial.

Em 2007, a DGOTDU veria a sua missão e atribuições redefinidas através do

Decreto Regulamentar nº 54/2007, de 27 de abril, no cumprimento do esforço de

racionalização estrutural e reforma orgânica instituída pela Lei Orgânica da sua tutela,

o Ministério do Ambiente, do Ordenamento do Território e do Desenvolvimento

Regional (MAOTDR)21, no âmbito das orientações definidas pelo Programa de

Reestruturação da Administração Central do Estado (PRACE).

De acordo com este Decreto Regulamentar, estas alterações possibilitariam à

DGOTDU adaptar‐se "à profunda remodelação do sistema de gestão territorial

realizado na última década e às exigências que decorrem, quer da aplicação do novo

quadro legal e regulamentar do ordenamento do território e do urbanismo, quer das

transformações que entretanto se verificaram na realidade territorial, institucional,

económica e social do País e na sua inserção no espaço europeu”22. Este mesmo

20 Para mais informação sobre esta instituição vide "História da evolução administrativa e organizacional das instituições que antecederam a ex‐DGOTDU" (Apêndice A)

21 Conforme estipulado pelo Decreto‐Lei nº. 207/2006, de 27 de outubro.

22 Fonte: Decreto Regulamentar nº 54/2007, de 27 de abril, Preâmbulo, pg. 2657.

24

diploma legal clarificou as responsabilidades cometidas à DGOTDU, cuja atividade se

centraria no "exercício de funções nacionais de apoio à definição, acompanhamento e

avaliação das políticas públicas nos domínios do ordenamento do território e

desenvolvimento urbano"23.

Destas, destacam‐se as que respeitam ao acompanhamento e avaliação do

funcionamento do sistema de gestão territorial, à gestão de programas dirigidos à

qualificação do território e da gestão urbana, à implementação da política de cidades,

ao acompanhamento, avaliação e futura revisão do Programa Nacional da Política de

Ordenamento do Território (PNPOT), à articulação das políticas sectoriais com a

política de ordenamento do território e urbanismo, ao acompanhamento das políticas

territoriais e urbanas europeias e internacionais e participação nos seus programas.

Coube‐lhe também assegurar o funcionamento do Observatório do Ordenamento do

Território e do Urbanismo (suporte técnico, administrativo e logístico). Coube ainda à

DGOTDU a criação e manutenção do Sistema Nacional de Informação Territorial (SNIT)

‐ considerado como um "instrumento essencial à boa aplicação do sistema de gestão

territorial e à sua regular avaliação"24, bem como do Portal do Ordenamento do

Território e Urbanismo (Portal OT&U).

Em 2011 a Administração Pública é sujeita a uma nova reforma, desta vez

através do Plano de Redução e Melhoria da Administração Central (PREMAC). Como

consequência deste novo plano, a DGOTDU seria extinta e fundida com o Instituto

Geográfico Português (IGP) e com o Gabinete Coordenador do Programa FINISTERRA

(GCPF), dando lugar à Direção‐Geral do Território (DGT)25, encontrando‐se no presente

momento integrada no Ministério do Ambiente, Ordenamento do Território e Energia

(MAOTE)26. Esta nova Direção‐Geral integrou as suas atribuições, tendo‐lhe sido

definida como missão a prossecução das políticas públicas de ordenamento do



25 De acordo com o Decreto‐Lei n.º 7/2012, de 17 de janeiro, que aprova a Lei Orgânica do Ministério da Agricultura, do Mar, do Ambiente e do Ordenamento do Território (MAMAOT).

26 Conforme o Decreto‐Lei n.º 119/2013, de 21 de agosto.

25

território e de urbanismo e a criação e manutenção das bases de dados geográficos de

referência.

3.1.2. O AH‐OTDU ‐ História custodial e arquivística

A DGOTDU (e a sua sucessora DGT) constituiu‐se como herdeira do espólio das

sucessivas instituições da Administração Central do Estado que, desde 1944, detiveram

a responsabilidade da prossecução da política nacional de ordenamento do território e

urbanismo. São estas27:

a Direcção‐Geral dos Serviços de Urbanização (DGSU) (1944‐1976);

a Direcção‐Geral do Equipamento Regional e Urbano (DGERU) (1976‐1986);

a Direcção‐Geral do Planeamento Urbanístico (DGPU) (1976‐1986);

a Direcção‐Geral do Ordenamento (DGO) (1983‐1986);

a Direcção‐Geral do Ordenamento do Território (DGOT) (1986‐1994).

Esse espólio, constituído por um número significativo de

documentos históricos, na sua maioria relacionados com a elaboração, financiamento

e aprovação dos Instrumentos de Gestão Territorial (IGT) ‐ como por exemplo os

Planos de Urbanização ‐ e projetos de construção de Equipamentos de Utilização

Coletiva (EUC), constituindo‐se assim como um património público valioso e um

elemento essencial para o estudo e a compreensão da história do ordenamento do

território e do urbanismo em Portugal.

Em 2005, a DGOTDU iniciou um projeto para o tratamento do espólio

documental com maior significado histórico e patrimonial, constituindo assim o

Arquivo Histórico (AH‐DGOTDU). Neste âmbito foi iniciada a digitalização dos

documentos relativos aos Instrumentos de Gestão Territorial (IGT), e das peças

fotográficas referentes aos levantamentos aéreos realizados nos anos 40/50 do século

XX. No caso dos IGTs, na seleção de peças para digitalizar, foi dada primazia à

documentação dos Planos Gerais de Urbanização (PGU) antigos, muito procurados por

alunos e investigadores em geral.

27 Para mais informação sobre estas instituições vide "História da evolução administrativa e organizacional das instituições que antecederam a ex‐DGOTDU" (Apêndice A).

26

Este projeto foi, a partir de 2007, integrado no Projeto SNIT/Portal OT&U. Em

2008 foi iniciada a preparação e tratamento da informação, a fim de esta integrar o

processo de desenvolvimento da página web do AH‐DGOTDU e correspondente base

de dados, que foi lançada em Outubro de 2008. Na sequência do processo de fusão já

referido, o projeto passou a ter a denominação Arquivo Histórico do Ordenamento do

Território e Desenvolvimento Urbano (SNIT/AH‐OTDU), mantendo‐se integrado no

Sistema Nacional de Informação Territorial (SNIT).

3.1.3. O AH‐OTDU ‐ Caracterização dos fundos documentais alvo do estudo e

definição da sua amostragem

Para a definição das amostragens que de seguida se descrevem, a sua seleção

foi feita seguindo a lógica de amostragem por conveniência28. Neste sentido, e como

critérios, foram selecionadas peças destes fundos documentais respeitantes às

seguintes localidades, nomeadamente: Abrantes, Alter do Chão, Arouca, Arraiolos,

Aveiro, Beja, Braga, Castelo Branco, Coimbra, Covilhã, Elvas, Esposende, Évora, Fornos

de Algodres, Gouveia, Guarda, Guimarães, Lisboa, Nazaré, Portalegre, Portel,

Portimão, Santiago do Cacém, São João da Madeira, Silves, Sintra, Tavira, Viana do

Castelo, Vila Nova de Gaia e Vizela.

Outro critério adotado foi a seleção dos autores destes projetos, a fim de poder

existir alguma coincidência de autoria entre estes fundos, nomeadamente e a título de

exemplo, autores de projetos de IGT que fossem também autores de artigos das

publicações constantes no fundo bibliográfico.

Mesmo não seguindo o estipulado nas normas de descrição ISAD(G) e ODA), as

amostragens dos fundos documentais dos IGT e dos EUC já detêm registos contendo a

descrição das suas peças documentais. Para as amostragens que não tinham registos

de descrição feitos ‐ nomeadamente os fundos documentais dos álbuns fotográficos,

das fotografias aéreas e dos artigos dos fundos bibliográficos, foi necessário elaborar o

28 Segundo Carmo e Ferreira (1998), nesta técnica de amostragem não probabilística, é utilizado um grupo de indivíduos que se encontrem disponíveis ou um grupo de voluntários. Esta técnica de amostragem destina‐se mais a estudos exploratórios, ou quando o investigador pretende estudar apenas determinados elementos e características bem definidas da população. No entanto, estes resultados não poderão ser generalizados à população à qual o grupo de conveniência pertence, mas a informação aqui obtida poderá revelar‐se útil, sem contudo deixar de existir as devidas reservas e precauções.

27

seu pré‐inventário. Estes foram elaborados pela aluna, a fim de os seus dados

constarem na presente dissertação, para aplicação da metodologia definida.

Para a elaboração do pré‐inventário destes três fundos documentais, julgou‐se

necessário estabelecer primeiro os níveis de estrutura da sua descrição e sua relação.

A opção tomada para estabelecer estes níveis de estrutura de descrição foi seguir a

hierarquia orgânica do Ministério das Obras Públicas e Comunicações, optando apenas

pelos níveis Ministério > Direção‐Geral, dado que é difícil determinar a que Direção de

Serviços respeitavam os fundos documentais já referidos, uma vez que estes poderiam

apoiar a atividade de várias unidades orgânicas dentro da Direção‐Geral.

Neste sentido, e tomando em consideração o indicado pelas ODA29,foram assim

considerados os seguintes níveis:

Fundo

Pelo facto de o período temporal a que os fundos documentais que ainda não

detinham registos de descrição se encontrar bem balizado, foi definido como fundo o

Ministério das Obras Públicas e Comunicações (MOPC). O código de referência a

utilizar será "PT/DGT/MOPC".

Secção

Foi definida como secção a Direcção‐Geral dos Serviços de Urbanização (DGSU).

O código de referência a utilizar será "PT/DGT/MOPC/DGSU".

Subsecção

Corresponde à subdivisão da secção. Neste caso, não é possível no presente

momento definir este nível e determinar a que Direção de Serviços respeitavam os

fundos documentais já referidos, por os mesmos ainda se encontrarem numa fase

inicial de descrição e pré‐inventário.

Série

Só foi possível determinar este nível para o fundo documental das fotografias

aéreas dos anos 40/50 do século XX, pelo que, o código de referência utilizado foi

29 ODA, v. 2, pg. 55 ‐ Descreve os níveis de descrição considerados nestas orientações.

28

"PT/DGT/MOPC/DGSU/DGSU‐FotoAerea/…". Para os restantes dois fundos

documentais, e por se encontrarem ainda numa fase inicial de descrição e pré‐

inventário, não é possível no presente momento definir este nível.

Subsérie

Corresponde à subdivisão da série. Novamente, e pelos mesmos motivos

referidos no nível "Série", de momento não foi possível definir este nível.

Unidade de instalação (actual)

Embora provisórios, para o fundo documental dos álbuns fotográficos, a

unidade de instalação atual considerada foi o álbum, pelo que o código de referência

utilizado foi "PT/DGT/MOPC/DGSU/DGSU‐Alb_.../…". Para o fundo documental dos

artigos dos fundos bibliográficos, a unidade de instalação atual considerada foi a

revista / boletim, pelo que o código de referência utilizado foi

"PT/DGT/MOPC/DGSU/DGSU‐RevUrb…/…". No caso específico do fundo documental

das fotografias aéreas, e partindo do pressuposto de que estas foram submetidas a

processo de tratamento de justaposição e mosaicagem30, não foi possível na presente

fase de pré‐inventário determinar este nível, pelo facto de que uma fotografia aérea

(tratada) de determinada localidade poder advir de várias chapas de vidro, contidas

em várias unidades de instalação (caixas).

Documento composto (Processo)

Para os fundos documentais já referidos, e na presente fase de pré‐inventário,

não foi possível determinar este nível, tendo sido adotado o nível do documento

simples logo a seguir ao nível da unidade de instalação.

30 Neste processo, as representações digitais das fotografias aéreas são justapostas nas áreas coincidentes. Daqui resulta um mosaico (justaposição das várias fotografias), representando a localidade fotografada, submetido depois a um processo de ortorrectificação. Este consiste na correção digital das deformações advenientes da perspetiva da câmara fotográfica, da altitude ou da velocidade do avião/satélite, resultando numa projeção ortogonal de uma determinada área, sem efeitos de perspetiva, e através do qual seja possível realizar medições exatas (fonte: https://pt.wikipedia.org/wiki/Ortofotografia, consultada em 15 Set. 2015).

29

Documento simples (peça fotográfica/artigo)

Aqui, como documento simples foram considerados a peça fotográfica e o

artigo da revista e boletim. Mantendo a sua provisoriedade, para as peças fotográficas

do fundo documental dos álbuns fotográficos, o código de referência utilizado foi

"PT/DGT/MOPC/DGSU/DGSU‐Alb_.../DGSU‐Ft...". Para os artigos do fundo

bibliográfico, o código de referência utilizado foi " PT/DGT/MOPC/DGSU/DGSU‐

RevUrb…/RevUrb‐Art…". No caso das peças fotográficas do fundo documental das

fotografias aéreas, o código de referência utilizado foi "PT/DGT/MOPC/DGSU/DGSU‐

FotoAerea/DGSU‐FA….".

Definidos estes níveis de descrição para o pré‐inventário dos fundos

documentais que não detinham registos de descrição, apresenta‐se de seguida uma

panorâmica geral dos fundos documentais em estudo:

a) Fundo documental dos Instrumentos de Gestão Territorial (IGTs)

No presente momento, este fundo documental é constituído por cerca de 1480

processos administrativos e estudos de IGTs, nomeadamente de Planos Gerais de

Urbanização (PGU) / Planos de Urbanização (PU), Planos Diretores Municipais (PDM),

Planos de Pormenor (PP), Planos Parciais de Urbanização (PPU) e Planos Regionais de

Ordenamento do Território (PROT). As suas datas de produção iniciam‐se a partir dos

anos 30 do séc. XX, elaborados por vários autores, sejam eles os próprios técnicos das

Direções‐Gerais, arquitetos e engenheiros em nome individual ou gabinetes de

arquitetura e urbanismo.

Uma parte significativa das peças que constituem estes processos encontram‐

se já descritas numa base de dados denominada BD AH‐OTDU, nomeadamente cerca

de 3320 peças desenhadas (consideradas como elementos fundamentais), 1455 peças

escritas e ainda 8 pareceres do Conselho Superior de Obras Públicas e Transportes

(CSOPT). Constatou‐se que as descrições destes documentos não seguem as normas

de descrição ISAD(G), seguindo sim uma estrutura de dados concebida para o motor

de pesquisa online. Esta BD foi essencialmente concebida para divulgação online em

30

SNIT/AH‐OTDU31, com recurso à visualização em tecnologia Silverlight32. Esta BD segue

o modelo relacional, onde a informação se encontra distribuída por várias tabelas

(Autores, Entidade_Plano, Entidade_Livro, Entidade (peça desenhada), Concelho,

Distrito, entre outras) (Apêndice B).

Para o presente estudo, foi definida uma amostragem de representações

digitais de 174 peças desenhadas e 186 peças escritas (Apêndice C), provenientes de

147 processos de IGT, abrangendo 77 autorias. As suas datas de produção situam‐se

no período entre 1942 e 1989. A figura de IGT selecionada foi a dos Planos de

Urbanização (PU / PGU), pelo facto de os mesmos já se encontrarem disponíveis

online.

Partindo das tabelas disponíveis nesta BD, foi necessário desde logo trabalhar

com duas tabelas (em formato Excel) em separado ‐ uma destinada às peças

desenhadas e outra destinada às peças escritas, ambas com uma seleção de campos

mais representativos e mais próximos do estipulado pelas ISAD(G).

No caso da tabela das peças desenhadas, e por a sua descrição estar feita ao

nível do documento simples (peça desenhada), foi necessário acrescentar logo no

início campos de descrição da tabela dbo.Plano, que contém informações sobre o

processo de IGT (ao nível do documento composto). Assim sendo, os campos

escolhidos das tabelas da BD AH‐OTDU foram os descritos no Apêndice C.

Para a tabela das peças escritas, foram escolhidos menos campos, por a sua

descrição estar feita ao nível do documento composto. Mas, e à semelhança do que foi

31 O acesso a esta documentação é feito através de dois modos: pesquisa por subregião (http://www.dgterritorio.pt/sistemas_de_informacao/snit/arquivo_historico_de_planos__arquivo_historico_/pesquisa_por_subregiao/) e pesquisa por atributos (http://www.dgterritorio.pt/sistemas_de_informacao/snit/arquivo_historico_de_planos__arquivo_historico_/pesquisa_por_atributos/).

32 A sua tecnologia assenta numa estrutura aplicacional destinada a executar "rich internet aplications", muito semelhante à tecnologia utilizada pelo Adobe Flash. O seu web‐browser plug‐in destina‐se à visualização de vários tipos de multimédia ‐ imagem, vídeo, e animação. Propriedade da Microsoft, a versão 5 desta tecnologia era aceite na maioria dos web browsers em utilização. Contudo, o seu fim de vida foi anunciado em 2012, a possibilidade do seu uso em novas versões de web browsers terminou na primeira metade de 2015 e o fim oficial do suporte da tecnologia por parte da Microsoft está previsto para Outubro de 2021 (fonte: https://en.wikipedia.org/wiki/Microsoft_Silverlight, consultada em 15 Set. 2015). No contexto do SNIT/AH‐OTDU, a tecnologia Silverlight é utilizada para fins de visualização de imagem em zoom dinâmico.

31

feito para a tabela das peças desenhadas, aqui também foram acrescentados campos

de descrição da tabela dbo.Plano, a fim de ser mais fácil identificar a que unidade de

instalação as peças escritas pertenciam. Neste caso, os campos de descrição escolhidos

das tabelas da BD AH‐OTDU foram os enunciados no Apêndice C.

b) Fundo documental dos Equipamentos de Utilização Coletiva (EUC)

De momento, este fundo documental é constituído por cerca de 8044

processos que respeitam ao financiamento de Equipamentos de Utilização Coletiva

(EUC), como por exemplo quartéis de bombeiros, casas do povo e infraestruturas

desportivas. À semelhança do fundo documental dos IGT, a sua datação inicia‐se

também a partir dos anos 30 do séc. XX. Para além da documentação administrativa,

estes processos incluem também peças desenhadas e escritas, cuja inventariação não

foi possível fazer até ao presente momento, não se podendo aferir portanto o seu

número total e muito menos a sua autoria.

Ao contrário do já referido fundo documental dos IGTs, nada desta

documentação está digitalizada e disponível online. No entanto, existe uma BD (em

formato Access) com os registos referentes a estas unidades de instalação e que segue

o modelo relacional, composta por duas tabelas. As descrições da sua documentação

também não seguem o estipulado pelas normas de descrição ISAD(G) e ODA. A esta

faltam campos de informações ditas essenciais, tais como a autoria dos projetos e a

dimensão do processo. Por não haver representações digitais das suas peças

desenhadas e escritas, não foi concebido motor de pesquisa no SNIT/AH‐OTDU para

divulgar esta informação.

Neste caso, e para o presente estudo, foi definida uma pequena amostragem

de processos administrativos de EUC, nomeadamente 14 processos (a nível da unidade

de instalação) (Apêndice C) que, de certo modo, pudessem coincidir com outros

fundos documentais em análise, como já referido. As suas datas de produção situam‐

se no período entre 1948 e 1997. No caso desta BD, os campos de descrição escolhidos

foram os enunciados no Apêndice C.

32

c) Álbuns fotográficos respeitantes a esses equipamentos e outras obras

públicas

Tendo em atenção que o seu pré‐inventário (ao nível da unidade de instalação)

se encontra em desenvolvimento, de momento neste fundo documental foram

contabilizados 30 álbuns fotográficos. Destes álbuns, conseguiu‐se depreender que

parte significativa das suas peças fotográficas estão relacionadas com os processos de

EUC e IGT. Embora apenas algumas peças fotográficas tenham o seu autor indicado,

depreende‐se que as restantes peças tenha sido realizadas por técnicos da Direção‐

Geral, no âmbito de visitas de acompanhamento e fiscalização das obras e projetos de

urbanização.

Nenhuma desta documentação fotográfica está tratada e digitalizada. Por não

existirem de momento representações digitais das suas peças fotográficas, não foi

concebido motor de pesquisa no SNIT/AH‐OTDU para divulgar esta informação online.

Para o estudo em apreço, a amostragem definida abrange 56 registos de peças

fotográficas, descritas ao nível do documento simples, e cuja relação pudesse ser

estabelecida entre os processos de EUC e de IGT.

Já elaborada pela aluna no âmbito da presente dissertação de mestrado e

conforme as normas de descrição ISAD(G) e ODA, os campos de descrição utilizados na

folha de recolha de dados (FRD) desta amostragem encontram‐se descritos no

Apêndice C. A ISAD(G) é uma norma que contém regras gerais para a descrição

arquivística, podendo estas serem aplicadas independentemente da forma ou do

suporte dos documentos e serem adaptadas às necessidades específicas das

instituições. Dado que a inventariação deste fundo ainda se encontra no início, não se

viu a necessidade de adaptar o estipulado no modelo de descrição SEPIADES33.

33 A SEPIADES (SEPIA Data Element Set) consiste num conjunto de recomendações para catalogar coleções fotográficas, seguindo um modelo de descrição multinível. Para além dos 21 elementos de descrição base, contém mais sugestões para a utilização de outros elementos de descrição, mais detalhados e específicos. Estas recomendações foram desenvolvidas no âmbito do projeto SEPIA (Safeguarding European Photographic Images for Access). Tendo como objetivo a preservação e digitalização das coleções fotográficas, este projeto foi financiado pela União Europeia e decorreu de 1999 a 2003 (fonte: http://www.ica.org/7363/paag‐resources/sepiades‐recommendations‐for‐cataloguing‐photographic‐collections.html, consultado em 12 Set. 2015).

33

d) Fotografias aéreas de localidades, das décadas de 40 ‐ 50 do séc. XX

Este fundo documental é constituído por cerca de 12.000 fotografias aéreas,

cujos diapositivos se encontram fixados em chapas de vidro. Em termos geográficos,

estas fotografias cobrem uma parte significativa da área de Portugal continental,

estando as suas datas de produção compreendidas entre o final da década de 1930 e a

década de 1950. Estas peças fotográficas foram processadas por uma única entidade,

nomeadamente a SPLAL ‐ Sociedade Portuguesa de Levantamentos Aéreos, Lda.

Estas fotografias foram alvo de um processo de digitalização. No entanto, não

foi ainda possível submeter estas representações digitais a um processo de tratamento

de justaposição e mosaicagem. Para estas representações digitais, existe uma base de

dados feita num ficheiro em formato Excel, onde na descrição de cada fotografia aérea

se encontra a informação constante na caixa ou na capa de proteção de cada chapa de

vidro. À semelhança do que ocorre com as BD dos IGT e EUC, a descrição dos seus

registos (feitos a nível do documento simples) não seguem as normas de descrição

arquivística (ISAD(G) e ODA), mas este ficheiro contém os elementos identificativos

considerados importantes, tais como a data da captação, localidade, município, distrito

e número da chapa de vidro (fotografia).

Para divulgar online este fundo documental, chegou a ser concebido um outro

motor de pesquisa no SNIT/AH‐OTDU. Este motor de pesquisa consistia numa versão

mais simplificada do construído para o fundo documental dos IGT (em

disponibilização), devido aos poucos campos de descrição existentes. Por falta de

meios que possibilitassem o já referido tratamento de justaposição e mosaicagem,

este motor de pesquisa encontra‐se no presente momento desativado.

Para o desenvolvimento do presente estudo, a amostragem selecionada

consistiu em 17 registos de fotografias aéreas, correspondentes a 13 localidades34

(Apêndice C). Para a obtenção desta amostragem, e face aos constrangimentos já

relatados, estes registos foram descritos pela aluna no âmbito da presente dissertação

de mestrado tendo por base o eventual e hipotético resultado do já referido

34 A localidade "Évora" detém cinco registos, correspondentes a cinco voos, feitos em datas diferentes.

34

tratamento digital, correspondendo assim à aglutinação de 684 representações digitais

de fotografias aéreas em chapa de vidro.

Neste sentido, foi necessário criar uma nova tabela com os registos das

fotografias aéreas resultantes deste hipotético tratamento, desta vez elaborada

conforme as já referidas normas de descrição ISAD(G) e ODA. Os campos utilizados

foram os mesmos já referidos para o fundo documental dos Álbuns fotográficos (vide

Apêndice C).

e) Fundos Bibliográficos do AH‐OTDU

Esta coleção é proveniente dos acervos bibliográficos que constituíram os

Centros de Documentação / Bibliotecas, que foram prestando o seu apoio às

atividades exercidas pela Direcção‐Geral dos Serviços de Urbanização (DGSU) e as suas

sucessoras.

Tendo em conta os direitos de autor, apenas uma pequena parte deste fundo

bibliográfico foi alvo de digitalização e disponibilização online. Neste sentido,

encontram‐se disponíveis online 3 Relatórios35 e 16 Boletins36 da DGSU e ainda as 32

revistas "Urbanização"37 (revista do Centro de Estudos de Urbanismo e de Habitação

Engenheiro Duarte Pacheco (CEUHEDP)), em formato Adobe PDF. As suas datas de

publicação estão compreendidas entre 1945 a 1974.

Embora não estejam discriminados os seus índices e os respetivos artigos em

separado, o acesso a estas peças bibliográficas faz‐se através de página web própria,

não recorrendo portanto ao motor de pesquisa utilizado para os IGT. Tal facto

possibilita ao utilizador aceder mais rapidamente à página web da bibliografia

solicitada através do motor de pesquisa Google (ex.: pelos termos de pesquisa

35 Disponíveis online em: http://www.dgterritorio.pt/sistemas_de_informacao/snit/arquivo_historico_de_planos__arquivo_historico_/outros_documentos/#relatorios_da_direccao_geral_dos_servicos_de_urbanizacao__dgsu_.

36 Disponíveis online em: http://www.dgterritorio.pt/sistemas_de_informacao/snit/arquivo_historico_de_planos__arquivo_historico_/outros_documentos/#boletins_da_direccao_geral_dos_servicos_de_urbanizacao__dgsu_.

37 Disponíveis online em: http://www.dgterritorio.pt/sistemas_de_informacao/snit/arquivo_historico_de_planos__arquivo_historico_/outros_documentos/#urbanizacao___revista_do_centro_de_estudos_de_urbanismo_e_habitacao_engenheiro_duarte_pacheco.

35

"Boletins" e "D.G.S.U."). O mesmo já não acontece com os documentos consultados

através do motor de pesquisa construído para os IGT ‐ fazendo uma pesquisa no motor

de pesquisa Google por "Anteplano de Urbanização " "Fátima", o utilizador não

consegue aceder diretamente à página web do processo e peças documentais

pretendidas.

Para o presente estudo, a amostragem deste fundo documental incidiu nesta

bibliografia já disponível online, tendo sido feita uma seleção de artigos que pudessem

ter uma relação com os fundos documentais atrás referidos, nomeadamente através

dos seus autores ou dos projetos em si e as respetivas localidades. Desta seleção

resultou a escolha de 9 artigos: 8 artigos provenientes da revista "Urbanização" e

apenas um proveniente dos Boletins da D.G.S.U.. Para a elaboração da tabela

contendo estes registos foram utilizadas as normas de descrição arquivística ISAD(G) e

ODA. Assim, e à semelhança do já elaborado para as já referidas peças fotográficas, e

tratando os artigos como documentos simples, os campos utilizados foram os descritos

no Apêndice C.

3.2. Ponto único de acesso online do AH‐OTDU ‐ Definição da sua proposta

3.2.1. O modelo de dados EDM ‐ Análise SWOT

Para uma aplicação do modelo de dados EDM no desenvolvimento da presente

proposta de ponto único de acesso online, foi necessário executar primeiro a seguinte

análise SWOT, visando identificar os riscos a considerar e os problemas a resolver, bem

como as vantagens e as oportunidades a explorar, no âmbito do SNIT/AH‐OTDU.

36

A nível interno do SNIT/AH‐OTDU:

Pontos fortes (Strenghts) Pontos fracos (Weaknesses)

• Importância dos fundos documentais como fonte de informação e acesso aos mesmos por parte dos utilizadores

• Forte empenhamento na divulgação destes fundos documentais por parte das hierarquias superiores

• Experiência e conhecimento por parte dos técnicos da DGT do SNIT/AH‐OTDU

• Escassos recursos humanos com conhecimento e domínio de linguagens de programação informática

• Escassez de recursos financeiros, técnicos e tecnológicos (ex: ausência de scanner para trabalhos de digitalização de grandes formatos)

• Dependência de programas de apoio como recurso financeiro

• Inexistência de base de dados online com os registos de descrição da documentação dos restantes fundos (EUC, álbuns fotográficos da DGSU, fotografias aéreas do séc. XX)

Tabela 2: SNIT/AH‐OTDU ‐ Análise SWOT ‐ pontos fortes e pontos fracos

A nível externo do SNIT/AH‐OTDU:

Oportunidades (Opportunities) Ameaças (Threats)

• Tendência crescente para o reconhecimento da informação arquivística como essencial para a investigação e identidade das comunidades abrangidas

• Importância da informação arquivística de âmbito territorial para o reconhecimento de direitos e deveres

• Facilidade de compreensão da linguagem de programação subjacente ao modelo de dados EDM e sua aplicação

• EDM como modelo de dados concebido para a Web Semântica

• Oportunidade de divulgação dos fundos documentais a nível mundial através do Portal Europeana

• Programas de apoio financeiro ou logístico (Parcerias, Mecenato, Protocolos)

• Tecnologias de informação e comunicação open‐source

• Restrições à divulgação de parte dos fundos arquivísticos impostas pela legislação* (ex: proteção de dados pessoais) ou por condições estabelecidas nos protocolos de doação dos acervos

• Tendência decrescente do investimento na divulgação de documentação de cariz cultural, resultante da crise económica nacional

• Limitações no ingresso de novos técnicos nos quadros de pessoal da Administração Pública

• Desmembramento dos acervos documentais, por motivos de fusão / separação das instituições.

Tabela 3: SNIT/AH‐OTDU ‐ Análise SWOT ‐ oportunidades e ameaças

37

De frisar que na ameaça assinalada com (*), cumpre aqui referir que a

legislação pode atuar aqui não tanto como uma ameaça mas mais como uma eventual

condicionante à aplicação desta proposta. Na execução desta proposta, terá que se ter

em consideração não só a aplicação do Decreto‐Lei nº 16/93, de 23 de Janeiro (que

define o Regime Geral dos Arquivos e do Património Arquivístico), em especial o artigo

17º38. Neste sentido, e após análise jurídica com parecer positivo ou parcialmente

positivo, poder‐se‐á optar por várias alternativas de disponibilização da sua

informação. Tentando evitar o risco das "coleções escondidas"39, poderão ser

disponibilizados online apenas os metadados mais significativos das bases de dados em

apreço e a consulta dos seus processos ser feita por via presencial. Ou ainda, poder‐se‐

ão digitalizar e disponibilizar online apenas partes dos processos que não

comprometam os direitos acima referidos. Tomando como exemplo os processos

referentes aos EUC, apenas as digitalizações das peças desenhadas que contenham os

alçados dos edifícios poderiam eventualmente ser disponibilizados online.

3.2.2. Experiências realizadas

Com base nas leituras feitas e análise SWOT atrás referidas, para a aplicação do

modelo de dados EDM e o desenvolvimento do ponto de acesso online único para os

fundos documentais em apreço, foi delineado este primeiro esquema:

38 Sobre a comunicação do património arquivístico, sobretudo no que toca à proteção de dados pessoais, como referido neste artigo, no seu nº2: " Não são comunicáveis os documentos que contenham dados pessoais de carácter judicial, policial ou clínico, bem como os que contenham dados pessoais que não sejam públicos, ou de qualquer índole que possa afectar a segurança das pessoas, a sua honra ou a intimidade da sua vida privada e familiar e a sua própria imagem, salvo se os dados pessoais puderem ser expurgados do documento que os contém, sem perigo de fácil identificação, se houver consentimento unânime dos titulares dos interesses legítimos a salvaguardar ou desde que decorridos 50 anos sobre a data da morte da pessoa a que respeitam os documentos ou, não sendo esta data conhecida, decorridos 75 anos sobre a data dos documentos."

39 Tradução livre do termo "hidden collections" (Gracy, 2014, p. 11).

38

Fig. 3: Primeira proposta de estruturação do ponto de acesso online único

Neste esquema, planeou‐se a convergência para um único ficheiro Excel ("flat

file") dos dados constantes nas várias tabelas das amostragens do AH‐OTDU, para

depois ser convertido para RDF, seguindo o modelo de dados EDM. No entanto,

constatou‐se que esta primeira abordagem seria inviável, devido às características

específicas de cada amostragem:

Nem todas as amostragens detinham os mesmos campos de descrição. É

de relembrar que os campos de descrição das tabelas referentes às

amostragens das peças desenhadas e escritas dos IGT e dos processos EUC

são diferentes das tabelas das amostragens das peças fotográficas, vindas

dos levantamentos aéreos e dos álbuns, e os artigos dos fundos

bibliográficos. Enquanto que nestas últimas, a sua descrição já seguia as

normas de descrição ISAD(G) e as ODA, nas outras a informação é

proveniente de tabelas cuja descrição dos registos não estão estruturados

conforme estas normas;

Existem diferenças em termos do nível de descrição nas tabelas das

amostragens. No caso das amostragens das peças desenhadas e escritas

dos IGT, das peças fotográficas vindas dos álbuns e dos levantamentos

aéreos e dos artigos dos fundos bibliográficos, os seus registos encontram‐

se tratados ao nível do documento simples. No caso da amostragem dos

39

EUC, os seus registos encontram‐se tratados ao nível da unidade de

instalação, detendo por isso menos campos de descrição e menos detalhes

informativos do que as outras amostragens.

Face ao atrás exposto, foi necessário reformular a estruturação atrás

apresentada:

Fig. 4: Segunda proposta de estruturação do ponto de acesso online único

Neste novo esquema, a tabela com os registos de cada amostragem é

convertida para RDF individualmente. Após processamento da sua reconciliação com

os datasets disponíveis, a pesquisa por dados e "Linked Data" que lhes estejam

associados nestes RDFs poderá eventualmente ser feita através de um SPARQL

Endpoint40 disponível online. Neste sentido, julgou‐se necessário criar ou adaptar

campos de descrição existentes, tornando‐os comuns em todas as tabelas das

40 Um SPARQL Endpoint consiste num serviço assente no protocolo SPARQL, seguindo as especificações SPROT (SPARQL Protocol for RDF). Estes endpoints permitem aos utilizadores (humanos ou outros) pesquisar uma base de dados de conhecimento através da linguagem SPARQL. Os resultados desta pesquisa são geralmente devolvidos em um ou mais formatos processáveis pelas máquinas. Daí que o SPARQL Endpoint seja considerado como uma interface de pesquisa a bases de conhecimento mais "machine‐friendly". No entanto, quer a formulação das queries e quer a apresentação dos resultados de uma forma mais legível pelos humanos (human‐readable) deverão ser implementados pelo software em utilização e não ser feito manualmente pelos utilizadores humanos (fonte: http://semanticweb.org/wiki/SPARQL_endpoint.html, consultado em 12 Set. 2015).

40

amostragens em apreço, e que seguissem o estipulado nas Mapping Guidelines do

modelo EDM (Europeana, 2015a).

Assim, os campos de descrição definidos foram:

Campo de descrição comum para RDF

Classe/propriedade EDM Características (EDM)41

Planta_Nome Edm:ProvidedCHO / dc:title

O título / designação do objeto cultural (CHO) (propriedade obrigatória).

DataPlanta Edm:ProvidedCHO / dc:date

Destinado a indicar datas relevantes no ciclo de vida do objeto.

Plano_Nome Edm:ProvidedCHO / dcterms:isPartOf

Indicação do recurso onde o objeto cultural (CHO) está fisicamente ou logicamente integrado. Esta propriedade pode ser utilizada para objetos que façam parte de uma hierarquia42, a fim de serem corretamente apresentados no Portal Europeana.

Autor_Nome Edm:ProvidedCHO / dc:creator

Destinado a identificar o criador / autor do objeto43.

Ano44 Edm:ProvidedCHO / dc:date

Destinado a indicar datas relevantes no ciclo de vida do objeto.

LinkThumb Ore:Aggregation / edm:object

Indicação do URL para a representação digital do objeto cultural (CHO) destinado a pré‐visualização, para utilização do Portal Europeana.

LinkZoom Ore:Aggregation / edm:IsShownBy

Indicação do URL para a visualização na web da representação digital do objeto cultural (CHO) (propriedade obrigatória).

ID_Provider Edm:ProvidedCHO / dc:identifier

Destinado a indicar o identificador (código) do objeto cultural (CHO).

Ore:Aggregation / edm:aggregatedCHO

Indicação do identificador do objeto cultural (CHO) por si.

41 Segundo as Mapping Guidelines do modelo de dados EDM (Europeana, 2015a).

42 Em desenvolvimento pela Task Force sobre a representação hierárquica de objetos na Europeana (Europeana, 2015c).

43 Para esta propriedade, a Europeana recomenda a utilização de um ficheiro de autoridades.

44 A amostragem do fundo documental dos EUC não detém datas mais detalhadas sobre as suas peças, mas apenas a data em que foi feito o registo do seu processo. Neste sentido, julgou‐se pertinente apresentar só a indicação do ano. Dado que o modelo de dados EDM não contempla uma propriedade específica para indicação do ano em que o objeto foi criado, repetiu‐se a propriedade dc:date.

41



Aqui poderão ser utilizados os identificadores (IDs) internos (propriedade obrigatória).

Link_PagPD Edm:WebResource / dcterms:IsPartOf

Indicação da localização onde o recurso web do objeto cultural (CHO) se encontra fisicamente ou logicamente integrado. Esta propriedade pode ser utilizada para objetos que façam parte de uma hierarquia45, a fim de serem corretamente apresentados no Portal Europeana.

Ore:Aggregation / edm:isShownAt

Indicação do URL para a visualização na web da representação digital do objeto cultural (CHO) no seu contexto informacional (propriedade obrigatória, embora a sua utilização possa ser dispensada se estiver a ser utilizada o edm:isShownBy).

Coverage Edm:ProvidedCHO / dcterms:spatial

Destinado a indicar as características geográficas e localização a que o objeto reporta. (propriedade obrigatória, que poderá ser substituída pelas propriedades dc:type, dc:subject ou dc:coverage).

Description Edm:WebResource / dc:description

Indicação da descrição do objeto cultural (CHO) sobre a qual reporta a representação digital.

Format Edm:WebResource / dc:format

Indicação do formato da representação digital

Language Edm:ProvidedCHO / dc:language

Destinado a indicar o idioma utilizado no objeto cultural (propriedade obrigatória para objetos textuais e recomendada para as outras tipologias de objetos culturais que detenham este aspeto (ex: legendas)).

Type Edm:ProvidedCHO / edm:Type

Destinado a identificar a tipologia de objeto cultural (ex: texto, som), de preferência conforme listagem indicada pela Europeana (propriedade obrigatória).

Propriedade Ore:Aggregation / edm:dataProvider

Indicação do nome ou identificador da entidade / instituição que fornece os dados para a Europeana (propriedade obrigatória).

45 Em desenvolvimento pela Task Force sobre a representação hierárquica de objetos na Europeana (Europeana, 2015c).

42



Direitos_Europeana Ore:Aggregation / dc:rights

Indicação do estatuto e direitos da representação digital fornecida à Europeana46.

Provider Ore:Aggregation / edm:provider

Indicação do nome ou identificador da entidade / instituição que fornece diretamente os dados para a Europeana (propriedade obrigatória). Neste caso, e uma vez que a DGT já estava a ser referida na propriedade edm:dataprovider, foi aqui referido o SNIT/AH‐OTDU.

Tabela 4: Campos de descrição definidos para posterior processamento

no software OpenRefine

Para executar esta operação, recorreu‐se ao uso do software Open Refine, a fim

de criar e estruturar os RDFs das tabelas das amostragens (Apêndice E), e tentar

reconciliar a sua informação com os datasets disponíveis online.

Para além destes campos atrás referidos, foram mantidos os outros campos de

descrição provenientes das tabelas‐base, que continham mais detalhes sobre as peças

documentais em apreço (vide Apêndice D).

46 A Europeana sugere o edm:rights como propriedade obrigatória nesta classe. Contudo o mesmo não consta no vocabulário do prefixo EDM, pelo que foi utilizado o dc:rights.

43

Capítulo 4: Ponto único de acesso online do AH‐OTDU ‐ Resultados e discussão

4.1. Considerações sobre a estruturação dos RDF das amostragens em estudo

Para o fundo documental dos IGT (peças desenhadas e escritas), a estruturação

do RDF47 respeitando as hierarquias existentes (Fig. 5) seria a proposta mais

consistente, seguindo os exemplos propostos pela Task Force (Europeana, 2015b),

onde é recomendada a utilização da propriedade Edm:IsNextInSequence, a fim de ser

possível representar a sequência hierárquica das peças processuais.

No caso específico da amostragem do fundo documental dos IGT, quer as peças

desenhadas quer as peças escritas detêm uma sequência de apresentação definida ‐ e

que se encontra representada na numeração atribuída pelos próprios autores do

projeto. Na BD AH‐OTDU, esta numeração encontra‐se registada no campo de

descrição “ordenação”, que por sua vez torna possível a ordenação das representações

digitais destas peças aquando da apresentação das listagens das peças processuais nas

webpages correspondentes em SNIT/AH‐OTDU, mesmo para os casos das peças que

não tenham sido numeradas de origem.

47 Na estruturação RDF apresentada na fig. 5, estão representados os pareceres do Conselho Superior de Obras Públicas e Transportes (CSOPT). No entanto cumpre alertar que, aquando da fase de definição da amostragem do fundo documental dos IGT, nenhuma destas peças processuais foi contemplada, por o seu número de volumes ainda ser escasso.

44

Fig. 5: Proposta de estrutura RDF de um processo de IGT, adaptado do exemplo sugerido pela Task Force sobre a representação hierárquica de objetos no Portal Europeana

(Europeana, 2015c, p. 16)

No entanto, e mesmo detendo a informação sobre a sequenciação destas peças

documentais, não foi possível a aplicação desta estruturação em RDF, pela razão de

não existir uma página web autónoma do processo que mostre as peças processuais

por si contidas. No caso específico deste fundo documental (o único cuja maioria das

reproduções digitais das suas peças se encontra disponível online), a landing page48 do

processo em si corresponde à webpage das suas peças desenhadas ou das suas peças

escritas. Evidencia‐se aqui uma situação de “missing node” (“nó perdido”), na medida

em que o utilizador estabelece uma ligação direta com o processo através de uma

destas opções e não com uma webpage que apresente uma listagem ‐ com ligações

para todo o conteúdo deste processo.

48 No contexto do modelo de dados EDM, o termo landing page reporta ao recurso web de referência, onde o objeto cultural pode ser acedido (Europeana, 2014, pg. 37). De uma forma mais genérica, este termo designa uma página de entrada para aceder a um recurso online, de forma direta, tendo nascido no contexto das práticas de marketing online na Internet (fonte: https://en.wikipedia.org/wiki/Landing_page, consultada em 2015‐09‐25).

45

A fim de tentar solucionar esta situação, esta Task Force (Europeana, 2015b)

propõe a utilização de classes contextuais (skos:Concept, Edm:PhysicalThing), como

demonstrado na fig. 6.

Fig. 6: Estrutura RDF onde não está representada a classe ProvidedCHO em falta (à esquerda) e estrutura RDF onde a classe ProvidedCHO em falta foi substituída

por uma entidade contextual (à direita) (Europeana, 2015c, pg. 24).

No entanto, e como alertado pela própria Task force (Europeana, 2015c),

soluções como esta poderão conferir um maior grau de complexidade e desafios no

que toca ao desenvolvimento de interfaces de pesquisa e apresentação dos seus

resultados. Para além de outros eventuais problemas, são também referidos os casos

em que, ao utilizar estas entidades contextuais, as mesmas podem não deter

metadados suficientes para a sua estruturação.

Essa situação verifica‐se no caso da amostragem do fundo documental dos EUC,

onde a aplicação desta proposta seria difícil de provar, uma vez que não existem de

momento levantamentos das peças processuais que o constituem. Só existe mesmo

informação da unidade de instalação em si e nada referente às suas peças desenhadas

e escritas. Da base de dados existente deste fundo, faltam campos de descrição

declarados como obrigatórios pela ISAD(G) e pelo modelo de dados EDM

(edm:ProvidedCHO) ‐ como o campo de descrição destinado à autoria do processo e

respetivo projeto de arquitetura.

O mesmo ocorre com as restantes amostragens – por se encontrarem em fase

de pré‐inventário ‐ é de momento difícil determinar qual a sequência e hierarquia das

suas peças documentais.

46

4.2. Considerações sobre a reconciliação dos RDFs das amostragens com os

datasets "Linked Data" internacionais

Uma vez feita a estruturação RDF das amostragens já referidas, foram

processados os serviços de reconciliação de alguns dos seus campos com os datasets

"Linked Data" internacionais mais divulgados, nomeadamente o Freebase49, a

DbPedia50, o Sindice51 e o Geonames52, este último para os dados geográficos.

Apesar de estes datasets estarem disponíveis através de serviços de

reconciliação com ligação aos seus respetivos SPARQL Endpoints ou Service API,

surgiram dificuldades.

No caso da utilização dos datasets DbPedia, Freebase e Sindice, e decorridos os

serviços de reconciliação com os campos de descrição geográficos mais granulares

advindos da atomização do campo "Coverage" ‐ como os campos "Município" e

49 A Freebase é uma base de conhecimentos colaborativa, contendo dados criados pelos membros da

sua comunidade. Constitui‐se como uma coleção de dados estruturados online recolhidos de várias

fontes, incluindo contributos submetidos por utilizadores do Wiki. O seu objetivo assenta na criação de

um repositório global que possibilite um acesso mais eficaz à informação, quer por utilizadores quer por

máquinas (fonte: https://en.wikipedia.org/wiki/Freebase, consultado em 29 Ago. 2015).

50 A DBpedia consiste num motor de pesquisa que possibilita ao utilizador fazer queries mais complexas

sobre a informação estruturada existente na Wikipedia, incluindo ligações a recursos Linked Data (fonte:

http://pt.dbpedia.org/en/what‐is‐it, consultado em 29 Ago. 2015).

51 O Sindice apresenta‐se como um índice de pesquisa de documentos na Web Semântica. Faz a

indexação da Web Semântica, facultando informação sobre quais as fontes que mencionam um recurso

URI, IFP ou palavra‐chave. Este motor de pesquisa não devolve resultados de pesquisa por "triplas",

podendo no entanto ser utilizado para procurar fontes de informação RDF relevantes (fonte:

https://www.w3.org/2001/sw/wiki/Sindice, consultado em 29 Ago. 2015).

52 O Geonames consiste numa base de dados geográficos a nível global. Através do seu motor de

pesquisa, o utilizador consegue ter acesso à sua base de dados, que contém cerca de 10 milhões de

registos de nomes de localidades e cerca de 7,5 milhões de recursos (features). Todos estes recursos

encontram‐se distribuídos por 9 classes e depois subdivididos por 645 códigos (feature codes). Para

além de disporem dos nomes das localidades em vários idiomas, os seus registos também incluem a

latitude, longitude, elevação, população, subdivisões administrativas e códigos postais. Todas as

coordenadas aqui indicadas utilizam o sistema referencial geodésico World Geodetic System 1984

(WGS84). Cada recurso aqui providenciado é representado como um recurso web, identificado por um

URI estável. Este URI garante o acesso a uma página HTML da Wikipedia ou a uma descrição RDF do

recurso, utilizando elementos da ontologia Geonames. Com base nas ligações URL de artigos da

Wikipedia, contidas na descrição destes RDFs, os dados do Geonames estão ligados a registos da

DBpedia ou outros recursos em Linked Data RDF (fonte: https://en.wikipedia.org/wiki/GeoNames,

consultado em 29 Ago. 2015).

47

"Localidade", os resultados foram na sua maioria nulos. Tomando como exemplo o

caso da localidade "São João da Madeira", este foi confundido por "Gilberto, João "

(cantor) pelo dataset DBPedia.

Ainda recorrendo a estes datasets internacionais, e já no caso dos RDFs dos IGT

(peças desenhadas e peças escritas), nos campos destinados à indicação dos autores

do processo, os resultados da reconciliação com estes datasets foram nulos. Apenas o

dataset DBPedia contém registos sobre autores de projetos de arquitetura e

urbanismo, mas apenas os mais recentes, como por exemplo, Siza Vieira ou Eduardo

Souto de Moura ‐ autores estes que não constam nem nos registos das amostragens e

muito menos no espólio do AH‐OTDU até ao presente. Neste sentido, e a fim de poder

levar a cabo os testes, foi necessário criar um projeto Open Refine e ficheiro RDF à

parte, e depois integrar um novo serviço de reconciliação com base neste RDF,

designado por "Autores_OTDU", baseada numa tabela feita (em formato Excel)

(Apêndice F), onde constam os nomes dos autores que são referidos nas amostragens

e os links para as suas biografias. Poucos links para estas biografias foram recolhidos ‐

a sua recolha fez‐se através de pesquisa geral na web, dado que nem a própria

Wikipedia detém estas informações. Foi também consultado o website do motor de

pesquisa53 do Ficheiro Nacional de Autoridades Arquivísticas (FNAA)54, onde se

verificou que o mesmo ainda não detém estes dados de cariz biográfico sobre autores

de projetos de arquitetura e urbanismo do período temporal abrangido pelo AH‐OTDU.

A mesma situação se verificou com os campos destinados a indicar a autoria nos

restantes fundos documentais.

No caso específico do dataset Geonames, o seu website não disponibilizava um

SPARQL Endpoint directo. Uma vez que seria necessário envidar esforços a nível de

programação informática de maior complexidade para se poder ter acesso ao seu

53 Acedido em 28 de Abril de 2015, através do link http://autoridades.arquivos.pt/.

54 O FNAA tem como objetivo garantir a recuperação e o acesso às descrições das diferentes entidades lógicas que o integram, entre as quais entidades produtoras (pessoas coletivas, pessoas singulares e famílias, ativas ou extintas, na sua qualidade de produtoras da documentação de arquivo), entidades detentoras (Arquivos, Bibliotecas, Museus ou quaisquer outras entidades, desde que detentores de documentação de arquivo) e entidades aderentes à Rede Portuguesa de Arquivos (RPA) (fonte: http://arquivos.dglab.gov.pt/rede‐portuguesa‐de‐arquivos/fnaa/, consultado em 28 Abr. 2015).

48

Service API55, foi criado um serviço de reconciliação com base em ficheiro RDF,

utilizando o dataset de Portugal disponibilizado online pelo próprio Geonames. Uma

vez adicionado, foi corrido este serviço de reconciliação com o campo "Coverage", do

qual nada resultou. Dado que se mantiveram em todas as amostragens os campos

"País", "Distrito", Município" e "Localidade" (campos resultantes de uma atomização

do campo "Coverage", e que a respetiva informação aqui contida poderá ser

considerada como ponto de acesso nominal56), estes foram de seguida submetidos ao

mesmo processo de reconciliação ‐ que em nada resultou também. Daqui se deduz

que eventualmente, a sua reconciliação só seria possível quando feita através de

outros recursos de programação mais avançados, e após integração dos RDFs do AH‐

OTDU nas bases de dados do Portal Europeana. A fim de tentar continuar os testes, foi

necessário criar um projeto e ficheiro RDF à parte e depois integrar um novo serviço de

reconciliação com base neste RDF, denominado "Geonames_Select_Link", baseada

numa tabela feita (Apêndice G), que inclui a indicação dos permalinks57 (na sua maioria

com o nível "Admin1") para cada localidade, obtidos manualmente através de pesquisa

no próprio website do Geonames.org.

Face a estes resultados de reconciliação com datasets internacionais, e no

seguimento do já executado para a reconciliação de dados dos campos de descrição

destinados à autoria dos processos e aos dados geográficos, foram criados mais

serviços de reconciliação com base nos RDFs provenientes dos projetos Open Refine

dos próprios fundos documentais em análise, passando a partir daqui a serem os

testes operacionalizados em circuito interno. Com base nestes novos serviços, foram

feitos novos testes de reconciliação.

55 API corresponde ao acrónimo de Application Programming Interface. No contexto do dataset Geonames, o Service API constitui‐se como uma funcionalidade, disponível para programadores, através do qual estes conseguem criar aplicações que possam aceder a funcionalidades do serviço Geonames. O acesso, consulta e extração de conteúdos deste dataset podem assim ser feitos de uma forma automatizável por programação.

56 ODA, v.2, pg. 196 ‐ A entidade geográfica pode ser considerada um ponto de acesso nominal.

57 Designação abreviada para indicar os "permanent links", adotada pelo Geonames.org.

49

Assim sendo, para o projeto Open Refine dos IGT ‐ Peças desenhadas (total de

174 registos), os resultados foram:

Campos submetidos a reconciliação de dados

Serviço de reconciliação de dados utilizado

Resultados obtidos Novo campo criado (resultado da reconciliação)

Reconciliados Nulos

Plano_Nome IGT_Peças Escritas 82% 18% Plano_Nome_Recon_PEscritas

Autor_Nome Autores_OTDU 22% 78% AutorNome_ReconResult_Autores_OTDU

Coverage Geonames_Select_Link

0% 100% Não foi criado novo campo para acolher este resultado

Municipio Geonames_Select_Link

100% 0% Municipio_Recon_GeonamesSelect

Municipio Fotos Aéreas 10% 90% Municipio_Recon_FotosAereas

Localidade Geonames_Select_Link

88% 12% Localidade_Recon_GeonamesSelect

Localidade Fotos Aéreas 10% 90% Localidade_Recon_FotosAereas

Tabela 5: IGT ‐ Peças desenhadas ‐ Resultados do processamento de serviços de reconciliação

de dados, através do software OpenRefine

No projeto Open Refine dos IGT ‐ Peças escritas (total de 186 registos), os resultados

foram:




Reconciliados Nulos

Plano_Nome IGT_Peças Desenhadas

54% 46% Plano Nome_ReconcResult_PD

Autor_Nome Autores_OTDU 10% 90% AutorNome_ReconResult_AutoresOTDU




100% 0% Municipio_Recon_GeonamesSelect


50




Reconciliados Nulos


70% 30% Localidade_Recon_GeonamesSelect

Localidade Fotos Aéreas 0% 100% Não foi criado novo campo para acolher este resultado

Tabela 6: IGT‐Peças escritas ‐ Resultados do processamento de serviços de reconciliação de

dados, através do software OpenRefine

Cumpre aqui referir que, para estas duas amostragens, foram obtidos melhores

resultados com a reconciliação dos campos de descrição que reportassem aos dados

geográficos, atomizados do campo de descrição "Coverage" (os campos "Municipio" e

"localidade") e com os serviços RDF criados a partir da tabela criada com os links

Geonames.

Para o projeto Open Refine dos EUC (total de 14 registos), os resultados foram:




Reconciliados Nulos

Plano_Nome Geonames_Select_Link





100% 0% Municipio_GeonamesLink_ReconcResult



100% 0% Localidade_GeonamesLink_ReconcResult


Tabela 7: EUC ‐ Resultados do processamento de serviços de reconciliação de dados, através do

software OpenRefine

De referir que, nesta amostragem não existe o campo "Autor_Nome" mas sim o

campo "entidade_peticionária", com dados completamente distintos. Devido a este

facto, este campo não foi submetido a reconciliação de dados.

51

À semelhança do que ocorreu com as amostragens dos IGT, neste fundo foram

novamente obtidos melhores resultados com a reconciliação dos campos de descrição

referentes aos dados geográficos, resultantes da atomização do campo de descrição

"Coverage" (os campos "Municipio" e "localidade") e com os serviços RDF criados a

partir da tabela criada com os links Geonames.

No projeto Open Refine das peças fotográficas dos álbuns (total de 56 registos),

os resultados foram:




Reconciliados Nulos



EUC_Select_Equip 0% 100% Não foi criado novo campo para acolher este resultado









Unidades de descrição relacionadas

EUC_Select_Equip 0% 100% Não foi criado novo campo para acolher este resultado

Tabela 8: Peças dos álbuns fotográficos ‐ Resultados do processamento de serviços de

reconciliação de dados, através do software OpenRefine

Mais uma vez, e à semelhança das amostragens anteriores, os melhores foram

obtidos nos mesmos campos de descrição geográfica com os mesmos serviços RDF

atrás referidos. Reportaram‐se no entanto dificuldades em reconciliar com o serviço

RDF criado a partir das amostragens dos fundos documentais dos IGT e dos EUC. Ao

tentar fazer a reconciliação de dados do campo "Plano_Nome" com o serviço de

reconciliação "IGT‐Peças Desenhadas", pretendeu‐se testar se o mesmo seria possível,

52

tendo por base a indicação geográfica referida na designação do processo, mesmo

sabendo que os processos são distintos entre si. No caso da reconciliação de dados do

campo "Plano_Nome" com o serviço de reconciliação " EUC_Select_Equip", o mesmo

foi feito tendo por base duas indicações ‐ a localização geográfica e a tipologia de EUC ‐

presentes na designação do processo.

Para além do campo "Plano_Nome", foi também tentado reconciliar estes

serviços RDF com o campo "Unidades de Descrição relacionadas" (sugerido pelas

ISAD(G)), mas não foram obtidos resultados na mesma.

A provável razão poder‐se‐á prender com o facto de o conteúdo destes campos

não ser coincidente, ou seja, reportam ao mesmo processo mas a sua designação não

coincide. Outra causa poder‐se‐á prender com o excesso de informação contida nos

campos de descrição, feitos conforme o estipulado nas ISAD(G): o software em

utilização não é capaz de identificar palavras avulsas, identifica apenas a célula toda.

Neste caso, atomizar a informação contida nestes campos e distribui‐la por mais

campos poderia ser a solução – como já confirmado com a reconciliação dos campos

"Municipio" e "Localidade" (atomização do campo "Coverage"). No entanto, e

conforme os casos, tal poderia resultar num número infindável de campos. Seguindo

esta opção, aumentar‐se‐ia a complexidade do motor de pesquisa e das estruturas das

suas queries, necessárias para devolver e apresentar estes resultados ao utilizador,

uma vez que seria necessário contemplar todos os campos.

Para o projeto Open Refine das peças fotográficas aéreas (total de 17 registos),





Reconciliados Nulos

Plano_Nome Geonames_Select_Link

100% 0% Plano_Nome_GeonamesLink_ReconcResult



Concelho Geonames_Select_Link

100% 0% Concelho_GeonamesLink_ReconcResult

53




Reconciliados Nulos



Tabela 9: Peças fotográficas aéreas ‐ Resultados do processamento de serviços de reconciliação

de dados, através do software OpenRefine

Cumpre aqui referir que, ao proceder à reconciliação do campo

"Plano_Nome"58 com o serviço de reconciliação "Geonames_Select_Link", foi testada a

opção de correção sugerida pelo software Open Refine, nos casos dos registos dos

voos feitos em Évora em datas diferentes. A aplicação desta opção resultou em perda

de informação nestes registos ‐ manteve‐se a indicação da localidade a que o voo

reportava, mas perdeu‐se a indicação do número de voo, informação que ajudava a

fazer a distinção entre estes registos. Neste sentido, é de considerar a criação de um

novo campo que detenha por si só a informação do número de voo, ou então neste

caso específico ignorar a opção sugerida pelo software, uma vez que a reconciliação

dos campos "Municipio" e "Localidade" com o serviço de reconciliação

"Geonames_Select_Link" já cobrem a totalidade dos registos.

No projeto Open Refine dos artigos do fundo bibliográfico (total de 9 registos),





Reconciliados Nulos



Autor_Nome Autores_OTDU 89% 11% AutorNome_ReconResult_AutoresOTDU



58 A designação original deste campo era "título". A sua designação foi alterada para "Plano_Nome", a fim de a sua estrutura RDF estar consonante com as das outras amostragens.

54




Reconciliados Nulos





Tabela 10: Artigos do fundo bibliográfico ‐ Resultados do processamento de serviços de

reconciliação de dados, através do software OpenRefine

No que reporta ao resultado nulo da tentativa de reconciliação feita para o

campo "Plano_Nome" com o serviço de reconciliação "IGT_Peças Desenhadas", esta

deveu‐se ao facto de a estrutura do RDF que deu origem a este serviço assentar no

objeto em si (as peças desenhadas) e não no processo em si (o Plano). Neste sentido, e

para colmatar esta situação, seria necessário autonomizar a informação desta unidade

de instalação (o Plano), tendo uma webpage própria para cada processo, onde

estariam replicados os links para as suas peças processuais, á semelhança do que

ocorre no formato analógico. Tendo esta autonomização, e como já referido, seria

assim mais fácil estruturar um ficheiro RDF e serviço de reconciliação próprio que

eventualmente pudesse estabelecer ligações com o campo "Plano_Nome" presente

nas amostragens.

No caso do resultado obtido da reconciliação feita para o campo "Autor_Nome"

com o serviço de reconciliação "Autores_OTDU", cumpre alertar que nem todos os

autores dos artigos selecionados estavam contemplados na listagem que deu origem

ao RDF dos "Autores_OTDU".

Nos casos dos resultados obtidos da reconciliação feita para os campos

"Municipio" e "Localidade" com o serviço de reconciliação "Geonames_Select_Link",

para além de alertar que nem todos os artigos detinham a indicação do município a

que reportavam, existiam também situações extremas que não foram aceites pelo

software. Uma destas situações prende‐se com o registo do artigo identificado como

PT/DGT/MOPC/DGSU/DGSU‐RevUrb01/RevUrb‐Art00001, em que no campo de

descrição "Municipio" consta a indicação dos municípios abrangidos (vide Apêndice C):

55

Amarante; Baião; Felgueiras; Gondomar; Lousada; Maia; Marco de Canaveses;

Matosinhos; Paços de Ferreira; Paredes; Penafiel; Porto; Póvoa de Varzim; Santo Tirso;

Valongo; Vila do Conde; Vila Nova de Gaia; Amares; Barcelos; Braga; Cabeceiras de

Basto; Esposende; Fafe; Guimarães; Póvoa de Lanhoso; Terras de Bouro; Vieira do

Minho; Vila Nova de Famalicão; Vila Verde; Arcos de Valdevez; Caminha; Melgaço;

Monção; Paredes de Coura; Ponte da Barca; Ponte de Lima; Valença; Viana do Castelo;

Vila Nova de Cerveira; Arouca; Castelo de Paiva; Espinho; Santa Maria da Feira; Oliveira

de Azeméis; Ovar; São João da Madeira; Vale de Cambra; Cinfães; Resende.

Neste caso específico, e mesmo que o software aceitasse esta dimensão de

caracteres, a sua reconciliação de dados seria também difícil, pelas razões já

apresentadas anteriormente ‐ a muita informação contida neste campo. Como já

referido, uma solução provável seria distribuir e isolar cada referência de município em

seu campo (Ex: Municipio_01, Municipio_02, Municipio_NN), a fim de ser mais fácil a

sua reconciliação. Mas neste caso em especial, tal resultaria num aumento

considerável do número de campos (mais quarenta e nove), e eventualmente numa

maior complexidade em estruturar o seu RDF, a sua query em SPARQL e a

apresentação dos resultados de pesquisa ao utilizador.

4.3. Considerações sobre a fase de experiências com as queries de teste

processados no SPARQL Endpoint

Preparados os RDFs na fase anterior ‐ contemplando os novos campos

resultantes dos serviços de reconciliação de dados, iniciou‐se a fase de testes de

queries num SPARQL Endpoint, recorrendo para tal ao OpenLink Virtuoso SPARQL

Query Editor59 e tomando como referência os exemplos de expressões indicados pela

W3C60.

59 O seu acesso faz‐se através do link http://demo.openlinksw.com/sparql. O OpenLink Virtuoso é uma edição open source do Virtuoso Universal Reader, que por sua vez consiste num motor híbrido de middleware e bases de dados que combinam as funcionalidades de RDBMS, ORDBMS, bases de dados virtuais, RDF, XML, free‐text, servidor de aplicações web e servidor de ficheiros num único sistema. Foi desenvolvido pela OpenLink Software, tendo como chefes de arquitetura de software Kingsley Uyi Idehen e Orri Erling (Fonte: https://en.wikipedia.org/wiki/Virtuoso_Universal_Server, consultado em 13 Set. 2015).

60 SPARQL By Example ‐ Disponibilizado pelo W3C em http://www.w3.org/2009/Talks/0615‐qbe/ (Consultado em 02 Ago. 2015).

56

O primeiro teste incidiu sobre a amostragem referente às Peças desenhadas

dos IGT, amostragem que detém as reproduções digitais disponíveis online. Uma vez

colocado o seu ficheiro RDF em servidor web público, foram testadas várias queries.

Dos vários testes executados, a primeira a apresentar resultados satisfatórios foi a

seguinte:

PREFIX dcterms: <http://purl.org/dc/terms/>

PREFIX edm: <http://www.europeana.eu/schemas/edm/>

PREFIX ore: <http://www.openarchives.org/ore/terms/>

PREFIX dc: <http://purl.org/dc/elements/1.1/>

SELECT ?Plano_Nome ?Autor_Nome ?Planta_Nome ?LinkThumb ?LinkZoom

?Municipio_Recon_GeonamesSelect ?Type ?Coverage

WHERE

{ ?x dc:title ?Planta_Nome.

?x dc:creator ?Autor_Nome.

?x edm:type ?Type.

?x edm:object ?LinkThumb.

?x edm:isShownBy ?LinkZoom.

?x dcterms:isPartOf ?Plano_Nome.

?x dcterms:spatial ?Coverage

}

ORDER BY ?Planta_Nome

Tabela 11: IGT ‐ Peças desenhadas ‐ Expressão da query utilizada no

OpenLink Virtuoso SPARQL Query Editor

Neste resultado (vide Apêndice H), foi devolvida a informação presente em

todos os campos solicitados na expressão da query, exceto a informação presente no

campo "Municipio_Recon_GeonamesSelect". Por este campo resultar de um serviço

de reconciliação de dados, o mesmo não foi contemplado na estrutura RDF (vide

apêndice E) do ficheiro submetido a este teste. A fim de comprovar a visualização dos

dados deste campo, foi criado novo ficheiro RDF que o contemplasse na sua estrutura

RDF. Sobre este novo ficheiro RDF foram executadas novas queries no SPARQL

Endpoint já referido, mas com resultados não concludentes.

57

Capítulo 5: Reflexões finais e propostas para implementação do ponto único de

acesso online do AH‐OTDU

A eventual imaturidade do software Open Refine poderá ter contribuído para

estes resultados. É um software em constante desenvolvimento, recebendo por isso

bastantes incrementos, alterações e adaptações. Pesa aqui também o facto de facto de

ser software Open Source ‐ desenvolvido menos para o mercado mas mais a nível

académico, tendo em vista a sua fruição pelas instituições culturais, conhecidas pelos

seus fracos recursos financeiros no que toca à divulgação dos seus acervos e fundos

culturais.

Quanto ao modelo de dados EDM, mesmo lançado em 2012, também se

encontra em desenvolvimento. No entanto, é de frisar que a Europeana detém outros

meios para adaptar os dados que recebe das instituições culturais. Mesmo solicitando

a estas que os seus dados sejam remetidos já conformes com este modelo recente, a

própria Europeana detém meios informáticos e de programação próprios, que

possibilitam a correta integração destes nos seus datasets, para divulgação no seu

Portal. Determinadas classes e propriedades deste modelo de dados só conseguem ser

aplicadas nos dados recebidos pela própria Europeana, após essa integração.

De frisar que, no decurso dos testes dos RDFs das amostragens no SPARQL

Endpoint já referido, foi estabelecido contacto com o sector de desenvolvimento

informático da Europeana, a fim de indagar da disponibilização de um motor de

pesquisa / SPARQL Endpoint para os mesmos. Foi obtida resposta da inexistência

deste, mas verificou‐se, em meados de agosto do corrente ano, que a Europeana

disponibiliza online um SPARQL Endpoint, mas mais destinado à pesquisa dos dados já

integrados nas suas bases de dados.

Outro fator tido em conta foi a falta de datasets de dados Linked Open Data,

contendo registos de dados culturais portugueses, como foi verificado aquando da fase

de reconciliação dos dados das amostragens dos fundos documentais do AH‐OTDU

com os datasets internacionais (Freebase, DBPedia e Sindice). Tendo em atenção que,

no presente momento, o Portal Europeana divulga bastantes recursos culturais

58

portugueses61, foi feita uma pesquisa pelas entidades do estudo em apreço, mais

focado nos autores de projetos OTDU contemplados nas amostragens ‐ donde nada

resultou.

Neste sentido, cumpre aqui referir que, quer o motor de pesquisa inter‐

repositórios online disponibilizado através do Portal Português de Arquivos (PPA)62,

quer o motor de pesquisa online do Ficheiro Nacional de Autoridades Arquivísticas

(FNAA)63 se encontram desativados, não possibilitando por isso a eventual recolha de

informação e links para integração no ficheiro RDF "Autores_OTDU". É importante

salientar o potencial contributo que estes dois projetos de divulgação online de fundos

documentais portugueses (ou os seus sucedâneos) poderão vir a ter no futuro como

motores de disseminação de dados Linked Open Data.

A mesma situação se verificou com o dataset disponibilizado pelo

Geonames.org ‐ a sua ligação deverá ser possível através do Portal Europeana, após

integração dos dados AH‐OTDU nesta e processamento de reconciliação.

No que reporta à utilização das normas de descrição arquivística internacionais,

e como já referido anteriormente, a ISAD(G) é uma norma que contém regras gerais

para a descrição arquivística, podendo estas serem aplicadas independentemente da

forma ou do suporte dos documentos e serem adaptadas às necessidades específicas

das instituições. No entanto, e visando a reconciliação de dados Linked Data através do

software Open Refine, provou‐se ser mais fácil adaptar os campos de descrição

originais dos fundos documentais que já detinham registos na BD AH‐OTDU (ex: IGT ‐

peças desenhadas e peças escritas) e na BD‐EUC do que os campos de descrição dos

fundos documentais que foram feitos de origem conforme as ISAD(G) e as ODA (ex:

fotografias dos álbuns fotográficos).

61 Em consulta feita em 25 de Agosto de 2015, O Portal Europeana disponibilizava online 42459 registos (by providing country), na sua maioria provenientes do Registo Nacional de Objectos Digitais (RNOD), da Fundação Calouste Gulbenkian e da EuropeanaLocal ‐ Portugal.

62 Integrado na Rede Portuguesa de Arquivos (RPA), gerido pela DGLAB. O seu acesso faz‐se através do link http://portal.arquivos.pt/, mas este encontra‐se desativado (consultado a 25 Ago. 2015).

63 O seu acesso faz‐se através do link http://autoridades.arquivos.pt/, mas o mesmo encontra‐se desativado (consultado a 25 Ago. 2015).

59

Tendo em atenção de que o alerta para a necessidade de se ter de recorrer à

granularidade e subdivisão de campos de descrição já se encontra referida na terceira

versão das ODA64, nos casos das amostragens feitas com as ISAD(G), viu‐se a

necessidade de proceder à atomização de alguns campos. Por exemplo, foi necessário

subdividir o campo de descrição "Coverage" nos campos "País", "Distrito", "Município"

e "Localidade" ‐ o que facilitou a reconciliação com outros datasets. Com a informação

concentrada num só campo (como ocorria no campo "coverage"), no processo de

reconciliação provou‐se ser difícil o seu reconhecimento de dados pelo software.

Ainda no contexto deste estudo de caso, e visando uma melhoria de resultados

nos processos de reconciliação de dados Linked Data, recomenda‐se a criação de

webpages que detenham as informações das unidades de instalação / documentos

compostos respeitantes aos processos dos fundos documentais em apreço,

reconhecidas pela Europeana como landing pages. Como já referido, existindo uma

webpage própria para cada processo (ex: um Plano), onde estariam replicados os links

para as suas peças processuais (ex: peças desenhadas e peças escritas), à semelhança

do que ocorre no formato analógico, seria assim mais fácil estruturar um ficheiro RDF e

serviço de reconciliação próprio que eventualmente pudesse estabelecer ligações com

outros datasets. Esta autonomização beneficiaria os utilizadores, no sentido que estes

não só teriam a informação respeitante aos níveis da estrutura da descrição (conforme

indicados pelas ODA) e organização da documentação, como também veriam esta

replicada na apresentação dos resultados de pesquisa, facilitando assim a sua

navegação e pesquisa por correspondentes linked data dentro destas landing pages.

Neste estudo de caso, viu‐se a necessidade de lidar com fontes de informação

variadas e distintas umas das outras, face às características próprias de cada fundo

documental pertencente ao AH‐OTDU. Dessas características ressalta o facto de alguns

dizerem respeito a processos de arquitetura, urbanismo e obras (IGT e EUC), outros

respeitarem apenas a coleções fotográficas (os álbuns fotográficos e as fotografias

64 ODA, v.3, pg. 26: "Na prática, verifica‐se que uma maior granularidade de informação descritiva

contribui para a uma maior precisão, consistência, coerência e normalização da descrição. (…) Uma

maior granularidade permite igualmente taxas mais efetivas de recuperação de informação pertinente,

sobretudo tendo em conta a possibilidade de combinação, na pesquisa, de diferentes campos, bem como

a possibilidade de ordenação das ocorrências recuperadas."

60

aéreas) e ainda os fundos bibliográficos. É também de salientar que nem todos os

fundos documentais se encontravam descritos, e naqueles que já detinham registos de

descrição, estes não cumpriam o estipulado nas normas de descrição já referidas,

havendo até casos de falta de campos de descrição ditos fundamentais (ex. a indicação

dos autores). Neste sentido, e visando a conciliação destes universos informativos

diferentes e a seguir o modelo de dados EDM, foi necessária a criação de tabelas e

ficheiros RDF auxiliares (ex. Autores_OTDU), feitos manualmente, uma vez que não era

possível o alinhamento da sua informação com os datasets Linked Data já referidos.

Outra recomendação a sugerir é a adoção de soluções tecnológicas menos

dadas à obsolescência a curto e médio prazo e conducentes a uma maior

interoperabilidade. Isto prende‐se com o facto de o SNIT/AH‐OTDU recorrer à

tecnologia Silverlight, tecnologia esta que já não é suportada por algumas versões de

web browsers mais recentes, e para a qual já existe um fim anunciado para o seu

suporte65. Uma vez que o campo de descrição "LinkZoom" é de grande importância,

dado que é por este link que se tem acesso à visualização da representação digital da

peça documental pretendida, julga‐se necessário envidar esforços ou determinar

outros formatos de visualização mais duradouros antes da submissão destes dados à

Europeana. Tomando em consideração o facto de esse fim anunciado implicar

alterações na estruturação dos RDFs e na definição dos URIs, o facto de aqui se estar a

lidar com formatos de conteúdos complexos e dependentes de aplicativos para a sua

visualização, e a fim de evitar enormes custos ‐ quer financeiros, quer humanos, e

também em termos de preservação digital destes ‐ e mesmo considerando que não

seja fácil de todo determinar qual a melhor solução dada a rapidez da evolução

tecnológica, as opções possíveis poderiam passar pela adoção de tecnologias Open

Source e formatos de visualização normalizados e estáveis, menos dependentes de

fabricantes de software. Para este último, e mesmo considerando as leis de copyright,

a Europeana aqui teria a sua palavra ‐ mesmo recebendo apenas os metadados, é esta

65 Como já referido anteriormente, o seu fim de vida foi anunciado em 2012, a possibilidade do seu uso em novas versões de web browsers terminou na primeira metade de 2015 e o fim oficial do suporte da tecnologia por parte da Microsoft está previsto para outubro de 2021 (fonte: https://en.wikipedia.org/wiki/Microsoft_Silverlight, consultada em 15 Set. 2015).

61

instituição que acolhe os datasets e disponibiliza o link para visualização das

representações digitais provenientes das instituições aderentes.

Em termos da apresentação dos resultados, constatou‐se que o SPARQL

Endpoint utilizado não os apresenta de uma forma amigável para o utilizador. Não

sendo esse o intuito do presente estudo de caso, julgou‐se conveniente não envidar

pelo desenvolvimento de uma interface de apresentação de resultados de pesquisa,

uma vez que esta é considerada uma etapa de um processo complexo, para o qual são

necessários outros meios informáticos e de programação, deixando essa tarefa a cargo

da Europeana, instituição que detém estes meios.

62

Conclusão

Como nota final, com este estudo de caso comprovou‐se a complexidade do

procedimento destinado ao tratamento, adaptação para o modelo de dados EDM e

reconciliação dos dados do AH‐OTDU com os datasets Linked Data internacionais

existentes.

No entanto, cumpre aqui referir a importância de uma eventual participação da

Direção‐Geral do Território, através do SNIT/AH‐OTDU, no projeto do Portal

Europeana, podendo o presente trabalho constituir‐se como um ponto de partida para

um posterior desenvolvimento mais aprofundado. Mesmo tendo em consideração o

esforço financeiro, tecnológico e humano que esta adesão possa implicar, a mesma

trará benefícios, quer para a instituição, quer para o utilizador, e também como

contributo para as Humanidades Digitais (Digital Humanities).

Para além de a sua documentação ficar descrita conforme uma norma ou

orientação internacionalmente aceite, a instituição ganha visibilidade além‐fronteiras,

na medida em que a divulgação dos seus fundos é feita através de um portal agregador

europeu.

Para os utilizadores, principais beneficiários deste projeto, a pesquisa e acesso

digital a estes fundos documentais tornam‐se assim mais fácil e imediato. A partir do

momento em que a informação contida nos dados do AH‐OTDU esteja conciliada e

ligada com registos informativos de datasets de Linked Open Data, tal será outro

benefício para os utilizadores, na medida em que estes já não terão que saltar de

motor de pesquisa para outro motor de pesquisa, na senda da informação pretendida.

Por fim, e a fim de ser possível compreender o percurso histórico do

ordenamento do território e do desenvolvimento urbano português, salvaguardado

pela Direção‐Geral do Território e suas antecessoras, cumpre referir a importância e a

necessidade de os fundos documentais do AH‐OTDU serem digitalizados e divulgados

online. Assim, e tentando evitar ao máximo a existência de "coleções escondidas"

(hidden colections), através de todos estes meios e recursos, será possível preservar a

memória ‐ institucional, comunitária e até mesmo dos direitos e deveres dos cidadãos.

63

REFERÊNCIAS BIBLIOGRÁFICAS

BERMES, Emmanuelle (2011) ‐ Convergence and Interoperability: a Linked Data

perspective. [Em linha]. In: IFLA World Library and Information Congress, 77th. Puerto

Rico, 2011. Proceedings. [Consult. 20 mar. 2015]. Disponível na Internet <URL:

http://conference.ifla.org/past‐wlic/2011/149‐bermes‐en.pdf>

BIZER, Cristian; HEATH, Tom; BERNERS‐LEE, Tim (2009) – Linked data – the story

so far. [Em linha]. International Journal on Semantic Web and Information Systems.

[Consult. 20 mar. 2015]. Disponível na Internet: <URL

http://tomheath.com/papers/bizer‐heath‐berners‐lee‐ijswis‐linked‐data.pdf>

BORBINHA, José; FREIRE, Nuno (2010) ‐ Da “The European Library” à

“Europeana” – Um percurso com impulsos nacionais. [Em linha]. In: Actas do

Congresso Nacional de Bibliotecários, Arquivistas e Documentalistas, 10, Guimarães,

2010. [Consult. 13 ago. 2015]. Disponível na Internet <URL:

http://www.bad.pt/publicacoes/index.php/congressosbad/article/view/174/170>

CARMO, Hermano; FERREIRA, Manuela Malheiro (1998) ‐ Metodologia da

investigação : Guia para auto‐aprendizagem. [Em linha]. Lisboa : Universidade Aberta,

1998. [Consult. 15 set. 2015]. Disponível na Internet <URL:

http://pt.scribd.com/doc/74482416/Metodologia‐da‐Investigacao‐Hermano‐

Carmo#scribd>

CORTÊS, Cristina; RAPOSO, Rui (2012) ‐ A harmonização normativa em

Instituições de Memoria: os desafios e dificuldades na interoperabilidade. [Em linha].

In: Actas do Congresso Nacional de Bibliotecários, Arquivistas e Documentalistas, 11,

Lisboa, 2012. [Consult. 13 mar. 2015]. Disponível na Internet <URL:

http://bad.pt/publicacoes/index.php/congressosbad/article/view/435/pdf>

CONSELHO INTERNACIONAL DE ARQUIVOS (2002) – ISAD (G): Norma Geral

internacional de descrição arquivística. [Em linha]. 2.ª ed. Lisboa: IANTT, 2002. 97 p.

[Consult. 10 abr. 2015]. Disponível na Internet <URL:

http://arquivos.dglab.gov.pt/wpcontent/uploads/sites/16/2013/10/isadg.pdf>.

DIRECÇÃO GERAL DE ARQUIVOS (2007). PROGRAMA DE NORMALIZAÇÃO DA

DESCRIÇÃO EM ARQUIVO; GRUPO DE TRABALHO DE NORMALIZAÇÃO DA DESCRIÇÃO

64

EM ARQUIVO – Orientações para a Descrição Arquivística [Em linha]. 2ª versão. Lisboa:

Ministério da Cultura, DGARQ, 2007. [Consult. 10 ago. 2015]. Disponível em WWW:

<URL: http://arquivos.dglab.gov.pt/wp‐content/uploads/sites/16/2013/10/oda1‐2‐

3.pdf>

DIRECÇÃO GERAL DE ARQUIVOS (2011). GRUPO DE TRABALHO DA

NORMALIZAÇÃO DA DESCRIÇÃO EM ARQUIVO; GRUPO DE TRABALHO DE

NORMALIZAÇÃO DA DESCRIÇÃO EM ARQUIVO – Orientações para a Descrição

Arquivística. [Em linha]. 3ª versão. Lisboa: DGARQ, 2011. [Consult. 10 ago. 2015].

Disponível em WWW: <URL: http://act.fct.pt/wp‐content/uploads/2014/05/ODA‐3ª‐

versão.pdf>

EUROPEANA (2014) ‐ Definition of the Europeana Data Model v5.2.6.

Europeana Pro [Em linha]. 17. Dez. 2014. [Consult. 28 abr. 2015]. Disponível na

Internet: <URL:

http://pro.europeana.eu/files/Europeana_Professional/Share_your_data/Technical_re

quirements/EDM_Documentation/EDM%20Definition%20v5.2.6_01032015.pdf>

EUROPEANA (2015a) ‐ Europeana Data Model ‐ Mapping Guidelines v2.2.

Europeana Pro [Em linha]. Abr. 2015. [Consult. 28 abr. 2015]. Disponível na Internet:

<URL:

http://pro.europeana.eu/files/Europeana_Professional/Share_your_data/Technical_re

quirements/EDM_Documentation//EDM_Mapping_Guidelines_v2.2.pdf>

EUROPEANA (2015b) ‐ Hierarchical objects Task force ‐ Case study template:

The Montiano Family Archive. Europeana Pro [Em linha]. abr. 2015. [Consult. 28 abr.

2015]. Disponível na Internet: <URL:

http://pro.europeana.eu/files/Europeana_Professional/EuropeanaTech/EuropeanaTec

h_taskforces/Hierarchical_objects//The%20Montiano%20Family%20Archive.pdf>

EUROPEANA (2015c) ‐ Recomendations for the representation of hierarchical

objects in Europeana. Europeana Pro [Em linha]. abr. 2015. [Consult. 28 abr. 2015].

Disponível na Internet: <URL:

http://pro.europeana.eu/files/Europeana_Professional/EuropeanaTech/EuropeanaTec

h_taskforces/Hierarchical_objects//TF%20report%20V1.0%20PDF.pdf>

65

EUROPEAN COMISSION ON PRESERVATION AND ACCESS (2003) ‐ SEPIADES:

Recommendations for cataloguing photographic collections [Em linha]. Amsterdam,

2003. [Consult. 10 ago. 2015]. Disponível na Internet: <URL:

http://www.ica.org/download.php?id=1266>

FERROS, Luís Miguel, FILIPE, Susana; RAMALHO, José Carlos (2010) ‐ DigitArq e

o novo módulo de interoperabilidade OAI‐PMH. [Em linha]. In: Actas do Congresso

Nacional de Bibliotecários, Arquivistas e Documentalistas, 10, Guimarães, 2010.

[Consult. 13 mar. 2015]. Disponível na Internet <URL:

http://www.bad.pt/publicacoes/index.php/congressosbad/article/view/218/214>

GRACY, Karen f. (2014) ‐ Archival description and linked data: a preliminary

study of opportunities and implementation challenges . Archival Science [Em linha].

Fev. 2014. [Consult. 8 mar. 2015]. Disponível na Internet: <URL:

http://link.springer.com/content/pdf/10.1007%2Fs10502‐014‐9216‐2.pdf>

HEDEGAARD, Ruth (2003) – Benefits of Archives, Libraries and Museums

working together. [Em linha]. Comunicação apresentada ao World Library and

Information Congress: 69th IFLA General Conference and Council, Berlim, 1‐9 de

agosto de 2003 [Consult. 10 mar. 2015]. Disponível na Internet: <URL:

http://archive.ifla.org/IV/ifla69/papers/051e‐Hedegaard.pdf>

ISAAC, Anthoine; CLAYPHAN, Robina; HASHLOFER, Bernhard (2012) ‐

Europeana: Moving to Linked Open Data. ISQ ‐ Information Standards Quaterly [Em

linha]. Vol. 24 (Spring/Summer 2012). [Consult. 20 abr. 2015]. Disponível na Internet:

<URL: http://www.niso.org/apps/group_public/download.php/9407/IP_Isaac‐

etal_Europeana_isqv24no2‐3.pdf>

JORENTE, Maria José (2012) ‐ Archives information publishing new design in

post‐custodial regime: The National Archives Experience Digital Vaults. [Em linha].

Proceedings of the 16th International Conference on Electronic Publishing (Elpub

2012), Guimarães, 14‐15 June 2012. [Consult. 28 abr. 2015]. Disponível na Internet

<URL: http://ebooks.iospress.nl/publication/32004>

KIRCHHOFF, Thomas; SCHWELBENZ, Werner; SIEGLERSCHMIDT, Jöm, (2008) –

Archives, libraries, museums and the spell of ubiquitous knowledge. Archival Science

66

[Em linha]. Vol. 8, nº 4 (dez. 2008), p. 251‐266. [Consult. 10 mar. 2015]. Disponível na

Internet: <URL: http://link.springer.com/article/10.1007%2Fs10502‐009‐9093‐2>

MARCONDES, Carlos Henrique (2012) – "Linked Data" ‐ Dados interligados ‐ e

Interoperabilidade entre Arquivos, Bibliotecas e Museus Na Web. Encontros Bibli [Em

linha]. Vol. 17, nº 34 (mai. ‐ ago. 2012), p. 171‐192. [Consult. 13 mar. 2015]. Disponível

na Internet: <URL: http://www.redalyc.org/articulo.oa?id=14723061012>

SAYÃO, Luís Fernando ‐ Bibliotecas Digitais e suas utopias. Ponto de Acesso [Em

linha]. vol. 2, Nº 2 (2008) [Consult. 3 ago. 2015]. Disponível na Internet:<URL:

http://eprints.rclis.org/12823/1/bibliotecas‐digitais‐utopias‐final‐1‐06‐08.pdf>.

VAN HOOLAND, Seth; VERBORG, Ruben (2014) ‐ Linked Data for Libraries,

Archives and Museums. How to Clean, Link and Publish Your Metadata. Londres: Facet

Publishing. ISBN 978‐1‐85604‐964‐1

SOUZA, Renato Rocha; ALVARENGA, Lídia (2004) ‐ A Web Semântica e suas

contribuições para a ciência da informação. [Em linha]. Ciência da Informação, 2004,

vol. 33, nº 1, pp. 132‐141. ISSN 0100‐1965. [Consult. 20 mar. 2015]. Disponível na

Internet <URL: http://www.scielo.br/pdf/ci/v33n1/v33n1a16>

WINER, Dov; ROCHA, Ivan Esperança (2013) – Europeana: um projeto de

digitalização e democratização do patrimônio cultural europeu. Patrimônio e Memória

[Em linha]. UNSEP/São Paulo, Vol. 9, nº 2 (jan.‐ jun. 2013). [Consult. 13 mar. 2015].

Disponível na Internet: <URL:

http://pem.assis.unesp.br/index.php/pem/article/view/327/598>

67

LISTA DE FIGURAS OU ILUSTRAÇÕES

Figura 1: As três "classes de base": uma Aggretation com um ProvidedCHO e o seu

WebResource ....................................................................................................................... 21

Figura 2: Exemplo de um ProvidedCHO com dois recursos contextuais ........................... 22

Figura 3: Primeira proposta de estruturação do ponto de acesso online único ............... 38

Figura 4: Segunda proposta de estruturação do ponto de acesso online ......................... 39

Figura 5: Proposta de estrutura RDF de um processo de IGT, adaptado do exemplo

sugerido pela Task Force sobre a representação hierárquica de objectos no Portal

Europeana ............................................................................................................................ 44

Figura 6: Estrutura RDF onde não está representada a classe ProvidedCHO em falta (à

esquerda) e estrutura RDF onde a classe ProvidedCHO em falta foi substituída por uma

entidade contextual (à direita) ............................................................................................ 45

68

LISTA DE TABELAS

Tabela 1: Sumário das vantagens / desvantagens dos diferentes modelos de dados,

adaptado de Van Holland e Verborgh (2014, p. 51) ........................................................... 15

Tabela 2: SNIT/AH‐OTDU ‐ Análise SWOT ‐ pontos fortes e pontos fracos ........................ 36

Tabela 3: SNIT/AH‐OTDU ‐ Análise SWOT ‐ oportunidades e ameaças .............................. 36

Tabela 4: Campos de descrição definidos para posterior processamento no software

OpenRefine ........................................................................................................................... 40

Tabela 5: IGT‐Peças desenhadas ‐ Resultados do processamento de serviços de

reconciliação de dados, através do software OpenRefine ................................................. 49

Tabela 6: IGT‐Peças escritas ‐ Resultados do processamento de serviços de reconciliação

de dados, através do software OpenRefine ........................................................................ 49

Tabela 7: EUC ‐ Resultados do processamento de serviços de reconciliação de dados,

através do software OpenRefine ......................................................................................... 50

Tabela 8: Peças dos álbuns fotográficos ‐ Resultados do processamento de serviços de


Tabela 9: Peças fotográficas aéreas ‐ Resultados do processamento de serviços de


Tabela 10: Artigos do fundo bibliográfico ‐ Resultados do processamento de serviços de


Tabela 11: IGT ‐ Peças desenhadas ‐ Expressão da query utilizada no OpenLink Virtuoso

SPARQL Query Editor ........................................................................................................... 56

69

LISTA DE ANEXOS

(Em separado, gravado em CD)

Apêndice A ‐ História da evolução administrativa e organizacional das instituições que

antecederam a ex‐Direcção‐Geral do Ordenamento do Território e

Desenvolvimento Urbano (DGOTDU) (trabalho realizado pela aluna no

âmbito da U.C. História das Instituições) (páginas 1 a 14)

Apêndice B ‐ Base de dados AH‐OTDU ‐ Tabelas do fundo documental dos IGT e suas

relações (printscreens) (páginas 15 a 16)

Apêndice C ‐ Definição das amostragens dos fundos documentais do AH‐OTDU:

Registos de descrição selecionados das bases de dados /registos de

descrição dos pré‐inventários feitos (páginas 17 a 49)

Apêndice D ‐ Processamento dos dados das amostragens dos fundos documentais no

software OpenRefine: Campos de descrição alterados e adicionados

(resultantes dos serviços de reconciliação executados) e respetivos

registos (páginas 50 a 121)

(amostra exemplificativa na pg. 71 deste documento)

Apêndice E ‐ Estruturas RDF das amostragens dos fundos documentais (processados

através do Software OpenRefine) (páginas 122 a 127)


Apêndice F ‐ Ficheiro RDF auxiliar "Autores_OTDU": Quadro dos campos de descrição

utilizados no software OpenRefine e estrutura RDF (páginas 128 a 129)

Apêndice G ‐ Ficheiro RDF auxiliar "Geonames_Select_Link": Quadro dos campos de

descrição utilizados no software OpenRefine e estrutura RDF (páginas 130

a 133)


Apêndice H ‐ Amostragem do fundo documental dos IGT ‐ Peças desenhadas: Teste de

query de pesquisa no OpenLink Virtuoso SPARQL Query Editor ‐ Janela da

query submetida e resultados obtidos (página 134)

70

ANEXOS (amostras exemplificativas)

Apêndice D ‐ Processamento dos dados das amostragens dos fundos documentais no

software OpenRefine: Campos de descrição alterados e adicionados (resultantes dos

serviços de reconciliação executados) e respetivos registos

71

1) Amostragem do fundo documental dos IGT ‐ Peças Desenhadas

Designação original do campo de descrição

Nova designação / Novo campo de descrição criado

Descrição do seu conteúdo

dbo_Entidade.Nome Planta_Nome Designação da peça desenhada.

DataPlanta (manteve‐se a sua designação original)

Indicação da data da peça desenhada, segundo o formato aaaa‐mm‐dd (ano‐mês‐dia).

dbo_Plano.Nome Plano_Nome Designação do IGT (processo) (a nível da unidade de instalação).

‐ Plano_Nome_Recon_PEscritas

Novo campo criado a partir do resultado de reconciliação de dados do campo de descrição Plano_Nome com o dataset IGT Peças Escritas

dbo_Autor.Nome Autor_Nome Autoria do IGT

‐ AutorNome_ReconResult_Autores_OTDU

Novo campo criado a partir do resultado de reconciliação de dados do campo de descrição Autor_Nome com o dataset Autores_OTDU

Ano (manteve‐se a sua designação original)

Ano em que a elaboração do IGT foi finalizada.

Ordenacao (Campo de descrição não utilizado nestes testes)

Número de ordem da digitalização na correspondente página online.

NumeroProcessoDGOTDU (Campo de descrição não utilizado nestes testes)

Número identificador do IGT (Processo) no Arquivo dos IGT da DGT (formato analógico).

‐ LinkThumb Indicação do link para visualização do thumbnail da reprodução digital do documento

‐ LinkZoom Indicação do link para visualização da reprodução digital do documento recorrendo à tecnologia Silverlight

PlanoID ID_Provider_Plano Identificador único do IGT (processo) a que a peça documental pertence. Neste caso, à informação existente foi adicionado a designação "#IGT_XXX", para identificação do processo do qual o documento faz parte

Apêndice E ‐ Estruturas RDF das amostragens dos fundos documentais (processados

através do Software OpenRefine)

72

1) Amostragem do fundo documental ‐ IGT ‐ Peças Desenhadas: Estrutura RDF

(software OpenRefine)

Apêndice G ‐ Ficheiro RDF auxiliar "Geonames_Select_Link": Quadro dos campos de

descrição utilizados no software OpenRefine e estrutura RDF

73

Ficheiro RDF auxiliar "Geonames_Select_Link ": Quadro dos campos de descrição

utilizados no software OpenRefine

ID_Localidade

Nome_Localidade1

Nome_Localidade2

Distrito Concelho DTCC Geonames_Link

1 ABRANTES ABRANTES Santarém

Abrantes 1401 http://www.geonames.org/8010594/abrantes.html

2 ALTER DO CHÃO

ALTER DO CHÃO Portalegre

Alter do Chão

1201 http://www.geonames.org/6930689/alter‐do‐chao.html

3 AROUCA AROUCA Aveiro Arouca 104 http://www.geonames.org/8010416/arouca.html

4 ARRAIOLOS ARRAIOLOS Évora Arraiolos 702 http://www.geonames.org/8010499/arraiolos.html

5 ARRAIOLOS Vimieiro Évora Arraiolos 702 http://www.geonames.org/2261569/vimieiro.html

6 AVEIRO AVEIRO Aveiro Aveiro 105 http://www.geonames.org/8010417/aveiro.html

7 BEJA BEJA Beja Beja 205 http://www.geonames.org/8010436/beja.html

8 BRAGA BRAGA Braga Braga 303 http://www.geonames.org/8010448/braga.html

9 CASTELO BRANCO

CASTELO BRANCO

Castelo Branco

Castelo Branco

502

http://www.geonames.org/8010473/castelo‐branco.html

10 COIMBRA COIMBRA Coimbra Coimbra 603 http://www.geonames.org/8010483/coimbra.html

arquivo histórico desenvolvimento urbano (ah de da de em da e da … · europeana data model (edm)...

Documents