arquivo histórico desenvolvimento urbano (ah de da de em da e da … · europeana data model (edm)...
TRANSCRIPT
Arquivo Histórico do Ordenamento do Território e Desenvolvimento Urbano (AH‐OTDU) ‐ Proposta de ponto único de acesso online
Maria Joana Ferreira da Rosa da Cruz Diniz
Outubro, 2015
Dissertação de Mestrado em Ciências da Informação e da Documentação ‐ Área de especialização em Arquivística
Dissertação apresentada para cumprimento dos requisitos necessários à
obtenção do grau de Mestre em Ciências da Informação e da Documentação
‐ Área de especialização em Arquivística, realizada sob a orientação científica
da Professora Doutora Maria de Lurdes Pereira Rosa e do Dr. João Paulo da
Costa Amado
ii
Aos meus Pais,
por toda a motivação, sacrifícios feitos e apoio prestado …
iii
AGRADECIMENTOS
Agradeço à Professora Doutora Maria de Lurdes Rosa e ao Dr. João Paulo da
Costa Amado pela orientação científica, disponibilidade providenciada e as pistas e
conselhos fornecidos, durante os meses em que esta dissertação foi elaborada.
Gostaria também de agradecer à Direção‐Geral do Território pela oportunidade
e acesso providenciado aos fundos documentais que constituem o Arquivo Histórico
do Ordenamento do Território e Desenvolvimento Urbano (AH‐OTDU).
Os meus agradecimentos vão igualmente para os meus colegas de turma, por
todo o seu companheirismo nesta "caminhada".
Por fim, agradeço aos meus pais, por todo o apoio prestado nesta etapa do
meu percurso académico.
Joana Cruz Diniz
Lisboa, outubro de 2015
iv
ARQUIVO HISTÓRICO DO ORDENAMENTO DO TERRITÓRIO E DESENVOLVIMENTO
URBANO (AH‐OTDU) ‐ PROPOSTA DE PONTO ÚNICO DE ACESSO ONLINE
MARIA JOANA FERREIRA DA ROSA DA CRUZ DINIZ
RESUMO
A presente tese de mestrado aborda as questões levantadas pela utilização de pontos únicos de acesso online a recursos documentais de natureza variada e diferenciada (Arquivos e Bibliotecas). As abordagens de‐facto existentes para o acesso a tais recursos dependem de uma pluralidade de bases de dados e interfaces de pesquisa, que dificultam significativamente a compreensão dos acervos históricos como um todo, bem como a sua manutenção e, portanto, custos acrescidos. Nesta tese, é feito um estudo de caso, onde é analisada a viabilidade da utilização do Europeana Data Model (EDM) ‐ atualmente em uso no Portal Europeana ‐ e da sua possível aplicação no Arquivo Histórico do Ordenamento do Território e Desenvolvimento Urbano (AH‐OTDU). Este arquivo é atualmente detido pela Direção‐Geral do Território, sendo que apenas uma parte se encontra disponível online através do Sistema Nacional de Informação Territorial (SNIT/AH‐OTDU) desde 2007. Esta tese estrutura‐se da seguinte forma: inicia‐se com uma análise comparativa de textos centrados em trabalhos relacionados com os pontos únicos de acesso online e a abordagem Linked Data como alternativa no âmbito da convergência digital das Bibliotecas, Arquivos e Museus; é depois apresentado o Europeana Data Model (EDM) e discutidos os vários aspectos levantados pela sua aplicação no AH‐OTDU. Como conclusão, são apresentadas recomendações e possíveis soluções, tendo em vista uma futura implementação do EDM no SNIT/AH‐OTDU.
PALAVRAS‐CHAVE: Arquivo histórico, Linked Data, Europeana Data Model (EDM), Ordenamento do território, Desenvolvimento urbano
v
THE HISTORICAL ARCHIVE OF SPATIAL PLANNING AND URBAN DEVELOPMENT
(AH‐OTDU) ‐ A PROPOSAL FOR AN ONLINE SINGLE POINT OF ACCESS
MARIA JOANA FERREIRA DA ROSA DA CRUZ DINIZ
ABSTRACT
This master thesis addresses the issues raised by single‐point online access of documentation resources with varied and differentiated nature (Archive and Library). The de‐facto approaches to such resources rely on a plurality of databases and search interfaces significantly hampering the understanding of historical archives as a whole as well as its maintainability and hence cost. In this thesis we perform a feasibility study of the use of the Europeana Data Model (EDM) currently in use in the Europeana portal as a case‐study of a possible implementation to the Historical Archive of Spatial Planning and Urban Development (AH‐OTDU). This archive has been held by the Directorate General of Territorial Development, part of this collection has been accessible online through the National System of Territorial Information (SNIT/AH‐OTDU) since 2007. This thesis is structured as follows: we begin with a comparative analysis of related work naturally focusing on work regarding online single points of access and the Linked Data approach as an alternative within the digital convergence of Libraries, Archives and Museums; we then present, the Europeana Data Model (EDM) and discuss the various aspects raised by its use with the AH‐OTDU. We conclude by presenting recommendations and possible solutions regarding a future implementation of the EDM to the SNIT/AH‐ODTU.
KEYWORDS: Historical Archive, Linked Data, Europeana Data Model (EDM), Spatial planning, Urban development
vi
ÍNDICE
Introdução ............................................................................................................................... 1
Capítulo 1: Problemática e metodologia seguida .................................................................. 4
1.1. Apresentação e definição da problemática e objetivos da dissertação .................. 4
1.1.1. Apresentação e definição da problemática ..................................................... 4
1.1.2. Objetivos da dissertação .................................................................................. 4
1.2. Metodologia seguida ................................................................................................. 5
Capítulo 2: Revisão da Literatura ........................................................................................... 7
2.1. Pontos únicos de acesso online ‐ Antecedentes e motivos ..................................... 7
2.2. A Internet dos Dados e os Linked Data ................................................................... 12
2.3. Linked Data e as instituições culturais ‐ o Projecto Europeana e o modelo de
dados EDM ...................................................................................................................... 19
Capítulo 3: Ponto único de acesso online do AH‐OTDU ‐ Definição da sua proposta ........ 23
3.1. O Arquivo Histórico do Ordenamento do Território e Desenvolvimento Urbano
(AH‐OTDU) ...................................................................................................................... 23
3.1.1. Breve história da entidade produtora ‐ Direcção‐Geral do Ordenamento do
Território e Desenvolvimento Urbano (DGOTDU) ................................................... 23
3.1.2. O AH‐OTDU ‐ História custodial e arquivística ............................................... 25
3.1.3. O AH‐OTDU ‐ Caracterização dos fundos documentais alvo do estudo e
definição da sua amostragem .................................................................................. 26
a) Fundo documental dos Instrumentos de Gestão Territorial (IGTs) ..................... 29
b) Fundo documental dos Equipamentos de Utilização Coletiva (EUC) .................. 31
c) Álbuns fotográficos respeitantes a esses equipamentos e outras obras públicas ..
.................................................................................................................................. 32
d) Fotografias aéreas de localidades, das décadas de 40 ‐ 50 do séc. XX ................ 33
e) Fundos Bibliográficos do AH‐OTDU ..................................................................... 34
vii
3.2. Ponto único de acesso online do AH‐OTDU ‐ Definição da sua proposta ............. 35
3.2.1. O modelo de dados EDM ‐ Análise SWOT ...................................................... 35
3.2.2. Experiências realizadas .................................................................................. 37
Capítulo 4: Ponto único de acesso online do AH‐OTDU ‐ Resultados e discussão ............. 43
4.1. Considerações sobre a estruturação dos RDF das amostragens em estudo ........ 43
4.2. Considerações sobre a reconciliação dos RDFs das amostragens com os datasets
"Linked Data" internacionais ......................................................................................... 46
4.3. Considerações sobre a fase de experiências com as queries de teste processados
no SPARQL Endpoint ....................................................................................................... 55
Capítulo 5: Reflexões finais e propostas para implementação do ponto único de acesso
online do AH‐OTDU .............................................................................................................. 57
Conclusão .............................................................................................................................. 62
REFERÊNCIAS BIBLIOGRÁFICAS ............................................................................................ 63
LISTA DE FIGURAS OU ILUSTRAÇÕES ................................................................................... 67
LISTA DE TABELAS ................................................................................................................. 68
LISTA DE ANEXOS .................................................................................................................. 69
ANEXOS (amostras exemplificativas) ................................................................................... 70
viii
LISTA DE ABREVIATURAS
AH‐OTDU ‐ Arquivo Histórico do Ordenamento do Território e Desenvolvimento
Urbano
BD AH‐OTDU ‐ Base de Dados do Arquivo Histórico do Ordenamento do Território e
Desenvolvimento Urbano
CHO ‐ Cultural Heritage Object
DGOTDU – Direcção‐Geral do Ordenamento do Território e Desenvolvimento Urbano
DGSU ‐ Direcção‐Geral dos Serviços de Urbanização
DGT – Direcção‐Geral do Território
EDM ‐ Europeana Data Model
EUC ‐ Equipamentos de Utilização Coletiva
FRD ‐ Folha de recolha de dados
IGT – Instrumentos de Gestão Territorial
ISAD(G) ‐ General International Standard Archival Description (Norma Geral
Internacional de Descrição Arquivística)
MOPC ‐ Ministério das Obras Públicas e Comunicações
ODA ‐ Orientações para a Descrição Arquivística
OWL ‐ Web Ontology Language
RDF ‐ Resource Description Framework
SKOS ‐ Simple Knowledge Organization System
SNIT/AH‐OTDU – Sistema Nacional de Informação Territorial / Arquivo Histórico do
Ordenamento do Território e Desenvolvimento Urbano
SPARQL ‐ Simple Protocol and RDF Query Language
TIC – Tecnologias de Informação e Comunicação
URI ‐ Universal Resource Identifier
W3C ‐ World Wide Web Consortium
1
Introdução
A presente dissertação de Mestrado foi desenvolvida no âmbito do Mestrado
em Ciências da Informação e da Documentação ‐ Área de especialização em
Arquivística, a decorrer na Faculdade de Ciências Sociais e Humanas da Universidade
Nova de Lisboa, tendo como objetivo elaborar uma proposta de ponto único de acesso
online para o Arquivo Histórico do Ordenamento do Território e Desenvolvimento
Urbano (AH‐OTDU), fundamentada em análise e reflexão teórica arquivística. Mesmo
sendo a aluna funcionária da instituição que detém este arquivo, a investigação aqui
realizada teve o aval da sua direção superior, que autorizou o acesso aos seus dados e
fontes documentais, quer em termos da sua história institucional, quer em termos dos
problemas levantados, visando a sua colmatação.
O AH‐OTDU constitui‐se como uma importante fonte de informação sobre a
história, teorização, desenvolvimento e aplicação das matérias relacionadas com o
ordenamento do território, urbanismo e arquitetura em território português, ocorridas
desde meados da década de 1940 do século passado.
Muito ligada às atividades e competências exercidas pelas instituições que
antecederam a atual Direção‐Geral do Território (DGT), a documentação presente nos
fundos que constituem este acervo ‐ de arquivo e bibliográficos ‐ detém uma natureza
especial, nomeadamente tipologias documentais variadas, entre as quais peças
desenhadas e escritas, fotografias e publicações.
Com o lançamento do Sistema Nacional de Informação Territorial (SNIT), em
2007, são disponibilizados online, em SNIT/AH‐DGOTDU (hoje SNIT/AH‐OTDU)
representações digitais de parte deste acervo histórico, nomeadamente alguns
processos de Instrumentos de Gestão Territorial (IGT) e algumas monografias do seu
fundo bibliográfico, cada um recorrendo a um modo de acesso diferente, derivado dos
formatos de visualização então escolhidos.
Face a esta situação, e antevendo a necessidade de disponibilizar futuramente
as representações digitais dos restantes fundos documentais, foram definidos como
problemática e objetivos desta dissertação de mestrado a elaboração de uma proposta
de ponto único de acesso online, visando a agregação a nível digital da informação
2
contida nestes fundos documentais, de tipologias variadas e diferenciadas, e a sua
disponibilização online de uma forma integrada e recorrendo a um único motor de
pesquisa, tentando evitar a dispersão de bases de dados e a multiplicidade de motores
de pesquisa, facilitando assim o acesso deste conhecimento aos utilizadores.
O presente trabalho encontra‐se dividido em quatro capítulos. No primeiro
capítulo, para além da definição da problemática e objetivos da dissertação já acima
referidos, é também apresentada a metodologia adotada. Esta baseou‐se na
caracterização dos fundos documentais em estudo e definição das suas amostragens,
na análise da literatura sobre a temática em investigação e estudos de caso, e na
experimentação da aplicação do modelo de dados tendente à convergência digital
destas fontes informativas.
O segundo capítulo compreende a revisão de literatura. Tomando por base a
opinião de vários autores, são apresentados os antecedentes e motivos que
conduziram ao surgimento dos pontos únicos de acesso online e a problemática da
convergência digital da informação presente em Arquivos, Bibliotecas e Museus. É
também feita a explanação dos Linked Data, e a apresentação do estudo de caso da
aplicação destes a instituições culturais, nomeadamente o Portal Europeana e o seu
modelo de dados EDM (Europeana Data Model), como alternativa viável para o estudo
em apreço.
No terceiro capítulo, é apresentada a aplicação da metodologia proposta para o
trabalho em apreço. Para além de uma breve história sobre a entidade produtora, são
caracterizados os fundos documentais do AH‐OTDU alvo do estudo e definidas as suas
amostragens. É feita uma Análise SWOT sobre a aplicação do modelo de dados EDM no
presente estudo. Na explanação das experiências realizadas, são apresentados os
campos de descrição utilizados (em apêndice) das amostragens atrás definidas e
correspondentes estruturas RDF, destinados ao processo de reconciliação com os
datasets Linked Data internacionais.
O quarto capítulo destinou‐se à apresentação das considerações decorrentes
da fase de experiências realizadas, tomando por base os resultados obtidos na
reconciliação dos dados das amostragens com os já referidos datasets Linked Data e
ainda os testes de queries no SPARQL Endpoint escolhido.
3
Face ao atrás exposto, no quinto capítulo, e por fim na conclusão, são
destacados vários aspetos do desenvolvimento da proposta em estudo, e são feitas
recomendações e apresentadas possíveis soluções, visando a sua resolução e não
descurando a eventual integração futura de outros fundos documentais de cariz
histórico.
4
Capítulo 1: Problemática e metodologia seguida
1.1. Apresentação e definição da problemática e objetivos da dissertação
1.1.1. Apresentação e definição da problemática
A presente dissertação de Mestrado pretende fazer um estudo de caso, que
consistirá na elaboração de uma proposta de ponto único de acesso online, visando a
agregação a nível digital da informação dos documentos de arquivo e bibliográficos
presentes nos fundos documentais do Arquivo Histórico do Ordenamento do Território
e Desenvolvimento Urbano (AH‐OTDU), provenientes da ex‐Direcção‐Geral do
Ordenamento do Território (DGOTDU), e detidos hoje pela Direcção‐Geral do
Território (DGT). Visando a sua disponibilização online de uma forma integrada e
recorrendo a um único motor de pesquisa, esta proposta constituir‐se‐á como um
contributo para o Sistema Nacional de Informação Territorial / Arquivo Histórico do
Ordenamento do Território e Desenvolvimento Urbano (SNIT/AH‐OTDU).
A justificação e importância deste estudo de caso prende‐se com o interesse e
aprofundamento de conhecimentos sobre a temática da agregação de conteúdos e
convergência digital ‐ temática atual e em desenvolvimento ‐ e a aplicação destas
matérias na elaboração da proposta acima referida.
A pergunta de partida definida foi "como fazer a agregação de conteúdos
digitais de documentação variada numa base de dados ligada a um motor de
pesquisa". Neste âmbito, várias problemáticas foram levantadas, nomeadamente
como descrever a documentação e registar os seus metadados, integrar e relacionar
documentação de cariz histórico dos fundos documentais citados e de diferentes
tipologias documentais ‐ peças desenhadas e escritas, fotografias ‐ e sua
disponibilização no meio digital, que neste caso é o motor de pesquisa online
disponibilizado em SNIT/AH‐OTDU, tentando evitar a dispersão de bases de dados.
1.1.2. Objetivos da dissertação
Muito ligados à temática do ordenamento do território, urbanismo e
arquitetura, os fundos documentais e bibliográficos que compõem o acervo do AH‐
OTDU são constituídos por tipologias documentais variadas, tais como peças
desenhadas, peças escritas e fotografias.
5
Com este estudo, e com base na recolha de pequenas amostragens de
documentos dos vários fundos documentais e suas tipologias documentais que
compõem este arquivo histórico, assim como a sua descrição feita ao nível das
unidades de instalação / documentos compostos, e ainda a aplicação experimental do
melhor modelo de dados, pretendeu‐se elaborar uma proposta de agregação a nível
digital da informação destes fundos documentais de arquivo e bibliográficos, visando a
convergência da informação digital proveniente dessa base de dados e a sua
disponibilização online de uma forma integrada, recorrendo a um único motor de
pesquisa.
1.2. Metodologia seguida
A presente dissertação de Mestrado incidirá sobre os fundos documentais de
arquivo e bibliográficos pertencentes ao AH‐OTDU e ainda sobre a base de dados AH‐
OTDU (em SQL Server) que alimenta o motor de pesquisa em SNIT/AH‐OTDU.
A metodologia adotada adquiriu uma natureza compósita, partindo de
diferentes modos de recolha e interpretação dos dados. Baseou‐se na
experimentação, amostragem dos fundos documentais supra citados e análise da
literatura (nacional e internacional) sobre a temática em investigação. Neste sentido,
foram feitas pesquisas bibliográficas e leituras, destinadas à revisão de literatura e
estudo de casos. Tendo por base estas leituras, foi feita ainda uma análise SWOT sobre
a aplicação do modelo de dados utilizado pela Europeana ‐ o Europeana Data Model
(EDM)1 ‐ no SNIT/AH‐OTDU.
Para a definição das amostragens, e antevendo o possível inter‐relacionamento
desta documentação aquando da fase de testes da reconciliação de dados com
datasets Linked Data, foi adotada a técnica de amostragem por conveniência2. Neste
sentido, foram selecionadas, analisadas e recolhidas pequenas amostragens de
registos de descrição (em folhas de recolha de dados (FRD)), já feitos para uma parte
da documentação dos fundos documentais acima indicados, vindos da Base de Dados
1 Modelo de dados em desenvolvimento pela Europeana.
2 Para uma breve descrição desta técnica de amostragem, vide nota de rodapé no ponto "3.1.3. O AH‐OTDU ‐ Caracterização dos fundos documentais alvo do estudo e definição da sua amostragem".
6
AH‐OTDU, e que detivessem dados informativos em comum, tais como a autoria e a
localização geográfica do processo. Seguindo o mesmo critério de seleção, para os
elementos das amostragens que não detinham registos de descrição feitos, foi
elaborado o seu pré‐inventário, em FRD conforme as orientações indicadas na
ISAD(G)3 (Norma Geral Internacional de Descrição Arquivística) e nas ODA4
(Orientações para a Descrição Arquivística).
Uma vez concluídos estes pontos de trabalhos e obtidos os ficheiros contendo
estas FRD (em formato Excel), para definir a proposta de estrutura de base de dados
passível de ser usada no motor de pesquisa online convergente, recorreu‐se ao
software Open Refine5, a fim de criar os projetos (experimentais) e correspondentes
ficheiros RDF conforme as orientações estabelecidas no Mapping Guidelines do
modelo de dados EDM, e reconciliação com datasets "Linked Data" existentes. Para
testar a pesquisa destes dados reconciliados e a sua convergência, recorreu‐se a uma
interface de testes de queries num SPARQL Endpoint, designado OpenLink Virtuoso
SPARQL Query Editor 6.
3 Desenvolvida pelo International Council on Archives (ICA), a ISAD(G) (General International Standard Archival Description), é uma norma que estabelece orientações gerais para a descrição arquivística, devendo a sua utilização ser conjugada com as normas nacionais existentes, ou servir de base para o seu desenvolvimento (ISAD(G), v. 2, pg. 9).
4 As ODA (Orientações para a Descrição Arquivística) foram desenvolvidas com a finalidade de dotar a comunidade arquivística portuguesa com um instrumento de trabalho em consonância com as normas de descrição internacionais, como a ISAD(G). Estas orientações pretendem assim contribuir para a criação de descrições consistentes da documentação de arquivo e dos seus produtores e coleccionadores, visando facilitar a pesquisa e a troca de informação a nível nacional e internacional (ODA, v.2, pg. 16).
5 O software Open Refine (anterior Google Refine) consiste numa ferramenta para trabalhar com dados de várias naturezas. Possibilita a sua limpeza, conversão para outros formatos, ampliando a sua versatilidade com recurso a serviços web e conectá‐los a bases de dados online (Linked Data) (fonte: http://openrefine.org/index.html).
6 Disponível em http://demo.openlinksw.com/sparql.
7
Capítulo 2: Revisão da Literatura
2.1. Pontos únicos de acesso online ‐ Antecedentes e motivos
A convergência entre Bibliotecas, Arquivos, Museus e outras instituições
culturais tem vindo a adquirir bastante importância, num mundo cada vez mais digital.
Não é de esperar que os utilizadores compreendam e aceitem os limites
organizacionais existentes entre estas instituições, uma vez que o seu principal
interesse reside na aquisição da informação e não de onde esta é proveniente. Neste
sentido, os utilizadores desconhecem se a informação provém de um livro presente
numa biblioteca, da descrição de uma peça de museu ou de um documento de arquivo
(Hedegaard, 2003, p. 2; Bermes, 2011, p. 2).
Apelidadas de "Instituições de Memória", pelo facto de manterem e
organizarem os registos referentes à memória cultural e intelectual das comunidades e
povos que servem (embora com diferentes regras de tratamento e organização da
informação relativa aos seus materiais e documentação), as bibliotecas, arquivos e
museus partilham um objetivo comum: a preservação e disponibilização desta herança
cultural. Este objetivo comum é maximizado pela utilização da Internet, que potencia a
divulgação da sua informação e a visibilidade destas mesmas instituições. Face a este
novo meio de divulgação, estas instituições viram‐se na necessidade de concretizar
projetos de digitalização dos seus acervos e disponibilizar online as suas bases de
dados (Kirchhoff, Schwelbenz e Sieglerschmidt, 2008, p. 252; Bermes, 2011, p. 2;
Cortês e Raposo, 2012, p. 1).
Com as mudanças introduzidas pelas Tecnologias de Informação e
Comunicação (TIC), são também desenvolvidas novas interfaces de pesquisa digitais,
levando a que os instrumentos de pesquisa pré‐existentes (guias, catálogos,
inventários) ganhassem novos meios e recursos, possibilitando assim ao utilizador uma
maior interação e novos usos da informação depositada nestas instituições (Jorente,
2012, p. 53).
Embora reportando apenas aos arquivos históricos, segundo Jorente (2012, pg.
53), para estas instituições estas mudanças potenciaram um novo significado social
mais alargado, seguindo um novo paradigma pós‐custodial – onde cada utilizador
8
consegue aceder, investigar e reconstruir coleções virtuais, criando assim “caminhos”
únicos para a apropriação dos conteúdos informacionais e históricos.
O paradigma custodial assentava na detenção da custódia da documentação e
património público e administrativo por parte das instituições (fossem eles Arquivos
ou Bibliotecas), estas criadas no seguimento das alterações administrativas trazidas
pela Revolução Francesa. Como tal, é um modelo paradigmático que assenta muito no
espaço físico, no edifício, seguindo um ideal muito assente no positivismo (Ribeiro,
2005 apud Jorente, 2012, p. 59).
Com os recentes desenvolvimentos ao nível das TIC, este paradigma custodial
sofreria adaptações, levando a que fosse preconizado um paradigma pós‐custodial.
Neste novo modelo, as restrições físicas tenderão a ser superadas, na medida em que
é providenciado o acesso à informação que antes só era possível através da consulta
presencial da documentação feita pelo utilizador (Jorente, 2012, p. 53).
Pode dizer‐se que a convergência entre estas instituições não é considerada
uma ideia recente – em 1934 Paul Otlet (1868‐1944), bibliotecário belga e fundador do
Mundaneum, descrevia na sua obra “Traité de Documentation” um cenário de
convergência entre estas três instituições, onde os metadados sobre os acervos destas
“instituições de memória” estariam organizados, classificados e localizados num ponto
central, podendo ser acedidos pelos utilizadores via televisão. Neste cenário, e
segundo a documentação por si deixada, Otlet considerava todo o tipo de informação
– texto, objetos, registos sonoros, entre outros ‐ utilizando como instrumento de
recuperação da informação a classificação destes objetos segundo a Classificação
Decimal Universal (CDU), revelando também alternativas de representação desta
informação, bem como dos possíveis relacionamentos entre classes de objetos
(Kirchhoff, Schwelbenz e Sieglerschmidt, 2008, p. 252‐253; Jorente, 2012, p. 53; Sayão,
2008, p. 4).
Estas experiências tiveram continuidade no futuro. O Projecto Memex, criado
por Vannevar Bush em 1945, visava ser um amplificador da memória, e consistia numa
solução que suportasse quer o armazenamento quer a recuperação da informação,
tendo a capacidade de relacionar e ligar diferentes documentos entre si, criando aquilo
9
que viria a ser chamado por “multimodalidade” (Jorente, 2012, p. 53; Sayão, 2008, p.
4).
Na continuação do desenvolvimento deste conceito de “multimodalidade”, na
década de 1960, Douglas Engelbart criou o oN‐LINE System (NLS), um “workspace”
colaborativo que, mais tarde veio a ser considerado o primeiro sistema colaborativo a
operar num ambiente digital. Recorrendo a links e utilizando um dispositivo apontador
concebido especificamente para essa funcionalidade, ao qual designaram “rato”, a
interação do utilizador era feita através da seleção dos temas, que depois seriam
organizados de acordo com a sua importância no contexto requerido, e apresentados
em várias “janelas” (Jorente, 2012, p. 54).
Decorrente desta experiência, e defendendo que os computadores aumentam
a compreensão graças á complexidade da organização e estruturação da informação,
através do seu relatório denominado "Augmenting human intellect: a conceptual
framework" (1962), Engelbart salienta o aspeto de descontinuidade nas formas
tradicionais de acesso ao conhecimento até aí existentes (Jorente, 2012, p. 54).
Esta ideia de descontinuidade seria retomada em 1965 por Theodor Nelson,
quando apresenta o conceito de Hipertexto (Hypertext), através do Projeto Xanadu.
Este projeto consistia num sistema de hipertexto e de bases de dados de documentos
interligados, cuja conceção e software possibilitava visualizar um texto e as suas
ligações num monitor. Na visão do hipertexto defendida por Nelson, este novo meio
de divulgação eletrónico, destinado ao ensino e partilha, deveria suportar ligações bi‐
direcionais7 e oferecer meios para uma reutilização correta (Jorente, 2012, p. 54;
Sayão, 2008, p. 4‐5).
No seguimento desta experiência, em 1990 Tim Berners‐Lee desenvolveu a
World Wide Web. Este novo sistema foi considerado como uma versão mais complexa
do Projeto Xanadu, mas foi bastante criticada por Eric Drexler, devido à sua linearidade
e ligações mono‐direcionais. Neste contexto de crítica da Web, Drexler defendia que
7 O conceito de ligações bi‐direcionais é mais adiante referido por Drexler, já no contexto do hipertexto completo (full hipertext). Segundo este autor, enquanto que o semi‐hipertexto (semi‐hypertext) apenas suporta apontadores (pointers) e referências (references), que só podem ser seguidos numa única direção, o hipertexto completo deve suportar ligações que possam ser seguidas em duas direções (bi‐direcionais) (fonte: http://e‐drexler.com/d/06/00/Hypertext/HPEK1.html, consultado em 9 Set. 2015).
10
um hipertexto completo deveria suportar ligações que pudessem ser seguidas em duas
direções. No entanto, certo é que esta mesma Web acabou por gerar e desenvolver
uma cultura de partilha de informação ‐ ainda presente nos nossos dias ‐ bem como
revolucionado os meios de divulgação desta mesma informação (Jorente, 2012, p. 54).
Ainda neste contexto, em 2004, foi identificada uma segunda fase na vida da
Web, ganhando a designação "Web 2.0"8, no decorrer daquela que viria a ser chamada
por "Conferência Web 2.0"9. Apesar das controvérsias levantadas, acredita‐se que a
Web 2.0 ressaltou algumas qualidades, tais como a interatividade, partilha e
colaboração (Jorente, 2012, p. 54).
Neste contexto, e sob pena de se constituírem como "silos" isolados uns dos
outros, e isolados do mundo digital providenciado pela Internet, as bibliotecas,
arquivos e museus vêm‐se na necessidade de adotar e seguir uma estratégia conjunta
para a divulgação do seu património cultural (Kirchhoff, Schwelbenz e Sieglerschmidt,
2008, p. 255; Bermes, 2011, p. 2).
Existem vários motivos que podem fundamentar esta estratégia. A primeira
prende‐se com o facto de grande parte do património cultural estar localizado em
acervos pertencentes a mais do que uma instituição (ex: fotografias, documentos de
arquivo, entre outros), e às vezes em localizações geográficas distantes entre si. São
também de considerar as dificuldades de acesso à informação devido às barreiras
linguísticas e os diferentes contextos culturais (Hedegaard, 2003, p. 2).
Outra razão ‐ e talvez a mais importante ‐ prende‐se com a falta de normas
comuns a estas três instituições. Uma vez que os modelos de representação da
8 A Web 2.0 é caracterizada pela utilização de websites que destacam a usabilidade, interoperabilidade e a disponibilização de conteúdos criados pelos próprios utilizadores (user‐generated content). Contrastando com os websites onde os utilizadores apenas visualizam os seus conteúdos, na Web 2.0, os utilizadores recorrem a um diálogo assente nos media sociais, e interagirem e colaboram entre si como criadores dos seus próprios conteúdos, inseridos numa comunidade virtual. Blogs, wikis, websites de partilha de vídeos, redes sociais (ex: Facebook), folksonomias e mashups são considerados exemplos demonstrativos da Web 2.0 (Fonte: https://en.wikipedia.org/wiki/Web_2.0, consultado em 9 Set. 2015).
9 O nome desta conferência começou por ser "Web 2.0 Conference", mais tarde designada por "Web 2.0 Summit". Organizada pela empresa O'Reilly Media, a primeira conferência foi realizada em San Francisco (EUA) em 5‐7 de Outubro de 2004, acreditando‐se que foi aqui que foi utilizado pela primeira vez o termo "Web 2.0" por Tim O'Reilly (fonte: https://en.wikipedia.org/wiki/Web_2.0_Summit, consultado em 21 Ago. 2015).
11
informação adotados por cada instituição diferem entre si, a coexistência destes acaba
por ser posta em causa, uma vez que tal resulta em dificuldades na partilha de dados e
na interoperabilidade na comunicação da informação presente nas suas bases de
dados e repositórios digitais, aquando da recuperação da informação feita através de
uma pesquisa simultânea. Como resultado disso, os utilizadores vêm‐se obrigados a
"percorrer" várias bases de dados, utilizando diferentes interfaces de pesquisa,
devolvendo resultados de pesquisa que seguem diferentes normas de indexação e
descrição da informação (Hedegaard, 2003, p. 2; Bermes, 2011, p. 5; Cortês e Raposo,
2012, p. 1).
Neste sentido, e uma vez que os utilizadores estão familiarizados com a
utilização de motores de pesquisa da Internet (Bermes, 2011, p. 2), uma das opções
que estas instituições poderão adotar a fim de fomentar esta convergência, poderá
passar pela criação de "pontos únicos de acesso", motores de pesquisa online para os
quais convergem as informações presentes nas várias bases de dados, ajudando a
diminuir o risco de o utilizador perder fontes de informação. Daqui poderão decorrer
várias vantagens para o utilizador, nomeadamente a utilização de uma interface online
única ligada a várias bases de dados culturais, providenciando uma uniformidade nos
resultados de pesquisa devolvidos e reduzindo o “ruído”, redundância e falta de
precisão nos termos utilizados (Kirchhoff, Schwelbenz, Sieglerschmidt, 2008, p. 255).
No entanto, e como já referido, para alcançar esta convergência, é necessário
um esforço de conciliação dos modelos de normalização da informação utilizados por
estas entidades, conducentes à sua interoperabilidade (Bermes, 2011, p. 5; Cortês e
Raposo, 2012, p. 1).
No caso das bibliotecas, o seu modelo de dados assenta em dois conceitos
básicos: os registos bibliográficos (que descrevem documentos) e os registos de
autoridade (que descrevem entidades como pessoas, localidades, organizações,
conceitos, entre outros), encontrando‐se estes dois partilhados por vários documentos
bibliográficos (Bermes, 2011, p. 5).
No caso dos arquivos, o seu modelo de dados segue os conceitos de hierarquia
e contexto. Baseado na norma de descrição ISAD(G), o formato EAD (Encoded Archival
Description) possibilita a representação da hierarquia dos seus documentos nos seus
12
instrumentos de pesquisa, respeitando assim a natureza orgânica subjacente aos
fundos arquivísticos. É feita uma descrição multinível, partindo do geral para o
particular, ao contrário do que acontece com os modelos de dados das bibliotecas e
museus, onde a informação é tratada ao nível particular, ou seja, ao nível da peça. No
âmbito arquivístico, certos conceitos, como “autor” (diferente do conceito de
“Produtor”), adquirem menos importância do que no âmbito das bibliotecas (Bermes,
2011, p. 5; Cortês e Raposo, 2012, p. 4; Marcondes, 2012, p. 14).
Por sua vez, no caso do modelo de dados utilizado pelos museus, este é
caracterizado pelo facto de apenas se limitar à descrição de objetos únicos. Estes são
descritos não apenas em função do seu contexto de criação (como acontece nos
arquivos e nas bibliotecas), mas também em função dos diferentes eventos pelos quais
estes objetos passaram durante o seu ciclo de vida como peças de museu, partindo da
sua criação e abrangendo outros eventos, como a sua preservação, restauro,
mudanças da sua titularidade e apresentações em exposições. Neste sentido, o
conceito de evento ganha importância neste modelo de dados, encontrando‐se este
refletido no modelo CRM do CIDOC (Bermes, 2011, p. 5).
2.2. A Internet dos Dados e os Linked Data
Assim sendo, e a fim de tentar solucionar estas questões de interoperabilidade
entre instrumentos de recuperação da informação que recorrem a modelos de dados
díspares entre si, tem vindo a ganhar mais destaque o recurso aos Linked Data (“dados
ligados”) ou Web of Data (“Internet dos Dados”). Segundo Bizer, Heath e Berners‐Lee
(2009, p. 2), os Linked Data decorrem do uso da Internet para criar links entre dados
vindos de diferentes fontes, que por sua vez, poderão ser bases de dados geridas por
duas ou mais instituições situadas em localizações geográficas distantes ou sistemas de
informação dentro de uma organização e diferentes entre si em que a sua
interoperabilidade ao nível dos dados seja difícil de estabelecer. Como resultado, é
devolvida e apresentada de um modo unificado ao utilizador toda a informação
considerada relevante e que coincida com os critérios "semânticos" de pesquisa
definido por este (Gracy, 2014, p. 3).
A “Internet dos Dados” é considerada uma extensão da Web Semântica
(também conhecida por Web 3.0). Por sua vez, esta constitui‐se como uma extensão
13
da web atual, onde a informação ganha uma semântica bem definida, facilitando assim
uma melhor cooperação entre computadores e pessoas (Berners‐Lee, 2001 apud
Gracy, 2014, p. 2). Para tornar possível este cenário, julga‐se necessária a criação e
implementação de normas (standards), visando facilitar a troca de informação entre as
pessoas, mas sobretudo estabelecer uma linguagem comum que facilite e potencie a
partilha de dados entre dispositivos e sistemas de informação (Souza e Alvarenga,
2004, p. 134).
Neste sentido, a “Internet dos Dados” propõe uma forma de interoperabilidade
que não depende de uma pesquisa feita em simultâneo entre bases de dados distintas,
nem na redução ou conversão de bases de dados para um formato comum, mas
assentando na criação de um “espaço” de informação global, onde a utilização de links
é feita para pesquisar livremente entre várias fontes de informação. Para tal, e para
além da utilização de URIs10 (Uniform Resource Identifiers), a informação contida
nestes “dados ligados” terá que estar descrita de acordo com o modelo de dados RDF
(Resource Description Framework). Neste modelo, os links são qualificados,
possibilitando assim saber a relação exata entre duas fontes de informação:
semelhança, temática, entre outros atributos. Através desta abordagem, é possível a
criação de links entre recursos informacionais que são descritos conforme modelos
distintos, desde que a linguagem comum seja o modelo de dados RDF (Bizer, Heath e
Berners‐Lee, 2009, p. 2; Bermes, 2011, p. 5; Gracy, 2014, p. 3‐4).
Assim sendo, as instituições que queiram preparar e disponibilizar como
"Linked Data" a informação constante nas suas bases de dados, deverão seguir quatro
regras, conforme sugeridas por Tim Berners‐Lee (Heath e Bizer, 2011, apud Gracy,
2014, p. 3; Berners‐Lee, 2006, apud Van Holland e Verborgh, 2014, p. 45‐46):
10 Um URI (Uniform Resource Identifier) consiste numa sequência de caracteres que identificam o nome
de um recurso, abstrato ou físico. Esta identificação possibilita a interação com representações deste
recurso numa rede (habitualmente a web), utilizando protocolos específicos. Cada URI é definido por
esquemas (schemas), que por sua vez definem uma sintaxe e os protocolos a ela associados. A forma de
URI mais conhecida é o URL (Uniform Resource Locator), mais conhecido por endereço web. Outra
forma de URI, mas desta vez menos conhecida é o URN (Uniform Resource Name), concebido para
complementar URLs, providenciando um mecanismo para a identificação dos recursos em determinados
namespaces (fonte: https://en.wikipedia.org/wiki/Uniform_resource_identifier, consultado em 10 Set.
2015).
14
1) utilizar URIs como o nome dos "objetos";
2) utilizar HTTP URIs11 a fim de os utilizadores poderem procurar pelos nomes
atrás referidos;
3) quando o utilizador acede a um URI, dever‐se‐á providenciar informação útil,
recorrendo para tal às normas / standards (RDF, SPARQL);
4) Incluir links para outros URIs, de modo a que o utilizador consiga aceder e
descobrir mais informação.
Cada entidade ou objeto registado deverá ter um identificador único e ser
acessível através de um URI. Após a sua conversão para URIs, já é possível estabelecer
o relacionamento semântico entre estas entidades. Aqui, a utilização dos URIs é
considerada de extrema importância, por duas razões. A primeira razão prende‐se com
o facto de um URI fornecer com precisão a localização da informação sobre cada
entidade, através de um Uniform Resource Locator (URL)12. Uma vez definido este URL,
o motor de pesquisa já conseguirá localizar a informação pretendida, esteja onde
estiver (Gracy, 2014, p. 3; Van Holland e Verborgh, 2014, p. 46). A segunda razão
prende‐se com a maior precisão no recurso ao URI do que no recurso à linguagem
natural ‐ um URI de uma determinada entidade manter‐se‐á o mesmo, seja qual for a
linguagem utilizada (Coyle, 2012, apud Gracy, 2014, p. 3).
Por seu turno, a estrutura dos Linked Data assenta no modelo de dados
Resource Description Framework (RDF), servida para definir a "tripla"13 ‐ a unidade
semântica que é a expressão básica dos Linked Data. Esta consiste em três
componentes, nomeadamente (Gracy, 2014, p. 4‐5; Van Holland e Verborgh, 2014, p.
44):
11 Os HTTP URIs (em forma de URL) são frequentemente utilizados para identificar recursos abstratos, tais como classes, propriedades ou outro tipo de conceitos. Uma vez que estes URIs estão associados ao protocolo HTTP, tem sido levantadas bastantes questões sobre que tipo de representação se consegue obter através destes recursos obtidos por este protocolo ‐ geralmente através de um web browser (visualizador de conteúdos da WWW) ‐ e se a sintaxe do próprio URI consegue fazer a diferenciação entre recursos "abstratos" e recursos "informativos" (fonte: https://en.wikipedia.org/wiki/Web_resource, consultado em 12 Set. 2015).
12 O URL permite a localização de recursos num sentido apenas. Exemplo de um URL é um endereço HTTP (Hypertext transfer protocol) (Van Holland e Verborgh, 2014, p. 46).
13 Tradução livre de "triple".
15
Sujeito (subject) → Predicado (predicate) → Objeto (object)
Ex: Fundo ou série arquivística → has creator [tem como criador] → Pessoa
singular, família ou instituição.
Assim o sujeito (subject) corresponde à entidade que está a ser referenciada, o
objeto (object) corresponde a outra entidade com alguma relação com o sujeito, e o
predicado ‐ que define essa relação. Este modelo de dados permite uma maior
flexibilidade e facilidade na estruturação das expressões ("statements"), na medida em
que não existem limites sobre o que pode ser ligado: qualquer entidade (o sujeito)
pode ter uma relação específica (o predicado) com qualquer outra entidade (o objeto)
(Gracy, 2014, p. 4; Van Holland e Verborgh, 2014, p. 44).
Neste sentido, e ao contrário do que ocorre com os outros modelos de dados
(vide tabela 1) o modelo de dados do RDF é simplificado até ao máximo, na medida em
que a semântica fica toda explícita pelas "triplas", levando a que não seja necessário
recorrer a esquemas ("schemas") para os seus dados serem interpretados. Daí este
modelo de dados ser considerado neutro em termos de esquemas ("schema‐neutral").
Com o recurso ao RDF, é possível estruturar expressões sobre factos que nos são
conhecidos, e que possam interagir com expressões ("statements") estruturadas em
outros sistemas de informação residentes noutras instituições, tornando assim viável a
ligação e interação dos seus dados com outros formatos e estruturas (Van Holland e
Verborgh, 2014, p. 44).
Modelo de dados Vantagens / Desvantagens Utilização
Dados tabulares ("tabular data")
(ex: Ficheiros Excel, CSV)
(+) Abordagem mais intuitiva
(+) Mais suportável ("portable")
(+) Tecnologicamente "agnóstico"
(‐) Sujeito a redundância e conduzindo a inconsistências
(‐) Ineficiente na pesquisa e recuperação da informação
Importação e exportação de dados, seguindo uma estrutura simples
Modelo relacional
(ex: Bases de dados Access)
(+) Tratamento de dados complexos
(+) "Queries" de pesquisa optimizadas
(+) Software disponível no mercado mais desenvolvido
Gestão de dados complexos e que requeiram normalização
16
Modelo de dados Vantagens / Desvantagens Utilização
(‐) Formato binário
(‐) Dependente de esquemas ("schemas")
Meta‐markup
(ex: XML)
(+) Independente em termos de plataformas tecnológicas
(+) Capaz de ser lido quer por humanos ("human‐readable"), quer por máquinas ("machine‐readable") em simultâneo
(‐) Implementação complicada quando se trata de dados complexos
(‐) Verbosidade
Importação e exportação de dados complexos
RDF (+) Abordagem "schema‐neutral"
(+) Descoberta de novo conhecimento
(‐) Perda de normalização
(‐) Software disponível no mercado ainda não muito desenvolvido
Converte dados para ligação / interconexão ("linking")
Legenda: (+) Vantagem; (‐) Desvantagem.
Tabela 1: Sumário das vantagens / desvantagens dos diferentes modelos de dados,
adaptado de Van Holland e Verborgh (2014, p. 51)
No entanto, outras normas / standards ampliam as funcionalidades dos Linked
Data. São eles o Simple Knowledge Organization System (SKOS), a Web Ontology
Language (OWL) e ainda a linguagem de pesquisa Simple Protocol and RDF Query
Language (SPARQL) (Gracy, 2014, p. 5).
O SKOS consiste numa estrutura ou modelo de dados destinada a representar
vocabulários controlados na web. Podendo também ser expresso através de "triplas"
RDF, este modelo de dados possibilita a expressão de características comuns
partilhadas entre listas de termos controlados, Thesaurus, esquemas de classificação e
outras formas de vocabulários controlados. Define as relações entre termos
"alargados" (broader), "estreitos" (narrow) e relacionados (related), podendo ser
compatível com normas / standards de Thesaurus14. Por causa da sua flexibilidade e
14 Como por exemplo, a norma ISO 25964 ‐ Thesauri and interoperability with other vocabularies (Gracy, 2014, p. 5).
17
normalização pelo W3C15, e na medida em que possibilita a definição de relações entre
entidades "Linked Data", com o recurso ao SKOS, uma instituição consegue fazer o
mapeamento dos termos e criar alinhamentos entre diferentes conjuntos de dados
(datasets) (Gracy, 2014, p. 5; Van Holland e Verborgh, 2014, p. 129).
Por seu turno, o OWL consiste numa norma / standard que possibilita o acesso
do RDF a ontologias16 mais sofisticadas, podendo também serem expressas em RDF.
Juntamente com o RDFS17, o OWL providencia meios destinados a associar "those
classes and properties with formal reasoning rules that enforce constraints or produce
new knowledge by inference18" (Baker et al., 2013, p.2, apud Van Holland e Verborgh,
2014, p. 126). No entanto, o seu uso não é de todo obrigatório ‐ não é necessário que
todos os "dados ligados" sejam expressos com recurso a esta norma (Gracy, 2014, p. 5;
Van Holland e Verborgh, 2014, p. 126).
Por último, o SPARQL consiste na norma utilizada para pesquisar dados
semânticos na Internet, baseada na utilização de "padrões de grafos" (graph patterns)
e muito semelhante ao SQL (Structured Query Language). Recorrendo ou não a pontos
de acesso SPARQL (SPARQL endpoints), o utilizador consegue pesquisar informação
presente nas "triplas" RDF e assim obter os dados solicitados, proveniente de várias
fontes informativas (Gracy, 2014, p. 5; Van Holland e Verborgh, 2014, p. 48).
Neste sentido, a abordagem "Linked Data" oferece às instituições culturais
bastantes oportunidades para a melhoria do acesso à informação constante nos seus
depósitos e à convergência da informação presente nos seus instrumentos de
15 W3C é a abreviatura da World Wide Web Consortium, comunidade internacional cujo trabalho incide no desenvolvimento de normas / standards para a Web (fonte: http://www.w3.org/Consortium/, consultado em 28 Ago. 2015).
16 Neste contexto, uma ontologia consiste num agrupamento de entidades, onde são definidas as relações entre diferentes conceitos (Van Holland e Verborgh, 2014, p. 126).
17 O RDFS é uma linguagem de utilização geral utilizada para representar vocabulários RDF simples na Web. Outros modelos de vocabulários, como o OWL ou o SKOS, são construídos em RDFS e providenciam uma linguagem para definir ontologias baseadas na Web, possibilitando uma melhor integração e interoperabilidade dos dados (fonte: https://www.w3.org/2001/sw/wiki/RDFS, consultado em 29 Ago. 2015).
18 Fonte: Van Holland e Verborgh, 2014, pg. 126.
18
descrição (catálogos, listas) e nos seus sistemas e fontes de informação (Gracy, 2014,
p. 5).
Segundo Gracy (2014, p. 5), e embora referindo ao âmbito dos arquivos, estes
já dispunham de normas de codificação estabelecidas que facilitavam a pesquisa por
parte dos utilizadores e a partilha de registos fora dos limites institucionais,
nomeadamente a norma EAD (Encoded Archival Description), o formato MARC
(Machine Readable Cataloging) e ainda a norma METS (Metadata Encoding
Transmission Standard). Com o recurso aos "Linked Data", os Arquivos receberão pelo
menos dois benefícios. O primeiro consistirá na criação de ligações entre registos de
documentos de arquivo e fontes de informação externas, facilitando assim a
compreensão dos utilizadores em matéria da sua informação e dos seus produtores ou
autores. O segundo consistirá na já referida maior divulgação dos dados de cariz
arquivístico através da Internet, facilitando assim uma maior exploração e utilização da
sua informação por parte dos utilizadores que, caso contrário, não teriam acesso
(Gracy, 2014, p. 5).
No entanto, é necessário ter em mente a existência de "ilhas", ou sistemas de
informação que foram estruturados tendo em conta as necessidades e domínios de
aplicação da sua instituição, resultando assim em sistemas cuja interligação não seja
possível de ser feita de um modo automático. Nestes casos, é preciso primeiro saber
como estabelecer o acesso à base de dados das outras instituições, a fim de saber
quais os campos que estão a ser utilizados para descrever os seus objetos ou fundos
documentais. Uma vez encontrados, será necessário embeber manualmente os seus
URLs nos registos da base de dados da nossa instituição (Van Holland e Verborgh,
2014, p. 49).
Outro fator que também atua como uma barreira à implementação dos "Linked
Data" é a existência de fundos e coleções "escondidos" ("hidden collections"), para os
quais não existe acesso online aos seus registos (catálogos ou sistema de informação)
contendo as descrições dos seus objetos (Gracy, 2014, p. 11).
19
2.3. Linked Data e as instituições culturais ‐ o Projecto Europeana e o modelo
de dados EDM
Neste contexto, o Projeto Europeana constitui‐se como um exemplo de
aplicação destes princípios tendentes á convergência de dados. Dirigido pela Fundação
EDL (European Digital Library), este projeto de biblioteca digital foi lançado em 2005 e
disponibilizado ao público em 2008, tendo por objetivo constituir‐se como uma
plataforma tecnológica, sob a forma de Portal baseado na WWW, que agregasse os
metadados de conteúdos digitais culturais e históricos presentes nas bases de dados
de bibliotecas, arquivos, museus, arquivos audiovisuais, repositórios institucionais
(universidades e centros de investigação) e outras instituições culturais (públicas e
privadas) dos países aderentes (Borbinha e Freire, 2010, p. 5; Bermes, 2011, p. 8;
Winer e Rocha, 2013, p. 114).
Na sua fase inicial, o Portal Europeana seguia um modelo de dados conforme a
norma ESE (Europeana Standard Elements), uma extensão do DCMES (Dublin Core
Metadata Element Set, abreviadamente designado por DC), providenciando assim uma
primeira tentativa de interoperabilidade entre os repositórios de metadados
aderentes. Mais tarde, novas adições a este conjunto de metadados foram
acrescentados, nomeadamente a proveniência e os direitos associados à informação e
os links para as representações digitais disponibilizadas pelas entidades aderentes
(Bermes, 2011, p. 8). Este portal também recorria ao protocolo OAI‐PMH para
comunicação e recolha dos metadados das bases de dados das entidades aderentes,
que depois eram processados centralmente, utilizando técnicas semânticas que
viabilizassem a sua pesquisa (Borbinha e Freire, 2010, p. 5; Ferros, Filipe e Ramalho,
2010, p. 7).
Recentemente, e a fim de tentar solucionar alguns problemas do modelo de
dados então em utilização (o ESE), este projeto desenvolveu o modelo de dados EDM
(Europeana Data Model), constituindo‐se como uma ontologia bastante desenvolvida,
pretendendo aplicar os princípios da Web Semântica aos metadados relacionados com
o património cultural. É criada uma "camada" (layer) semântica de informação que
possibilita a interligação com outros conteúdos digitais agregados por esta biblioteca
digital, permitindo assim responder às questões "Quem?" ("Who?"), "O quê?"
20
("What?"), "Quando?" ("When?") e "Onde?" ("Where?")19, proporcionadas pelo seu
motor de pesquisa, entre outros termos utilizados. É esta "camada" semântica (ou o
conjunto de termos de vocabulários interligados, descrevendo pessoas, lugares,
conceitos, entre outros) que providencia a ligação entre os recursos informacionais.
Ainda neste contexto, o EDM permite a agregação de descrições centradas nos
documentos (utilizadas pelos arquivos), bem como descrições centradas em eventos
(utilizadas pelos museus), resolvendo assim uma das questões de convergência
levantadas (Bermes, 2011, p. 8; Winer e Rocha, 2013, p. 123).
Comparando com o ESE, o EDM constitui‐se como um modelo de dados mais
flexível e preciso, na medida em que possibilita a ligação de cada expressão com o
recurso específico (ao qual se aplica). Permite também visualizar os dados, de modos
diferenciados, de acordo com as práticas e domínios das entidades que contribuem
com a sua informação para a Europeana (Isaac et al., 2012, p. 35; Europeana, 2015a, p.
5).
Os requisitos principais que potenciaram o desenvolvimento do modelo de
dados EDM, incluíam (Isaac et al., 2012, p. 36):
A distinção entre o "item providenciado" (ex: pintura, livro, mapa) e a sua
representação digital;
A distinção entre este mesmo item e os metadados que o descrevem;
A possibilidade de permitir a ingestão de múltiplos registos para descrever
o mesmo item, podendo existir informações contraditórias sobre o mesmo;
Providenciar apoio para recursos contextuais, incluindo conceitos
provenientes de vocabulários controlados.
Assim, e detendo o mecanismo que permite fazer a distinção destes aspetos
referentes a um recurso específico, o EDM acaba por possibilitar a representação de
um determinado objeto cultural, através de diferentes perspetivas. Para além de
possibilitar a já referida contextualização sob a forma de entidades (lugares, pessoas,
períodos temporais), o EDM tem recebido desenvolvimentos e recomendações que
19 Serão mais adiante descritas na caracterização das "classes contextuais" do modelo de dados EDM.
21
possibilitem a representação de objetos complexos e estruturados hierarquicamente
(muito comum no domínio dos Arquivos) (Isaac et al., 2012, p. 36; Europeana, 2015c).
Em vez de introduzir novos elementos, no modelo de dados EDM é feita a
reutilização e ligação a vocabulários e ontologias existentes, tais como o Open Archives
Object Reuse and Exchange Model (OAI‐ORE), o Dublin Core (DC) e o já referido SKOS
(da W3C), entre outros (Isaac et al., 2012, p. 36).
As "classes de base" representam o objeto cultural ("cultural heritage object").
Com estas classes, o EDM faz a separação entre o objeto cultural e a sua representação
digital, tendo em vista a correta associação dos seus metadados. Essas "classes de
base" são (Europeana, 2015a, p. 5‐6):
Edm:ProvidedCHO ‐ o objeto cultural em apreço;
Edm:WebResource ‐ o recurso web onde se localiza a sua representação
digital;
Ore:Aggregation ‐ a agregação que faz o agrupamento das classes.
Fig. 1: As três "classes de base": uma Aggregation com um ProvidedCHO e o seu WebResource (fonte: Europeana, 2015a, pg. 6)
Tomando por base a fig. 1, os metadados sobre um determinado objeto
cultural e as suas representações digitais estão separados entre as classes
edm:ProvidedCHO e as edm:WebResource(s). O mecanismo que permite a sua
associação é a classe ore:Agreggation, que detém propriedades que permitem fazer a
sua ligação, para além de poder aplicar outras propriedades (ex: edm:dataProvider) a
todo o grupo (Europeana, 2015a, p. 6).
Por seu turno, as "classes contextuais" possibilitam a inclusão de dados detidos
por parte das instituições, sejam estes vindos de ficheiros de autoridade, Thesaurus e
22
vocabulários controlados. Tornam possível também a separação entre os dados de
contexto e os dados sobre a descrição do objeto. São elas (Europeana, 2015a, p. 5):
Edm:Agent ‐ Quem;
Edm:Place ‐ Onde;
Edm:TimeSpan ‐ Quando;
Skos:Concept ‐ O quê;
Cc:License ‐ acesso e utilização.
Fig. 2: Exemplo de um ProvidedCHO com dois recursos contextuais (fonte: Europeana, 2015a, pg. 7)
Ainda neste contexto, a Europeana tem a possibilidade de utilizar estes URIs
para poder adicionar mais dados destas fontes e recursos externos, desde que os
mesmos estejam disponíveis como "linked open data". Este é considerado o principal
método para "enriquecer" os dados fornecidos pelas entidades, adicionando
informações que não constavam nos dados providenciados. Neste sentido, a
Europeana espera adicionar vocabulários locais, num futuro próximo (Europeana,
2015a, p. 7).
23
Capítulo 3: Ponto único de acesso online do AH‐OTDU ‐ Definição da sua proposta
3.1. O Arquivo Histórico do Ordenamento do Território e Desenvolvimento
Urbano (AH‐OTDU)
3.1.1. Breve história da entidade produtora ‐ Direcção‐Geral do Ordenamento
do Território e Desenvolvimento Urbano (DGOTDU)
A Direcção‐Geral do Ordenamento do Território e Desenvolvimento Urbano
(DGOTDU) foi criada por força do Decreto‐Lei nº 271/94 de 28 de outubro, e exerceu
as suas competências na qualidade de autoridade técnica nacional de ordenamento do
território e do urbanismo20.
Das suas competências definidas por este diploma legal, destacam‐se a
elaboração dos estudos necessários à formulação das bases gerais da política de
ordenamento do território e de desenvolvimento urbano, a avaliação periódica do
estado do ordenamento do território, e também a dinamização da promoção dos
planos de ordenamento do território e instrumentos de planeamento territorial.
Em 2007, a DGOTDU veria a sua missão e atribuições redefinidas através do
Decreto Regulamentar nº 54/2007, de 27 de abril, no cumprimento do esforço de
racionalização estrutural e reforma orgânica instituída pela Lei Orgânica da sua tutela,
o Ministério do Ambiente, do Ordenamento do Território e do Desenvolvimento
Regional (MAOTDR)21, no âmbito das orientações definidas pelo Programa de
Reestruturação da Administração Central do Estado (PRACE).
De acordo com este Decreto Regulamentar, estas alterações possibilitariam à
DGOTDU adaptar‐se "à profunda remodelação do sistema de gestão territorial
realizado na última década e às exigências que decorrem, quer da aplicação do novo
quadro legal e regulamentar do ordenamento do território e do urbanismo, quer das
transformações que entretanto se verificaram na realidade territorial, institucional,
económica e social do País e na sua inserção no espaço europeu”22. Este mesmo
20 Para mais informação sobre esta instituição vide "História da evolução administrativa e organizacional das instituições que antecederam a ex‐DGOTDU" (Apêndice A)
21 Conforme estipulado pelo Decreto‐Lei nº. 207/2006, de 27 de outubro.
22 Fonte: Decreto Regulamentar nº 54/2007, de 27 de abril, Preâmbulo, pg. 2657.
24
diploma legal clarificou as responsabilidades cometidas à DGOTDU, cuja atividade se
centraria no "exercício de funções nacionais de apoio à definição, acompanhamento e
avaliação das políticas públicas nos domínios do ordenamento do território e
desenvolvimento urbano"23.
Destas, destacam‐se as que respeitam ao acompanhamento e avaliação do
funcionamento do sistema de gestão territorial, à gestão de programas dirigidos à
qualificação do território e da gestão urbana, à implementação da política de cidades,
ao acompanhamento, avaliação e futura revisão do Programa Nacional da Política de
Ordenamento do Território (PNPOT), à articulação das políticas sectoriais com a
política de ordenamento do território e urbanismo, ao acompanhamento das políticas
territoriais e urbanas europeias e internacionais e participação nos seus programas.
Coube‐lhe também assegurar o funcionamento do Observatório do Ordenamento do
Território e do Urbanismo (suporte técnico, administrativo e logístico). Coube ainda à
DGOTDU a criação e manutenção do Sistema Nacional de Informação Territorial (SNIT)
‐ considerado como um "instrumento essencial à boa aplicação do sistema de gestão
territorial e à sua regular avaliação"24, bem como do Portal do Ordenamento do
Território e Urbanismo (Portal OT&U).
Em 2011 a Administração Pública é sujeita a uma nova reforma, desta vez
através do Plano de Redução e Melhoria da Administração Central (PREMAC). Como
consequência deste novo plano, a DGOTDU seria extinta e fundida com o Instituto
Geográfico Português (IGP) e com o Gabinete Coordenador do Programa FINISTERRA
(GCPF), dando lugar à Direção‐Geral do Território (DGT)25, encontrando‐se no presente
momento integrada no Ministério do Ambiente, Ordenamento do Território e Energia
(MAOTE)26. Esta nova Direção‐Geral integrou as suas atribuições, tendo‐lhe sido
definida como missão a prossecução das políticas públicas de ordenamento do
23 Fonte: Decreto Regulamentar nº 54/2007, de 27 de abril, Preâmbulo, pg. 2657.
24 Fonte: Decreto Regulamentar nº 54/2007, de 27 de abril, Preâmbulo, pg. 2657.
25 De acordo com o Decreto‐Lei n.º 7/2012, de 17 de janeiro, que aprova a Lei Orgânica do Ministério da Agricultura, do Mar, do Ambiente e do Ordenamento do Território (MAMAOT).
26 Conforme o Decreto‐Lei n.º 119/2013, de 21 de agosto.
25
território e de urbanismo e a criação e manutenção das bases de dados geográficos de
referência.
3.1.2. O AH‐OTDU ‐ História custodial e arquivística
A DGOTDU (e a sua sucessora DGT) constituiu‐se como herdeira do espólio das
sucessivas instituições da Administração Central do Estado que, desde 1944, detiveram
a responsabilidade da prossecução da política nacional de ordenamento do território e
urbanismo. São estas27:
a Direcção‐Geral dos Serviços de Urbanização (DGSU) (1944‐1976);
a Direcção‐Geral do Equipamento Regional e Urbano (DGERU) (1976‐1986);
a Direcção‐Geral do Planeamento Urbanístico (DGPU) (1976‐1986);
a Direcção‐Geral do Ordenamento (DGO) (1983‐1986);
a Direcção‐Geral do Ordenamento do Território (DGOT) (1986‐1994).
Esse espólio, constituído por um número significativo de
documentos históricos, na sua maioria relacionados com a elaboração, financiamento
e aprovação dos Instrumentos de Gestão Territorial (IGT) ‐ como por exemplo os
Planos de Urbanização ‐ e projetos de construção de Equipamentos de Utilização
Coletiva (EUC), constituindo‐se assim como um património público valioso e um
elemento essencial para o estudo e a compreensão da história do ordenamento do
território e do urbanismo em Portugal.
Em 2005, a DGOTDU iniciou um projeto para o tratamento do espólio
documental com maior significado histórico e patrimonial, constituindo assim o
Arquivo Histórico (AH‐DGOTDU). Neste âmbito foi iniciada a digitalização dos
documentos relativos aos Instrumentos de Gestão Territorial (IGT), e das peças
fotográficas referentes aos levantamentos aéreos realizados nos anos 40/50 do século
XX. No caso dos IGTs, na seleção de peças para digitalizar, foi dada primazia à
documentação dos Planos Gerais de Urbanização (PGU) antigos, muito procurados por
alunos e investigadores em geral.
27 Para mais informação sobre estas instituições vide "História da evolução administrativa e organizacional das instituições que antecederam a ex‐DGOTDU" (Apêndice A).
26
Este projeto foi, a partir de 2007, integrado no Projeto SNIT/Portal OT&U. Em
2008 foi iniciada a preparação e tratamento da informação, a fim de esta integrar o
processo de desenvolvimento da página web do AH‐DGOTDU e correspondente base
de dados, que foi lançada em Outubro de 2008. Na sequência do processo de fusão já
referido, o projeto passou a ter a denominação Arquivo Histórico do Ordenamento do
Território e Desenvolvimento Urbano (SNIT/AH‐OTDU), mantendo‐se integrado no
Sistema Nacional de Informação Territorial (SNIT).
3.1.3. O AH‐OTDU ‐ Caracterização dos fundos documentais alvo do estudo e
definição da sua amostragem
Para a definição das amostragens que de seguida se descrevem, a sua seleção
foi feita seguindo a lógica de amostragem por conveniência28. Neste sentido, e como
critérios, foram selecionadas peças destes fundos documentais respeitantes às
seguintes localidades, nomeadamente: Abrantes, Alter do Chão, Arouca, Arraiolos,
Aveiro, Beja, Braga, Castelo Branco, Coimbra, Covilhã, Elvas, Esposende, Évora, Fornos
de Algodres, Gouveia, Guarda, Guimarães, Lisboa, Nazaré, Portalegre, Portel,
Portimão, Santiago do Cacém, São João da Madeira, Silves, Sintra, Tavira, Viana do
Castelo, Vila Nova de Gaia e Vizela.
Outro critério adotado foi a seleção dos autores destes projetos, a fim de poder
existir alguma coincidência de autoria entre estes fundos, nomeadamente e a título de
exemplo, autores de projetos de IGT que fossem também autores de artigos das
publicações constantes no fundo bibliográfico.
Mesmo não seguindo o estipulado nas normas de descrição ISAD(G) e ODA), as
amostragens dos fundos documentais dos IGT e dos EUC já detêm registos contendo a
descrição das suas peças documentais. Para as amostragens que não tinham registos
de descrição feitos ‐ nomeadamente os fundos documentais dos álbuns fotográficos,
das fotografias aéreas e dos artigos dos fundos bibliográficos, foi necessário elaborar o
28 Segundo Carmo e Ferreira (1998), nesta técnica de amostragem não probabilística, é utilizado um grupo de indivíduos que se encontrem disponíveis ou um grupo de voluntários. Esta técnica de amostragem destina‐se mais a estudos exploratórios, ou quando o investigador pretende estudar apenas determinados elementos e características bem definidas da população. No entanto, estes resultados não poderão ser generalizados à população à qual o grupo de conveniência pertence, mas a informação aqui obtida poderá revelar‐se útil, sem contudo deixar de existir as devidas reservas e precauções.
27
seu pré‐inventário. Estes foram elaborados pela aluna, a fim de os seus dados
constarem na presente dissertação, para aplicação da metodologia definida.
Para a elaboração do pré‐inventário destes três fundos documentais, julgou‐se
necessário estabelecer primeiro os níveis de estrutura da sua descrição e sua relação.
A opção tomada para estabelecer estes níveis de estrutura de descrição foi seguir a
hierarquia orgânica do Ministério das Obras Públicas e Comunicações, optando apenas
pelos níveis Ministério > Direção‐Geral, dado que é difícil determinar a que Direção de
Serviços respeitavam os fundos documentais já referidos, uma vez que estes poderiam
apoiar a atividade de várias unidades orgânicas dentro da Direção‐Geral.
Neste sentido, e tomando em consideração o indicado pelas ODA29,foram assim
considerados os seguintes níveis:
Fundo
Pelo facto de o período temporal a que os fundos documentais que ainda não
detinham registos de descrição se encontrar bem balizado, foi definido como fundo o
Ministério das Obras Públicas e Comunicações (MOPC). O código de referência a
utilizar será "PT/DGT/MOPC".
Secção
Foi definida como secção a Direcção‐Geral dos Serviços de Urbanização (DGSU).
O código de referência a utilizar será "PT/DGT/MOPC/DGSU".
Subsecção
Corresponde à subdivisão da secção. Neste caso, não é possível no presente
momento definir este nível e determinar a que Direção de Serviços respeitavam os
fundos documentais já referidos, por os mesmos ainda se encontrarem numa fase
inicial de descrição e pré‐inventário.
Série
Só foi possível determinar este nível para o fundo documental das fotografias
aéreas dos anos 40/50 do século XX, pelo que, o código de referência utilizado foi
29 ODA, v. 2, pg. 55 ‐ Descreve os níveis de descrição considerados nestas orientações.
28
"PT/DGT/MOPC/DGSU/DGSU‐FotoAerea/…". Para os restantes dois fundos
documentais, e por se encontrarem ainda numa fase inicial de descrição e pré‐
inventário, não é possível no presente momento definir este nível.
Subsérie
Corresponde à subdivisão da série. Novamente, e pelos mesmos motivos
referidos no nível "Série", de momento não foi possível definir este nível.
Unidade de instalação (actual)
Embora provisórios, para o fundo documental dos álbuns fotográficos, a
unidade de instalação atual considerada foi o álbum, pelo que o código de referência
utilizado foi "PT/DGT/MOPC/DGSU/DGSU‐Alb_.../…". Para o fundo documental dos
artigos dos fundos bibliográficos, a unidade de instalação atual considerada foi a
revista / boletim, pelo que o código de referência utilizado foi
"PT/DGT/MOPC/DGSU/DGSU‐RevUrb…/…". No caso específico do fundo documental
das fotografias aéreas, e partindo do pressuposto de que estas foram submetidas a
processo de tratamento de justaposição e mosaicagem30, não foi possível na presente
fase de pré‐inventário determinar este nível, pelo facto de que uma fotografia aérea
(tratada) de determinada localidade poder advir de várias chapas de vidro, contidas
em várias unidades de instalação (caixas).
Documento composto (Processo)
Para os fundos documentais já referidos, e na presente fase de pré‐inventário,
não foi possível determinar este nível, tendo sido adotado o nível do documento
simples logo a seguir ao nível da unidade de instalação.
30 Neste processo, as representações digitais das fotografias aéreas são justapostas nas áreas coincidentes. Daqui resulta um mosaico (justaposição das várias fotografias), representando a localidade fotografada, submetido depois a um processo de ortorrectificação. Este consiste na correção digital das deformações advenientes da perspetiva da câmara fotográfica, da altitude ou da velocidade do avião/satélite, resultando numa projeção ortogonal de uma determinada área, sem efeitos de perspetiva, e através do qual seja possível realizar medições exatas (fonte: https://pt.wikipedia.org/wiki/Ortofotografia, consultada em 15 Set. 2015).
29
Documento simples (peça fotográfica/artigo)
Aqui, como documento simples foram considerados a peça fotográfica e o
artigo da revista e boletim. Mantendo a sua provisoriedade, para as peças fotográficas
do fundo documental dos álbuns fotográficos, o código de referência utilizado foi
"PT/DGT/MOPC/DGSU/DGSU‐Alb_.../DGSU‐Ft...". Para os artigos do fundo
bibliográfico, o código de referência utilizado foi " PT/DGT/MOPC/DGSU/DGSU‐
RevUrb…/RevUrb‐Art…". No caso das peças fotográficas do fundo documental das
fotografias aéreas, o código de referência utilizado foi "PT/DGT/MOPC/DGSU/DGSU‐
FotoAerea/DGSU‐FA….".
Definidos estes níveis de descrição para o pré‐inventário dos fundos
documentais que não detinham registos de descrição, apresenta‐se de seguida uma
panorâmica geral dos fundos documentais em estudo:
a) Fundo documental dos Instrumentos de Gestão Territorial (IGTs)
No presente momento, este fundo documental é constituído por cerca de 1480
processos administrativos e estudos de IGTs, nomeadamente de Planos Gerais de
Urbanização (PGU) / Planos de Urbanização (PU), Planos Diretores Municipais (PDM),
Planos de Pormenor (PP), Planos Parciais de Urbanização (PPU) e Planos Regionais de
Ordenamento do Território (PROT). As suas datas de produção iniciam‐se a partir dos
anos 30 do séc. XX, elaborados por vários autores, sejam eles os próprios técnicos das
Direções‐Gerais, arquitetos e engenheiros em nome individual ou gabinetes de
arquitetura e urbanismo.
Uma parte significativa das peças que constituem estes processos encontram‐
se já descritas numa base de dados denominada BD AH‐OTDU, nomeadamente cerca
de 3320 peças desenhadas (consideradas como elementos fundamentais), 1455 peças
escritas e ainda 8 pareceres do Conselho Superior de Obras Públicas e Transportes
(CSOPT). Constatou‐se que as descrições destes documentos não seguem as normas
de descrição ISAD(G), seguindo sim uma estrutura de dados concebida para o motor
de pesquisa online. Esta BD foi essencialmente concebida para divulgação online em
30
SNIT/AH‐OTDU31, com recurso à visualização em tecnologia Silverlight32. Esta BD segue
o modelo relacional, onde a informação se encontra distribuída por várias tabelas
(Autores, Entidade_Plano, Entidade_Livro, Entidade (peça desenhada), Concelho,
Distrito, entre outras) (Apêndice B).
Para o presente estudo, foi definida uma amostragem de representações
digitais de 174 peças desenhadas e 186 peças escritas (Apêndice C), provenientes de
147 processos de IGT, abrangendo 77 autorias. As suas datas de produção situam‐se
no período entre 1942 e 1989. A figura de IGT selecionada foi a dos Planos de
Urbanização (PU / PGU), pelo facto de os mesmos já se encontrarem disponíveis
online.
Partindo das tabelas disponíveis nesta BD, foi necessário desde logo trabalhar
com duas tabelas (em formato Excel) em separado ‐ uma destinada às peças
desenhadas e outra destinada às peças escritas, ambas com uma seleção de campos
mais representativos e mais próximos do estipulado pelas ISAD(G).
No caso da tabela das peças desenhadas, e por a sua descrição estar feita ao
nível do documento simples (peça desenhada), foi necessário acrescentar logo no
início campos de descrição da tabela dbo.Plano, que contém informações sobre o
processo de IGT (ao nível do documento composto). Assim sendo, os campos
escolhidos das tabelas da BD AH‐OTDU foram os descritos no Apêndice C.
Para a tabela das peças escritas, foram escolhidos menos campos, por a sua
descrição estar feita ao nível do documento composto. Mas, e à semelhança do que foi
31 O acesso a esta documentação é feito através de dois modos: pesquisa por subregião (http://www.dgterritorio.pt/sistemas_de_informacao/snit/arquivo_historico_de_planos__arquivo_historico_/pesquisa_por_subregiao/) e pesquisa por atributos (http://www.dgterritorio.pt/sistemas_de_informacao/snit/arquivo_historico_de_planos__arquivo_historico_/pesquisa_por_atributos/).
32 A sua tecnologia assenta numa estrutura aplicacional destinada a executar "rich internet aplications", muito semelhante à tecnologia utilizada pelo Adobe Flash. O seu web‐browser plug‐in destina‐se à visualização de vários tipos de multimédia ‐ imagem, vídeo, e animação. Propriedade da Microsoft, a versão 5 desta tecnologia era aceite na maioria dos web browsers em utilização. Contudo, o seu fim de vida foi anunciado em 2012, a possibilidade do seu uso em novas versões de web browsers terminou na primeira metade de 2015 e o fim oficial do suporte da tecnologia por parte da Microsoft está previsto para Outubro de 2021 (fonte: https://en.wikipedia.org/wiki/Microsoft_Silverlight, consultada em 15 Set. 2015). No contexto do SNIT/AH‐OTDU, a tecnologia Silverlight é utilizada para fins de visualização de imagem em zoom dinâmico.
31
feito para a tabela das peças desenhadas, aqui também foram acrescentados campos
de descrição da tabela dbo.Plano, a fim de ser mais fácil identificar a que unidade de
instalação as peças escritas pertenciam. Neste caso, os campos de descrição escolhidos
das tabelas da BD AH‐OTDU foram os enunciados no Apêndice C.
b) Fundo documental dos Equipamentos de Utilização Coletiva (EUC)
De momento, este fundo documental é constituído por cerca de 8044
processos que respeitam ao financiamento de Equipamentos de Utilização Coletiva
(EUC), como por exemplo quartéis de bombeiros, casas do povo e infraestruturas
desportivas. À semelhança do fundo documental dos IGT, a sua datação inicia‐se
também a partir dos anos 30 do séc. XX. Para além da documentação administrativa,
estes processos incluem também peças desenhadas e escritas, cuja inventariação não
foi possível fazer até ao presente momento, não se podendo aferir portanto o seu
número total e muito menos a sua autoria.
Ao contrário do já referido fundo documental dos IGTs, nada desta
documentação está digitalizada e disponível online. No entanto, existe uma BD (em
formato Access) com os registos referentes a estas unidades de instalação e que segue
o modelo relacional, composta por duas tabelas. As descrições da sua documentação
também não seguem o estipulado pelas normas de descrição ISAD(G) e ODA. A esta
faltam campos de informações ditas essenciais, tais como a autoria dos projetos e a
dimensão do processo. Por não haver representações digitais das suas peças
desenhadas e escritas, não foi concebido motor de pesquisa no SNIT/AH‐OTDU para
divulgar esta informação.
Neste caso, e para o presente estudo, foi definida uma pequena amostragem
de processos administrativos de EUC, nomeadamente 14 processos (a nível da unidade
de instalação) (Apêndice C) que, de certo modo, pudessem coincidir com outros
fundos documentais em análise, como já referido. As suas datas de produção situam‐
se no período entre 1948 e 1997. No caso desta BD, os campos de descrição escolhidos
foram os enunciados no Apêndice C.
32
c) Álbuns fotográficos respeitantes a esses equipamentos e outras obras
públicas
Tendo em atenção que o seu pré‐inventário (ao nível da unidade de instalação)
se encontra em desenvolvimento, de momento neste fundo documental foram
contabilizados 30 álbuns fotográficos. Destes álbuns, conseguiu‐se depreender que
parte significativa das suas peças fotográficas estão relacionadas com os processos de
EUC e IGT. Embora apenas algumas peças fotográficas tenham o seu autor indicado,
depreende‐se que as restantes peças tenha sido realizadas por técnicos da Direção‐
Geral, no âmbito de visitas de acompanhamento e fiscalização das obras e projetos de
urbanização.
Nenhuma desta documentação fotográfica está tratada e digitalizada. Por não
existirem de momento representações digitais das suas peças fotográficas, não foi
concebido motor de pesquisa no SNIT/AH‐OTDU para divulgar esta informação online.
Para o estudo em apreço, a amostragem definida abrange 56 registos de peças
fotográficas, descritas ao nível do documento simples, e cuja relação pudesse ser
estabelecida entre os processos de EUC e de IGT.
Já elaborada pela aluna no âmbito da presente dissertação de mestrado e
conforme as normas de descrição ISAD(G) e ODA, os campos de descrição utilizados na
folha de recolha de dados (FRD) desta amostragem encontram‐se descritos no
Apêndice C. A ISAD(G) é uma norma que contém regras gerais para a descrição
arquivística, podendo estas serem aplicadas independentemente da forma ou do
suporte dos documentos e serem adaptadas às necessidades específicas das
instituições. Dado que a inventariação deste fundo ainda se encontra no início, não se
viu a necessidade de adaptar o estipulado no modelo de descrição SEPIADES33.
33 A SEPIADES (SEPIA Data Element Set) consiste num conjunto de recomendações para catalogar coleções fotográficas, seguindo um modelo de descrição multinível. Para além dos 21 elementos de descrição base, contém mais sugestões para a utilização de outros elementos de descrição, mais detalhados e específicos. Estas recomendações foram desenvolvidas no âmbito do projeto SEPIA (Safeguarding European Photographic Images for Access). Tendo como objetivo a preservação e digitalização das coleções fotográficas, este projeto foi financiado pela União Europeia e decorreu de 1999 a 2003 (fonte: http://www.ica.org/7363/paag‐resources/sepiades‐recommendations‐for‐cataloguing‐photographic‐collections.html, consultado em 12 Set. 2015).
33
d) Fotografias aéreas de localidades, das décadas de 40 ‐ 50 do séc. XX
Este fundo documental é constituído por cerca de 12.000 fotografias aéreas,
cujos diapositivos se encontram fixados em chapas de vidro. Em termos geográficos,
estas fotografias cobrem uma parte significativa da área de Portugal continental,
estando as suas datas de produção compreendidas entre o final da década de 1930 e a
década de 1950. Estas peças fotográficas foram processadas por uma única entidade,
nomeadamente a SPLAL ‐ Sociedade Portuguesa de Levantamentos Aéreos, Lda.
Estas fotografias foram alvo de um processo de digitalização. No entanto, não
foi ainda possível submeter estas representações digitais a um processo de tratamento
de justaposição e mosaicagem. Para estas representações digitais, existe uma base de
dados feita num ficheiro em formato Excel, onde na descrição de cada fotografia aérea
se encontra a informação constante na caixa ou na capa de proteção de cada chapa de
vidro. À semelhança do que ocorre com as BD dos IGT e EUC, a descrição dos seus
registos (feitos a nível do documento simples) não seguem as normas de descrição
arquivística (ISAD(G) e ODA), mas este ficheiro contém os elementos identificativos
considerados importantes, tais como a data da captação, localidade, município, distrito
e número da chapa de vidro (fotografia).
Para divulgar online este fundo documental, chegou a ser concebido um outro
motor de pesquisa no SNIT/AH‐OTDU. Este motor de pesquisa consistia numa versão
mais simplificada do construído para o fundo documental dos IGT (em
disponibilização), devido aos poucos campos de descrição existentes. Por falta de
meios que possibilitassem o já referido tratamento de justaposição e mosaicagem,
este motor de pesquisa encontra‐se no presente momento desativado.
Para o desenvolvimento do presente estudo, a amostragem selecionada
consistiu em 17 registos de fotografias aéreas, correspondentes a 13 localidades34
(Apêndice C). Para a obtenção desta amostragem, e face aos constrangimentos já
relatados, estes registos foram descritos pela aluna no âmbito da presente dissertação
de mestrado tendo por base o eventual e hipotético resultado do já referido
34 A localidade "Évora" detém cinco registos, correspondentes a cinco voos, feitos em datas diferentes.
34
tratamento digital, correspondendo assim à aglutinação de 684 representações digitais
de fotografias aéreas em chapa de vidro.
Neste sentido, foi necessário criar uma nova tabela com os registos das
fotografias aéreas resultantes deste hipotético tratamento, desta vez elaborada
conforme as já referidas normas de descrição ISAD(G) e ODA. Os campos utilizados
foram os mesmos já referidos para o fundo documental dos Álbuns fotográficos (vide
Apêndice C).
e) Fundos Bibliográficos do AH‐OTDU
Esta coleção é proveniente dos acervos bibliográficos que constituíram os
Centros de Documentação / Bibliotecas, que foram prestando o seu apoio às
atividades exercidas pela Direcção‐Geral dos Serviços de Urbanização (DGSU) e as suas
sucessoras.
Tendo em conta os direitos de autor, apenas uma pequena parte deste fundo
bibliográfico foi alvo de digitalização e disponibilização online. Neste sentido,
encontram‐se disponíveis online 3 Relatórios35 e 16 Boletins36 da DGSU e ainda as 32
revistas "Urbanização"37 (revista do Centro de Estudos de Urbanismo e de Habitação
Engenheiro Duarte Pacheco (CEUHEDP)), em formato Adobe PDF. As suas datas de
publicação estão compreendidas entre 1945 a 1974.
Embora não estejam discriminados os seus índices e os respetivos artigos em
separado, o acesso a estas peças bibliográficas faz‐se através de página web própria,
não recorrendo portanto ao motor de pesquisa utilizado para os IGT. Tal facto
possibilita ao utilizador aceder mais rapidamente à página web da bibliografia
solicitada através do motor de pesquisa Google (ex.: pelos termos de pesquisa
35 Disponíveis online em: http://www.dgterritorio.pt/sistemas_de_informacao/snit/arquivo_historico_de_planos__arquivo_historico_/outros_documentos/#relatorios_da_direccao_geral_dos_servicos_de_urbanizacao__dgsu_.
36 Disponíveis online em: http://www.dgterritorio.pt/sistemas_de_informacao/snit/arquivo_historico_de_planos__arquivo_historico_/outros_documentos/#boletins_da_direccao_geral_dos_servicos_de_urbanizacao__dgsu_.
37 Disponíveis online em: http://www.dgterritorio.pt/sistemas_de_informacao/snit/arquivo_historico_de_planos__arquivo_historico_/outros_documentos/#urbanizacao___revista_do_centro_de_estudos_de_urbanismo_e_habitacao_engenheiro_duarte_pacheco.
35
"Boletins" e "D.G.S.U."). O mesmo já não acontece com os documentos consultados
através do motor de pesquisa construído para os IGT ‐ fazendo uma pesquisa no motor
de pesquisa Google por "Anteplano de Urbanização " "Fátima", o utilizador não
consegue aceder diretamente à página web do processo e peças documentais
pretendidas.
Para o presente estudo, a amostragem deste fundo documental incidiu nesta
bibliografia já disponível online, tendo sido feita uma seleção de artigos que pudessem
ter uma relação com os fundos documentais atrás referidos, nomeadamente através
dos seus autores ou dos projetos em si e as respetivas localidades. Desta seleção
resultou a escolha de 9 artigos: 8 artigos provenientes da revista "Urbanização" e
apenas um proveniente dos Boletins da D.G.S.U.. Para a elaboração da tabela
contendo estes registos foram utilizadas as normas de descrição arquivística ISAD(G) e
ODA. Assim, e à semelhança do já elaborado para as já referidas peças fotográficas, e
tratando os artigos como documentos simples, os campos utilizados foram os descritos
no Apêndice C.
3.2. Ponto único de acesso online do AH‐OTDU ‐ Definição da sua proposta
3.2.1. O modelo de dados EDM ‐ Análise SWOT
Para uma aplicação do modelo de dados EDM no desenvolvimento da presente
proposta de ponto único de acesso online, foi necessário executar primeiro a seguinte
análise SWOT, visando identificar os riscos a considerar e os problemas a resolver, bem
como as vantagens e as oportunidades a explorar, no âmbito do SNIT/AH‐OTDU.
36
A nível interno do SNIT/AH‐OTDU:
Pontos fortes (Strenghts) Pontos fracos (Weaknesses)
• Importância dos fundos documentais como fonte de informação e acesso aos mesmos por parte dos utilizadores
• Forte empenhamento na divulgação destes fundos documentais por parte das hierarquias superiores
• Experiência e conhecimento por parte dos técnicos da DGT do SNIT/AH‐OTDU
• Escassos recursos humanos com conhecimento e domínio de linguagens de programação informática
• Escassez de recursos financeiros, técnicos e tecnológicos (ex: ausência de scanner para trabalhos de digitalização de grandes formatos)
• Dependência de programas de apoio como recurso financeiro
• Inexistência de base de dados online com os registos de descrição da documentação dos restantes fundos (EUC, álbuns fotográficos da DGSU, fotografias aéreas do séc. XX)
Tabela 2: SNIT/AH‐OTDU ‐ Análise SWOT ‐ pontos fortes e pontos fracos
A nível externo do SNIT/AH‐OTDU:
Oportunidades (Opportunities) Ameaças (Threats)
• Tendência crescente para o reconhecimento da informação arquivística como essencial para a investigação e identidade das comunidades abrangidas
• Importância da informação arquivística de âmbito territorial para o reconhecimento de direitos e deveres
• Facilidade de compreensão da linguagem de programação subjacente ao modelo de dados EDM e sua aplicação
• EDM como modelo de dados concebido para a Web Semântica
• Oportunidade de divulgação dos fundos documentais a nível mundial através do Portal Europeana
• Programas de apoio financeiro ou logístico (Parcerias, Mecenato, Protocolos)
• Tecnologias de informação e comunicação open‐source
• Restrições à divulgação de parte dos fundos arquivísticos impostas pela legislação* (ex: proteção de dados pessoais) ou por condições estabelecidas nos protocolos de doação dos acervos
• Tendência decrescente do investimento na divulgação de documentação de cariz cultural, resultante da crise económica nacional
• Limitações no ingresso de novos técnicos nos quadros de pessoal da Administração Pública
• Desmembramento dos acervos documentais, por motivos de fusão / separação das instituições.
Tabela 3: SNIT/AH‐OTDU ‐ Análise SWOT ‐ oportunidades e ameaças
37
De frisar que na ameaça assinalada com (*), cumpre aqui referir que a
legislação pode atuar aqui não tanto como uma ameaça mas mais como uma eventual
condicionante à aplicação desta proposta. Na execução desta proposta, terá que se ter
em consideração não só a aplicação do Decreto‐Lei nº 16/93, de 23 de Janeiro (que
define o Regime Geral dos Arquivos e do Património Arquivístico), em especial o artigo
17º38. Neste sentido, e após análise jurídica com parecer positivo ou parcialmente
positivo, poder‐se‐á optar por várias alternativas de disponibilização da sua
informação. Tentando evitar o risco das "coleções escondidas"39, poderão ser
disponibilizados online apenas os metadados mais significativos das bases de dados em
apreço e a consulta dos seus processos ser feita por via presencial. Ou ainda, poder‐se‐
ão digitalizar e disponibilizar online apenas partes dos processos que não
comprometam os direitos acima referidos. Tomando como exemplo os processos
referentes aos EUC, apenas as digitalizações das peças desenhadas que contenham os
alçados dos edifícios poderiam eventualmente ser disponibilizados online.
3.2.2. Experiências realizadas
Com base nas leituras feitas e análise SWOT atrás referidas, para a aplicação do
modelo de dados EDM e o desenvolvimento do ponto de acesso online único para os
fundos documentais em apreço, foi delineado este primeiro esquema:
38 Sobre a comunicação do património arquivístico, sobretudo no que toca à proteção de dados pessoais, como referido neste artigo, no seu nº2: " Não são comunicáveis os documentos que contenham dados pessoais de carácter judicial, policial ou clínico, bem como os que contenham dados pessoais que não sejam públicos, ou de qualquer índole que possa afectar a segurança das pessoas, a sua honra ou a intimidade da sua vida privada e familiar e a sua própria imagem, salvo se os dados pessoais puderem ser expurgados do documento que os contém, sem perigo de fácil identificação, se houver consentimento unânime dos titulares dos interesses legítimos a salvaguardar ou desde que decorridos 50 anos sobre a data da morte da pessoa a que respeitam os documentos ou, não sendo esta data conhecida, decorridos 75 anos sobre a data dos documentos."
39 Tradução livre do termo "hidden collections" (Gracy, 2014, p. 11).
38
Fig. 3: Primeira proposta de estruturação do ponto de acesso online único
Neste esquema, planeou‐se a convergência para um único ficheiro Excel ("flat
file") dos dados constantes nas várias tabelas das amostragens do AH‐OTDU, para
depois ser convertido para RDF, seguindo o modelo de dados EDM. No entanto,
constatou‐se que esta primeira abordagem seria inviável, devido às características
específicas de cada amostragem:
Nem todas as amostragens detinham os mesmos campos de descrição. É
de relembrar que os campos de descrição das tabelas referentes às
amostragens das peças desenhadas e escritas dos IGT e dos processos EUC
são diferentes das tabelas das amostragens das peças fotográficas, vindas
dos levantamentos aéreos e dos álbuns, e os artigos dos fundos
bibliográficos. Enquanto que nestas últimas, a sua descrição já seguia as
normas de descrição ISAD(G) e as ODA, nas outras a informação é
proveniente de tabelas cuja descrição dos registos não estão estruturados
conforme estas normas;
Existem diferenças em termos do nível de descrição nas tabelas das
amostragens. No caso das amostragens das peças desenhadas e escritas
dos IGT, das peças fotográficas vindas dos álbuns e dos levantamentos
aéreos e dos artigos dos fundos bibliográficos, os seus registos encontram‐
se tratados ao nível do documento simples. No caso da amostragem dos
39
EUC, os seus registos encontram‐se tratados ao nível da unidade de
instalação, detendo por isso menos campos de descrição e menos detalhes
informativos do que as outras amostragens.
Face ao atrás exposto, foi necessário reformular a estruturação atrás
apresentada:
Fig. 4: Segunda proposta de estruturação do ponto de acesso online único
Neste novo esquema, a tabela com os registos de cada amostragem é
convertida para RDF individualmente. Após processamento da sua reconciliação com
os datasets disponíveis, a pesquisa por dados e "Linked Data" que lhes estejam
associados nestes RDFs poderá eventualmente ser feita através de um SPARQL
Endpoint40 disponível online. Neste sentido, julgou‐se necessário criar ou adaptar
campos de descrição existentes, tornando‐os comuns em todas as tabelas das
40 Um SPARQL Endpoint consiste num serviço assente no protocolo SPARQL, seguindo as especificações SPROT (SPARQL Protocol for RDF). Estes endpoints permitem aos utilizadores (humanos ou outros) pesquisar uma base de dados de conhecimento através da linguagem SPARQL. Os resultados desta pesquisa são geralmente devolvidos em um ou mais formatos processáveis pelas máquinas. Daí que o SPARQL Endpoint seja considerado como uma interface de pesquisa a bases de conhecimento mais "machine‐friendly". No entanto, quer a formulação das queries e quer a apresentação dos resultados de uma forma mais legível pelos humanos (human‐readable) deverão ser implementados pelo software em utilização e não ser feito manualmente pelos utilizadores humanos (fonte: http://semanticweb.org/wiki/SPARQL_endpoint.html, consultado em 12 Set. 2015).
40
amostragens em apreço, e que seguissem o estipulado nas Mapping Guidelines do
modelo EDM (Europeana, 2015a).
Assim, os campos de descrição definidos foram:
Campo de descrição comum para RDF
Classe/propriedade EDM Características (EDM)41
Planta_Nome Edm:ProvidedCHO / dc:title
O título / designação do objeto cultural (CHO) (propriedade obrigatória).
DataPlanta Edm:ProvidedCHO / dc:date
Destinado a indicar datas relevantes no ciclo de vida do objeto.
Plano_Nome Edm:ProvidedCHO / dcterms:isPartOf
Indicação do recurso onde o objeto cultural (CHO) está fisicamente ou logicamente integrado. Esta propriedade pode ser utilizada para objetos que façam parte de uma hierarquia42, a fim de serem corretamente apresentados no Portal Europeana.
Autor_Nome Edm:ProvidedCHO / dc:creator
Destinado a identificar o criador / autor do objeto43.
Ano44 Edm:ProvidedCHO / dc:date
Destinado a indicar datas relevantes no ciclo de vida do objeto.
LinkThumb Ore:Aggregation / edm:object
Indicação do URL para a representação digital do objeto cultural (CHO) destinado a pré‐visualização, para utilização do Portal Europeana.
LinkZoom Ore:Aggregation / edm:IsShownBy
Indicação do URL para a visualização na web da representação digital do objeto cultural (CHO) (propriedade obrigatória).
ID_Provider Edm:ProvidedCHO / dc:identifier
Destinado a indicar o identificador (código) do objeto cultural (CHO).
Ore:Aggregation / edm:aggregatedCHO
Indicação do identificador do objeto cultural (CHO) por si.
41 Segundo as Mapping Guidelines do modelo de dados EDM (Europeana, 2015a).
42 Em desenvolvimento pela Task Force sobre a representação hierárquica de objetos na Europeana (Europeana, 2015c).
43 Para esta propriedade, a Europeana recomenda a utilização de um ficheiro de autoridades.
44 A amostragem do fundo documental dos EUC não detém datas mais detalhadas sobre as suas peças, mas apenas a data em que foi feito o registo do seu processo. Neste sentido, julgou‐se pertinente apresentar só a indicação do ano. Dado que o modelo de dados EDM não contempla uma propriedade específica para indicação do ano em que o objeto foi criado, repetiu‐se a propriedade dc:date.
41
Campo de descrição comum para RDF
Classe/propriedade EDM Características (EDM)41
Aqui poderão ser utilizados os identificadores (IDs) internos (propriedade obrigatória).
Link_PagPD Edm:WebResource / dcterms:IsPartOf
Indicação da localização onde o recurso web do objeto cultural (CHO) se encontra fisicamente ou logicamente integrado. Esta propriedade pode ser utilizada para objetos que façam parte de uma hierarquia45, a fim de serem corretamente apresentados no Portal Europeana.
Ore:Aggregation / edm:isShownAt
Indicação do URL para a visualização na web da representação digital do objeto cultural (CHO) no seu contexto informacional (propriedade obrigatória, embora a sua utilização possa ser dispensada se estiver a ser utilizada o edm:isShownBy).
Coverage Edm:ProvidedCHO / dcterms:spatial
Destinado a indicar as características geográficas e localização a que o objeto reporta. (propriedade obrigatória, que poderá ser substituída pelas propriedades dc:type, dc:subject ou dc:coverage).
Description Edm:WebResource / dc:description
Indicação da descrição do objeto cultural (CHO) sobre a qual reporta a representação digital.
Format Edm:WebResource / dc:format
Indicação do formato da representação digital
Language Edm:ProvidedCHO / dc:language
Destinado a indicar o idioma utilizado no objeto cultural (propriedade obrigatória para objetos textuais e recomendada para as outras tipologias de objetos culturais que detenham este aspeto (ex: legendas)).
Type Edm:ProvidedCHO / edm:Type
Destinado a identificar a tipologia de objeto cultural (ex: texto, som), de preferência conforme listagem indicada pela Europeana (propriedade obrigatória).
Propriedade Ore:Aggregation / edm:dataProvider
Indicação do nome ou identificador da entidade / instituição que fornece os dados para a Europeana (propriedade obrigatória).
45 Em desenvolvimento pela Task Force sobre a representação hierárquica de objetos na Europeana (Europeana, 2015c).
42
Campo de descrição comum para RDF
Classe/propriedade EDM Características (EDM)41
Direitos_Europeana Ore:Aggregation / dc:rights
Indicação do estatuto e direitos da representação digital fornecida à Europeana46.
Provider Ore:Aggregation / edm:provider
Indicação do nome ou identificador da entidade / instituição que fornece diretamente os dados para a Europeana (propriedade obrigatória). Neste caso, e uma vez que a DGT já estava a ser referida na propriedade edm:dataprovider, foi aqui referido o SNIT/AH‐OTDU.
Tabela 4: Campos de descrição definidos para posterior processamento
no software OpenRefine
Para executar esta operação, recorreu‐se ao uso do software Open Refine, a fim
de criar e estruturar os RDFs das tabelas das amostragens (Apêndice E), e tentar
reconciliar a sua informação com os datasets disponíveis online.
Para além destes campos atrás referidos, foram mantidos os outros campos de
descrição provenientes das tabelas‐base, que continham mais detalhes sobre as peças
documentais em apreço (vide Apêndice D).
46 A Europeana sugere o edm:rights como propriedade obrigatória nesta classe. Contudo o mesmo não consta no vocabulário do prefixo EDM, pelo que foi utilizado o dc:rights.
43
Capítulo 4: Ponto único de acesso online do AH‐OTDU ‐ Resultados e discussão
4.1. Considerações sobre a estruturação dos RDF das amostragens em estudo
Para o fundo documental dos IGT (peças desenhadas e escritas), a estruturação
do RDF47 respeitando as hierarquias existentes (Fig. 5) seria a proposta mais
consistente, seguindo os exemplos propostos pela Task Force (Europeana, 2015b),
onde é recomendada a utilização da propriedade Edm:IsNextInSequence, a fim de ser
possível representar a sequência hierárquica das peças processuais.
No caso específico da amostragem do fundo documental dos IGT, quer as peças
desenhadas quer as peças escritas detêm uma sequência de apresentação definida ‐ e
que se encontra representada na numeração atribuída pelos próprios autores do
projeto. Na BD AH‐OTDU, esta numeração encontra‐se registada no campo de
descrição “ordenação”, que por sua vez torna possível a ordenação das representações
digitais destas peças aquando da apresentação das listagens das peças processuais nas
webpages correspondentes em SNIT/AH‐OTDU, mesmo para os casos das peças que
não tenham sido numeradas de origem.
47 Na estruturação RDF apresentada na fig. 5, estão representados os pareceres do Conselho Superior de Obras Públicas e Transportes (CSOPT). No entanto cumpre alertar que, aquando da fase de definição da amostragem do fundo documental dos IGT, nenhuma destas peças processuais foi contemplada, por o seu número de volumes ainda ser escasso.
44
Fig. 5: Proposta de estrutura RDF de um processo de IGT, adaptado do exemplo sugerido pela Task Force sobre a representação hierárquica de objetos no Portal Europeana
(Europeana, 2015c, p. 16)
No entanto, e mesmo detendo a informação sobre a sequenciação destas peças
documentais, não foi possível a aplicação desta estruturação em RDF, pela razão de
não existir uma página web autónoma do processo que mostre as peças processuais
por si contidas. No caso específico deste fundo documental (o único cuja maioria das
reproduções digitais das suas peças se encontra disponível online), a landing page48 do
processo em si corresponde à webpage das suas peças desenhadas ou das suas peças
escritas. Evidencia‐se aqui uma situação de “missing node” (“nó perdido”), na medida
em que o utilizador estabelece uma ligação direta com o processo através de uma
destas opções e não com uma webpage que apresente uma listagem ‐ com ligações
para todo o conteúdo deste processo.
48 No contexto do modelo de dados EDM, o termo landing page reporta ao recurso web de referência, onde o objeto cultural pode ser acedido (Europeana, 2014, pg. 37). De uma forma mais genérica, este termo designa uma página de entrada para aceder a um recurso online, de forma direta, tendo nascido no contexto das práticas de marketing online na Internet (fonte: https://en.wikipedia.org/wiki/Landing_page, consultada em 2015‐09‐25).
45
A fim de tentar solucionar esta situação, esta Task Force (Europeana, 2015b)
propõe a utilização de classes contextuais (skos:Concept, Edm:PhysicalThing), como
demonstrado na fig. 6.
Fig. 6: Estrutura RDF onde não está representada a classe ProvidedCHO em falta (à esquerda) e estrutura RDF onde a classe ProvidedCHO em falta foi substituída
por uma entidade contextual (à direita) (Europeana, 2015c, pg. 24).
No entanto, e como alertado pela própria Task force (Europeana, 2015c),
soluções como esta poderão conferir um maior grau de complexidade e desafios no
que toca ao desenvolvimento de interfaces de pesquisa e apresentação dos seus
resultados. Para além de outros eventuais problemas, são também referidos os casos
em que, ao utilizar estas entidades contextuais, as mesmas podem não deter
metadados suficientes para a sua estruturação.
Essa situação verifica‐se no caso da amostragem do fundo documental dos EUC,
onde a aplicação desta proposta seria difícil de provar, uma vez que não existem de
momento levantamentos das peças processuais que o constituem. Só existe mesmo
informação da unidade de instalação em si e nada referente às suas peças desenhadas
e escritas. Da base de dados existente deste fundo, faltam campos de descrição
declarados como obrigatórios pela ISAD(G) e pelo modelo de dados EDM
(edm:ProvidedCHO) ‐ como o campo de descrição destinado à autoria do processo e
respetivo projeto de arquitetura.
O mesmo ocorre com as restantes amostragens – por se encontrarem em fase
de pré‐inventário ‐ é de momento difícil determinar qual a sequência e hierarquia das
suas peças documentais.
46
4.2. Considerações sobre a reconciliação dos RDFs das amostragens com os
datasets "Linked Data" internacionais
Uma vez feita a estruturação RDF das amostragens já referidas, foram
processados os serviços de reconciliação de alguns dos seus campos com os datasets
"Linked Data" internacionais mais divulgados, nomeadamente o Freebase49, a
DbPedia50, o Sindice51 e o Geonames52, este último para os dados geográficos.
Apesar de estes datasets estarem disponíveis através de serviços de
reconciliação com ligação aos seus respetivos SPARQL Endpoints ou Service API,
surgiram dificuldades.
No caso da utilização dos datasets DbPedia, Freebase e Sindice, e decorridos os
serviços de reconciliação com os campos de descrição geográficos mais granulares
advindos da atomização do campo "Coverage" ‐ como os campos "Município" e
49 A Freebase é uma base de conhecimentos colaborativa, contendo dados criados pelos membros da
sua comunidade. Constitui‐se como uma coleção de dados estruturados online recolhidos de várias
fontes, incluindo contributos submetidos por utilizadores do Wiki. O seu objetivo assenta na criação de
um repositório global que possibilite um acesso mais eficaz à informação, quer por utilizadores quer por
máquinas (fonte: https://en.wikipedia.org/wiki/Freebase, consultado em 29 Ago. 2015).
50 A DBpedia consiste num motor de pesquisa que possibilita ao utilizador fazer queries mais complexas
sobre a informação estruturada existente na Wikipedia, incluindo ligações a recursos Linked Data (fonte:
http://pt.dbpedia.org/en/what‐is‐it, consultado em 29 Ago. 2015).
51 O Sindice apresenta‐se como um índice de pesquisa de documentos na Web Semântica. Faz a
indexação da Web Semântica, facultando informação sobre quais as fontes que mencionam um recurso
URI, IFP ou palavra‐chave. Este motor de pesquisa não devolve resultados de pesquisa por "triplas",
podendo no entanto ser utilizado para procurar fontes de informação RDF relevantes (fonte:
https://www.w3.org/2001/sw/wiki/Sindice, consultado em 29 Ago. 2015).
52 O Geonames consiste numa base de dados geográficos a nível global. Através do seu motor de
pesquisa, o utilizador consegue ter acesso à sua base de dados, que contém cerca de 10 milhões de
registos de nomes de localidades e cerca de 7,5 milhões de recursos (features). Todos estes recursos
encontram‐se distribuídos por 9 classes e depois subdivididos por 645 códigos (feature codes). Para
além de disporem dos nomes das localidades em vários idiomas, os seus registos também incluem a
latitude, longitude, elevação, população, subdivisões administrativas e códigos postais. Todas as
coordenadas aqui indicadas utilizam o sistema referencial geodésico World Geodetic System 1984
(WGS84). Cada recurso aqui providenciado é representado como um recurso web, identificado por um
URI estável. Este URI garante o acesso a uma página HTML da Wikipedia ou a uma descrição RDF do
recurso, utilizando elementos da ontologia Geonames. Com base nas ligações URL de artigos da
Wikipedia, contidas na descrição destes RDFs, os dados do Geonames estão ligados a registos da
DBpedia ou outros recursos em Linked Data RDF (fonte: https://en.wikipedia.org/wiki/GeoNames,
consultado em 29 Ago. 2015).
47
"Localidade", os resultados foram na sua maioria nulos. Tomando como exemplo o
caso da localidade "São João da Madeira", este foi confundido por "Gilberto, João "
(cantor) pelo dataset DBPedia.
Ainda recorrendo a estes datasets internacionais, e já no caso dos RDFs dos IGT
(peças desenhadas e peças escritas), nos campos destinados à indicação dos autores
do processo, os resultados da reconciliação com estes datasets foram nulos. Apenas o
dataset DBPedia contém registos sobre autores de projetos de arquitetura e
urbanismo, mas apenas os mais recentes, como por exemplo, Siza Vieira ou Eduardo
Souto de Moura ‐ autores estes que não constam nem nos registos das amostragens e
muito menos no espólio do AH‐OTDU até ao presente. Neste sentido, e a fim de poder
levar a cabo os testes, foi necessário criar um projeto Open Refine e ficheiro RDF à
parte, e depois integrar um novo serviço de reconciliação com base neste RDF,
designado por "Autores_OTDU", baseada numa tabela feita (em formato Excel)
(Apêndice F), onde constam os nomes dos autores que são referidos nas amostragens
e os links para as suas biografias. Poucos links para estas biografias foram recolhidos ‐
a sua recolha fez‐se através de pesquisa geral na web, dado que nem a própria
Wikipedia detém estas informações. Foi também consultado o website do motor de
pesquisa53 do Ficheiro Nacional de Autoridades Arquivísticas (FNAA)54, onde se
verificou que o mesmo ainda não detém estes dados de cariz biográfico sobre autores
de projetos de arquitetura e urbanismo do período temporal abrangido pelo AH‐OTDU.
A mesma situação se verificou com os campos destinados a indicar a autoria nos
restantes fundos documentais.
No caso específico do dataset Geonames, o seu website não disponibilizava um
SPARQL Endpoint directo. Uma vez que seria necessário envidar esforços a nível de
programação informática de maior complexidade para se poder ter acesso ao seu
53 Acedido em 28 de Abril de 2015, através do link http://autoridades.arquivos.pt/.
54 O FNAA tem como objetivo garantir a recuperação e o acesso às descrições das diferentes entidades lógicas que o integram, entre as quais entidades produtoras (pessoas coletivas, pessoas singulares e famílias, ativas ou extintas, na sua qualidade de produtoras da documentação de arquivo), entidades detentoras (Arquivos, Bibliotecas, Museus ou quaisquer outras entidades, desde que detentores de documentação de arquivo) e entidades aderentes à Rede Portuguesa de Arquivos (RPA) (fonte: http://arquivos.dglab.gov.pt/rede‐portuguesa‐de‐arquivos/fnaa/, consultado em 28 Abr. 2015).
48
Service API55, foi criado um serviço de reconciliação com base em ficheiro RDF,
utilizando o dataset de Portugal disponibilizado online pelo próprio Geonames. Uma
vez adicionado, foi corrido este serviço de reconciliação com o campo "Coverage", do
qual nada resultou. Dado que se mantiveram em todas as amostragens os campos
"País", "Distrito", Município" e "Localidade" (campos resultantes de uma atomização
do campo "Coverage", e que a respetiva informação aqui contida poderá ser
considerada como ponto de acesso nominal56), estes foram de seguida submetidos ao
mesmo processo de reconciliação ‐ que em nada resultou também. Daqui se deduz
que eventualmente, a sua reconciliação só seria possível quando feita através de
outros recursos de programação mais avançados, e após integração dos RDFs do AH‐
OTDU nas bases de dados do Portal Europeana. A fim de tentar continuar os testes, foi
necessário criar um projeto e ficheiro RDF à parte e depois integrar um novo serviço de
reconciliação com base neste RDF, denominado "Geonames_Select_Link", baseada
numa tabela feita (Apêndice G), que inclui a indicação dos permalinks57 (na sua maioria
com o nível "Admin1") para cada localidade, obtidos manualmente através de pesquisa
no próprio website do Geonames.org.
Face a estes resultados de reconciliação com datasets internacionais, e no
seguimento do já executado para a reconciliação de dados dos campos de descrição
destinados à autoria dos processos e aos dados geográficos, foram criados mais
serviços de reconciliação com base nos RDFs provenientes dos projetos Open Refine
dos próprios fundos documentais em análise, passando a partir daqui a serem os
testes operacionalizados em circuito interno. Com base nestes novos serviços, foram
feitos novos testes de reconciliação.
55 API corresponde ao acrónimo de Application Programming Interface. No contexto do dataset Geonames, o Service API constitui‐se como uma funcionalidade, disponível para programadores, através do qual estes conseguem criar aplicações que possam aceder a funcionalidades do serviço Geonames. O acesso, consulta e extração de conteúdos deste dataset podem assim ser feitos de uma forma automatizável por programação.
56 ODA, v.2, pg. 196 ‐ A entidade geográfica pode ser considerada um ponto de acesso nominal.
57 Designação abreviada para indicar os "permanent links", adotada pelo Geonames.org.
49
Assim sendo, para o projeto Open Refine dos IGT ‐ Peças desenhadas (total de
174 registos), os resultados foram:
Campos submetidos a reconciliação de dados
Serviço de reconciliação de dados utilizado
Resultados obtidos Novo campo criado (resultado da reconciliação)
Reconciliados Nulos
Plano_Nome IGT_Peças Escritas 82% 18% Plano_Nome_Recon_PEscritas
Autor_Nome Autores_OTDU 22% 78% AutorNome_ReconResult_Autores_OTDU
Coverage Geonames_Select_Link
0% 100% Não foi criado novo campo para acolher este resultado
Municipio Geonames_Select_Link
100% 0% Municipio_Recon_GeonamesSelect
Municipio Fotos Aéreas 10% 90% Municipio_Recon_FotosAereas
Localidade Geonames_Select_Link
88% 12% Localidade_Recon_GeonamesSelect
Localidade Fotos Aéreas 10% 90% Localidade_Recon_FotosAereas
Tabela 5: IGT ‐ Peças desenhadas ‐ Resultados do processamento de serviços de reconciliação
de dados, através do software OpenRefine
No projeto Open Refine dos IGT ‐ Peças escritas (total de 186 registos), os resultados
foram:
Campos submetidos a reconciliação de dados
Serviço de reconciliação de dados utilizado
Resultados obtidos Novo campo criado (resultado da reconciliação)
Reconciliados Nulos
Plano_Nome IGT_Peças Desenhadas
54% 46% Plano Nome_ReconcResult_PD
Autor_Nome Autores_OTDU 10% 90% AutorNome_ReconResult_AutoresOTDU
Coverage Geonames_Select_Link
0% 100% Não foi criado novo campo para acolher este resultado
Municipio Geonames_Select_Link
100% 0% Municipio_Recon_GeonamesSelect
Municipio Fotos Aéreas 12% 88% Municipio_Recon_FotosAereas
50
Campos submetidos a reconciliação de dados
Serviço de reconciliação de dados utilizado
Resultados obtidos Novo campo criado (resultado da reconciliação)
Reconciliados Nulos
Localidade Geonames_Select_Link
70% 30% Localidade_Recon_GeonamesSelect
Localidade Fotos Aéreas 0% 100% Não foi criado novo campo para acolher este resultado
Tabela 6: IGT‐Peças escritas ‐ Resultados do processamento de serviços de reconciliação de
dados, através do software OpenRefine
Cumpre aqui referir que, para estas duas amostragens, foram obtidos melhores
resultados com a reconciliação dos campos de descrição que reportassem aos dados
geográficos, atomizados do campo de descrição "Coverage" (os campos "Municipio" e
"localidade") e com os serviços RDF criados a partir da tabela criada com os links
Geonames.
Para o projeto Open Refine dos EUC (total de 14 registos), os resultados foram:
Campos submetidos a reconciliação de dados
Serviço de reconciliação de dados utilizado
Resultados obtidos Novo campo criado (resultado da reconciliação)
Reconciliados Nulos
Plano_Nome Geonames_Select_Link
0% 100% Não foi criado novo campo para acolher este resultado
Coverage Geonames_Select_Link
0% 100% Não foi criado novo campo para acolher este resultado
Municipio Geonames_Select_Link
100% 0% Municipio_GeonamesLink_ReconcResult
Municipio Fotos Aéreas 28% 72% Municipio_Recon_FotosAereas
Localidade Geonames_Select_Link
100% 0% Localidade_GeonamesLink_ReconcResult
Localidade Fotos Aéreas 22% 78% Localidade_Recon_FotosAereas
Tabela 7: EUC ‐ Resultados do processamento de serviços de reconciliação de dados, através do
software OpenRefine
De referir que, nesta amostragem não existe o campo "Autor_Nome" mas sim o
campo "entidade_peticionária", com dados completamente distintos. Devido a este
facto, este campo não foi submetido a reconciliação de dados.
51
À semelhança do que ocorreu com as amostragens dos IGT, neste fundo foram
novamente obtidos melhores resultados com a reconciliação dos campos de descrição
referentes aos dados geográficos, resultantes da atomização do campo de descrição
"Coverage" (os campos "Municipio" e "localidade") e com os serviços RDF criados a
partir da tabela criada com os links Geonames.
No projeto Open Refine das peças fotográficas dos álbuns (total de 56 registos),
os resultados foram:
Campos submetidos a reconciliação de dados
Serviço de reconciliação de dados utilizado
Resultados obtidos Novo campo criado (resultado da reconciliação)
Reconciliados Nulos
Plano_Nome IGT_Peças Desenhadas
0% 100% Não foi criado novo campo para acolher este resultado
EUC_Select_Equip 0% 100% Não foi criado novo campo para acolher este resultado
Coverage Geonames_Select_Link
0% 100% Não foi criado novo campo para acolher este resultado
Municipio Geonames_Select_Link
100% 0% Municipio_GeonamesLink_ReconcResult
Municipio Fotos Aéreas 25% 75% Municipio_Recon_FotosAereas
Localidade Geonames_Select_Link
100% 0% Localidade_GeonamesLink_ReconcResult
Localidade Fotos Aéreas 16% 84% Localidade_Recon_FotosAereas
Unidades de descrição relacionadas
EUC_Select_Equip 0% 100% Não foi criado novo campo para acolher este resultado
Tabela 8: Peças dos álbuns fotográficos ‐ Resultados do processamento de serviços de
reconciliação de dados, através do software OpenRefine
Mais uma vez, e à semelhança das amostragens anteriores, os melhores foram
obtidos nos mesmos campos de descrição geográfica com os mesmos serviços RDF
atrás referidos. Reportaram‐se no entanto dificuldades em reconciliar com o serviço
RDF criado a partir das amostragens dos fundos documentais dos IGT e dos EUC. Ao
tentar fazer a reconciliação de dados do campo "Plano_Nome" com o serviço de
reconciliação "IGT‐Peças Desenhadas", pretendeu‐se testar se o mesmo seria possível,
52
tendo por base a indicação geográfica referida na designação do processo, mesmo
sabendo que os processos são distintos entre si. No caso da reconciliação de dados do
campo "Plano_Nome" com o serviço de reconciliação " EUC_Select_Equip", o mesmo
foi feito tendo por base duas indicações ‐ a localização geográfica e a tipologia de EUC ‐
presentes na designação do processo.
Para além do campo "Plano_Nome", foi também tentado reconciliar estes
serviços RDF com o campo "Unidades de Descrição relacionadas" (sugerido pelas
ISAD(G)), mas não foram obtidos resultados na mesma.
A provável razão poder‐se‐á prender com o facto de o conteúdo destes campos
não ser coincidente, ou seja, reportam ao mesmo processo mas a sua designação não
coincide. Outra causa poder‐se‐á prender com o excesso de informação contida nos
campos de descrição, feitos conforme o estipulado nas ISAD(G): o software em
utilização não é capaz de identificar palavras avulsas, identifica apenas a célula toda.
Neste caso, atomizar a informação contida nestes campos e distribui‐la por mais
campos poderia ser a solução – como já confirmado com a reconciliação dos campos
"Municipio" e "Localidade" (atomização do campo "Coverage"). No entanto, e
conforme os casos, tal poderia resultar num número infindável de campos. Seguindo
esta opção, aumentar‐se‐ia a complexidade do motor de pesquisa e das estruturas das
suas queries, necessárias para devolver e apresentar estes resultados ao utilizador,
uma vez que seria necessário contemplar todos os campos.
Para o projeto Open Refine das peças fotográficas aéreas (total de 17 registos),
os resultados foram:
Campos submetidos a reconciliação de dados
Serviço de reconciliação de dados utilizado
Resultados obtidos Novo campo criado (resultado da reconciliação)
Reconciliados Nulos
Plano_Nome Geonames_Select_Link
100% 0% Plano_Nome_GeonamesLink_ReconcResult
Coverage Geonames_Select_Link
0% 100% Não foi criado novo campo para acolher este resultado
Concelho Geonames_Select_Link
100% 0% Concelho_GeonamesLink_ReconcResult
53
Campos submetidos a reconciliação de dados
Serviço de reconciliação de dados utilizado
Resultados obtidos Novo campo criado (resultado da reconciliação)
Reconciliados Nulos
Localidade Geonames_Select_Link
100% 0% Localidade_GeonamesLink_ReconcResult
Tabela 9: Peças fotográficas aéreas ‐ Resultados do processamento de serviços de reconciliação
de dados, através do software OpenRefine
Cumpre aqui referir que, ao proceder à reconciliação do campo
"Plano_Nome"58 com o serviço de reconciliação "Geonames_Select_Link", foi testada a
opção de correção sugerida pelo software Open Refine, nos casos dos registos dos
voos feitos em Évora em datas diferentes. A aplicação desta opção resultou em perda
de informação nestes registos ‐ manteve‐se a indicação da localidade a que o voo
reportava, mas perdeu‐se a indicação do número de voo, informação que ajudava a
fazer a distinção entre estes registos. Neste sentido, é de considerar a criação de um
novo campo que detenha por si só a informação do número de voo, ou então neste
caso específico ignorar a opção sugerida pelo software, uma vez que a reconciliação
dos campos "Municipio" e "Localidade" com o serviço de reconciliação
"Geonames_Select_Link" já cobrem a totalidade dos registos.
No projeto Open Refine dos artigos do fundo bibliográfico (total de 9 registos),
os resultados foram:
Campos submetidos a reconciliação de dados
Serviço de reconciliação de dados utilizado
Resultados obtidos Novo campo criado (resultado da reconciliação)
Reconciliados Nulos
Plano_Nome IGT_Peças Desenhadas
0% 100% Não foi criado novo campo para acolher este resultado
Autor_Nome Autores_OTDU 89% 11% AutorNome_ReconResult_AutoresOTDU
Coverage Geonames_Select_Link
0% 100% Não foi criado novo campo para acolher este resultado
58 A designação original deste campo era "título". A sua designação foi alterada para "Plano_Nome", a fim de a sua estrutura RDF estar consonante com as das outras amostragens.
54
Campos submetidos a reconciliação de dados
Serviço de reconciliação de dados utilizado
Resultados obtidos Novo campo criado (resultado da reconciliação)
Reconciliados Nulos
Municipio Geonames_Select_Link
11% 89% Municipio_GeonamesLink_ReconcResult
Localidade Geonames_Select_Link
11% 89% Localidade_GeonamesLink_ReconcResult
Tabela 10: Artigos do fundo bibliográfico ‐ Resultados do processamento de serviços de
reconciliação de dados, através do software OpenRefine
No que reporta ao resultado nulo da tentativa de reconciliação feita para o
campo "Plano_Nome" com o serviço de reconciliação "IGT_Peças Desenhadas", esta
deveu‐se ao facto de a estrutura do RDF que deu origem a este serviço assentar no
objeto em si (as peças desenhadas) e não no processo em si (o Plano). Neste sentido, e
para colmatar esta situação, seria necessário autonomizar a informação desta unidade
de instalação (o Plano), tendo uma webpage própria para cada processo, onde
estariam replicados os links para as suas peças processuais, á semelhança do que
ocorre no formato analógico. Tendo esta autonomização, e como já referido, seria
assim mais fácil estruturar um ficheiro RDF e serviço de reconciliação próprio que
eventualmente pudesse estabelecer ligações com o campo "Plano_Nome" presente
nas amostragens.
No caso do resultado obtido da reconciliação feita para o campo "Autor_Nome"
com o serviço de reconciliação "Autores_OTDU", cumpre alertar que nem todos os
autores dos artigos selecionados estavam contemplados na listagem que deu origem
ao RDF dos "Autores_OTDU".
Nos casos dos resultados obtidos da reconciliação feita para os campos
"Municipio" e "Localidade" com o serviço de reconciliação "Geonames_Select_Link",
para além de alertar que nem todos os artigos detinham a indicação do município a
que reportavam, existiam também situações extremas que não foram aceites pelo
software. Uma destas situações prende‐se com o registo do artigo identificado como
PT/DGT/MOPC/DGSU/DGSU‐RevUrb01/RevUrb‐Art00001, em que no campo de
descrição "Municipio" consta a indicação dos municípios abrangidos (vide Apêndice C):
55
Amarante; Baião; Felgueiras; Gondomar; Lousada; Maia; Marco de Canaveses;
Matosinhos; Paços de Ferreira; Paredes; Penafiel; Porto; Póvoa de Varzim; Santo Tirso;
Valongo; Vila do Conde; Vila Nova de Gaia; Amares; Barcelos; Braga; Cabeceiras de
Basto; Esposende; Fafe; Guimarães; Póvoa de Lanhoso; Terras de Bouro; Vieira do
Minho; Vila Nova de Famalicão; Vila Verde; Arcos de Valdevez; Caminha; Melgaço;
Monção; Paredes de Coura; Ponte da Barca; Ponte de Lima; Valença; Viana do Castelo;
Vila Nova de Cerveira; Arouca; Castelo de Paiva; Espinho; Santa Maria da Feira; Oliveira
de Azeméis; Ovar; São João da Madeira; Vale de Cambra; Cinfães; Resende.
Neste caso específico, e mesmo que o software aceitasse esta dimensão de
caracteres, a sua reconciliação de dados seria também difícil, pelas razões já
apresentadas anteriormente ‐ a muita informação contida neste campo. Como já
referido, uma solução provável seria distribuir e isolar cada referência de município em
seu campo (Ex: Municipio_01, Municipio_02, Municipio_NN), a fim de ser mais fácil a
sua reconciliação. Mas neste caso em especial, tal resultaria num aumento
considerável do número de campos (mais quarenta e nove), e eventualmente numa
maior complexidade em estruturar o seu RDF, a sua query em SPARQL e a
apresentação dos resultados de pesquisa ao utilizador.
4.3. Considerações sobre a fase de experiências com as queries de teste
processados no SPARQL Endpoint
Preparados os RDFs na fase anterior ‐ contemplando os novos campos
resultantes dos serviços de reconciliação de dados, iniciou‐se a fase de testes de
queries num SPARQL Endpoint, recorrendo para tal ao OpenLink Virtuoso SPARQL
Query Editor59 e tomando como referência os exemplos de expressões indicados pela
W3C60.
59 O seu acesso faz‐se através do link http://demo.openlinksw.com/sparql. O OpenLink Virtuoso é uma edição open source do Virtuoso Universal Reader, que por sua vez consiste num motor híbrido de middleware e bases de dados que combinam as funcionalidades de RDBMS, ORDBMS, bases de dados virtuais, RDF, XML, free‐text, servidor de aplicações web e servidor de ficheiros num único sistema. Foi desenvolvido pela OpenLink Software, tendo como chefes de arquitetura de software Kingsley Uyi Idehen e Orri Erling (Fonte: https://en.wikipedia.org/wiki/Virtuoso_Universal_Server, consultado em 13 Set. 2015).
60 SPARQL By Example ‐ Disponibilizado pelo W3C em http://www.w3.org/2009/Talks/0615‐qbe/ (Consultado em 02 Ago. 2015).
56
O primeiro teste incidiu sobre a amostragem referente às Peças desenhadas
dos IGT, amostragem que detém as reproduções digitais disponíveis online. Uma vez
colocado o seu ficheiro RDF em servidor web público, foram testadas várias queries.
Dos vários testes executados, a primeira a apresentar resultados satisfatórios foi a
seguinte:
PREFIX dcterms: <http://purl.org/dc/terms/>
PREFIX edm: <http://www.europeana.eu/schemas/edm/>
PREFIX ore: <http://www.openarchives.org/ore/terms/>
PREFIX dc: <http://purl.org/dc/elements/1.1/>
SELECT ?Plano_Nome ?Autor_Nome ?Planta_Nome ?LinkThumb ?LinkZoom
?Municipio_Recon_GeonamesSelect ?Type ?Coverage
WHERE
{ ?x dc:title ?Planta_Nome.
?x dc:creator ?Autor_Nome.
?x edm:type ?Type.
?x edm:object ?LinkThumb.
?x edm:isShownBy ?LinkZoom.
?x dcterms:isPartOf ?Plano_Nome.
?x dcterms:spatial ?Coverage
}
ORDER BY ?Planta_Nome
Tabela 11: IGT ‐ Peças desenhadas ‐ Expressão da query utilizada no
OpenLink Virtuoso SPARQL Query Editor
Neste resultado (vide Apêndice H), foi devolvida a informação presente em
todos os campos solicitados na expressão da query, exceto a informação presente no
campo "Municipio_Recon_GeonamesSelect". Por este campo resultar de um serviço
de reconciliação de dados, o mesmo não foi contemplado na estrutura RDF (vide
apêndice E) do ficheiro submetido a este teste. A fim de comprovar a visualização dos
dados deste campo, foi criado novo ficheiro RDF que o contemplasse na sua estrutura
RDF. Sobre este novo ficheiro RDF foram executadas novas queries no SPARQL
Endpoint já referido, mas com resultados não concludentes.
57
Capítulo 5: Reflexões finais e propostas para implementação do ponto único de
acesso online do AH‐OTDU
A eventual imaturidade do software Open Refine poderá ter contribuído para
estes resultados. É um software em constante desenvolvimento, recebendo por isso
bastantes incrementos, alterações e adaptações. Pesa aqui também o facto de facto de
ser software Open Source ‐ desenvolvido menos para o mercado mas mais a nível
académico, tendo em vista a sua fruição pelas instituições culturais, conhecidas pelos
seus fracos recursos financeiros no que toca à divulgação dos seus acervos e fundos
culturais.
Quanto ao modelo de dados EDM, mesmo lançado em 2012, também se
encontra em desenvolvimento. No entanto, é de frisar que a Europeana detém outros
meios para adaptar os dados que recebe das instituições culturais. Mesmo solicitando
a estas que os seus dados sejam remetidos já conformes com este modelo recente, a
própria Europeana detém meios informáticos e de programação próprios, que
possibilitam a correta integração destes nos seus datasets, para divulgação no seu
Portal. Determinadas classes e propriedades deste modelo de dados só conseguem ser
aplicadas nos dados recebidos pela própria Europeana, após essa integração.
De frisar que, no decurso dos testes dos RDFs das amostragens no SPARQL
Endpoint já referido, foi estabelecido contacto com o sector de desenvolvimento
informático da Europeana, a fim de indagar da disponibilização de um motor de
pesquisa / SPARQL Endpoint para os mesmos. Foi obtida resposta da inexistência
deste, mas verificou‐se, em meados de agosto do corrente ano, que a Europeana
disponibiliza online um SPARQL Endpoint, mas mais destinado à pesquisa dos dados já
integrados nas suas bases de dados.
Outro fator tido em conta foi a falta de datasets de dados Linked Open Data,
contendo registos de dados culturais portugueses, como foi verificado aquando da fase
de reconciliação dos dados das amostragens dos fundos documentais do AH‐OTDU
com os datasets internacionais (Freebase, DBPedia e Sindice). Tendo em atenção que,
no presente momento, o Portal Europeana divulga bastantes recursos culturais
58
portugueses61, foi feita uma pesquisa pelas entidades do estudo em apreço, mais
focado nos autores de projetos OTDU contemplados nas amostragens ‐ donde nada
resultou.
Neste sentido, cumpre aqui referir que, quer o motor de pesquisa inter‐
repositórios online disponibilizado através do Portal Português de Arquivos (PPA)62,
quer o motor de pesquisa online do Ficheiro Nacional de Autoridades Arquivísticas
(FNAA)63 se encontram desativados, não possibilitando por isso a eventual recolha de
informação e links para integração no ficheiro RDF "Autores_OTDU". É importante
salientar o potencial contributo que estes dois projetos de divulgação online de fundos
documentais portugueses (ou os seus sucedâneos) poderão vir a ter no futuro como
motores de disseminação de dados Linked Open Data.
A mesma situação se verificou com o dataset disponibilizado pelo
Geonames.org ‐ a sua ligação deverá ser possível através do Portal Europeana, após
integração dos dados AH‐OTDU nesta e processamento de reconciliação.
No que reporta à utilização das normas de descrição arquivística internacionais,
e como já referido anteriormente, a ISAD(G) é uma norma que contém regras gerais
para a descrição arquivística, podendo estas serem aplicadas independentemente da
forma ou do suporte dos documentos e serem adaptadas às necessidades específicas
das instituições. No entanto, e visando a reconciliação de dados Linked Data através do
software Open Refine, provou‐se ser mais fácil adaptar os campos de descrição
originais dos fundos documentais que já detinham registos na BD AH‐OTDU (ex: IGT ‐
peças desenhadas e peças escritas) e na BD‐EUC do que os campos de descrição dos
fundos documentais que foram feitos de origem conforme as ISAD(G) e as ODA (ex:
fotografias dos álbuns fotográficos).
61 Em consulta feita em 25 de Agosto de 2015, O Portal Europeana disponibilizava online 42459 registos (by providing country), na sua maioria provenientes do Registo Nacional de Objectos Digitais (RNOD), da Fundação Calouste Gulbenkian e da EuropeanaLocal ‐ Portugal.
62 Integrado na Rede Portuguesa de Arquivos (RPA), gerido pela DGLAB. O seu acesso faz‐se através do link http://portal.arquivos.pt/, mas este encontra‐se desativado (consultado a 25 Ago. 2015).
63 O seu acesso faz‐se através do link http://autoridades.arquivos.pt/, mas o mesmo encontra‐se desativado (consultado a 25 Ago. 2015).
59
Tendo em atenção de que o alerta para a necessidade de se ter de recorrer à
granularidade e subdivisão de campos de descrição já se encontra referida na terceira
versão das ODA64, nos casos das amostragens feitas com as ISAD(G), viu‐se a
necessidade de proceder à atomização de alguns campos. Por exemplo, foi necessário
subdividir o campo de descrição "Coverage" nos campos "País", "Distrito", "Município"
e "Localidade" ‐ o que facilitou a reconciliação com outros datasets. Com a informação
concentrada num só campo (como ocorria no campo "coverage"), no processo de
reconciliação provou‐se ser difícil o seu reconhecimento de dados pelo software.
Ainda no contexto deste estudo de caso, e visando uma melhoria de resultados
nos processos de reconciliação de dados Linked Data, recomenda‐se a criação de
webpages que detenham as informações das unidades de instalação / documentos
compostos respeitantes aos processos dos fundos documentais em apreço,
reconhecidas pela Europeana como landing pages. Como já referido, existindo uma
webpage própria para cada processo (ex: um Plano), onde estariam replicados os links
para as suas peças processuais (ex: peças desenhadas e peças escritas), à semelhança
do que ocorre no formato analógico, seria assim mais fácil estruturar um ficheiro RDF e
serviço de reconciliação próprio que eventualmente pudesse estabelecer ligações com
outros datasets. Esta autonomização beneficiaria os utilizadores, no sentido que estes
não só teriam a informação respeitante aos níveis da estrutura da descrição (conforme
indicados pelas ODA) e organização da documentação, como também veriam esta
replicada na apresentação dos resultados de pesquisa, facilitando assim a sua
navegação e pesquisa por correspondentes linked data dentro destas landing pages.
Neste estudo de caso, viu‐se a necessidade de lidar com fontes de informação
variadas e distintas umas das outras, face às características próprias de cada fundo
documental pertencente ao AH‐OTDU. Dessas características ressalta o facto de alguns
dizerem respeito a processos de arquitetura, urbanismo e obras (IGT e EUC), outros
respeitarem apenas a coleções fotográficas (os álbuns fotográficos e as fotografias
64 ODA, v.3, pg. 26: "Na prática, verifica‐se que uma maior granularidade de informação descritiva
contribui para a uma maior precisão, consistência, coerência e normalização da descrição. (…) Uma
maior granularidade permite igualmente taxas mais efetivas de recuperação de informação pertinente,
sobretudo tendo em conta a possibilidade de combinação, na pesquisa, de diferentes campos, bem como
a possibilidade de ordenação das ocorrências recuperadas."
60
aéreas) e ainda os fundos bibliográficos. É também de salientar que nem todos os
fundos documentais se encontravam descritos, e naqueles que já detinham registos de
descrição, estes não cumpriam o estipulado nas normas de descrição já referidas,
havendo até casos de falta de campos de descrição ditos fundamentais (ex. a indicação
dos autores). Neste sentido, e visando a conciliação destes universos informativos
diferentes e a seguir o modelo de dados EDM, foi necessária a criação de tabelas e
ficheiros RDF auxiliares (ex. Autores_OTDU), feitos manualmente, uma vez que não era
possível o alinhamento da sua informação com os datasets Linked Data já referidos.
Outra recomendação a sugerir é a adoção de soluções tecnológicas menos
dadas à obsolescência a curto e médio prazo e conducentes a uma maior
interoperabilidade. Isto prende‐se com o facto de o SNIT/AH‐OTDU recorrer à
tecnologia Silverlight, tecnologia esta que já não é suportada por algumas versões de
web browsers mais recentes, e para a qual já existe um fim anunciado para o seu
suporte65. Uma vez que o campo de descrição "LinkZoom" é de grande importância,
dado que é por este link que se tem acesso à visualização da representação digital da
peça documental pretendida, julga‐se necessário envidar esforços ou determinar
outros formatos de visualização mais duradouros antes da submissão destes dados à
Europeana. Tomando em consideração o facto de esse fim anunciado implicar
alterações na estruturação dos RDFs e na definição dos URIs, o facto de aqui se estar a
lidar com formatos de conteúdos complexos e dependentes de aplicativos para a sua
visualização, e a fim de evitar enormes custos ‐ quer financeiros, quer humanos, e
também em termos de preservação digital destes ‐ e mesmo considerando que não
seja fácil de todo determinar qual a melhor solução dada a rapidez da evolução
tecnológica, as opções possíveis poderiam passar pela adoção de tecnologias Open
Source e formatos de visualização normalizados e estáveis, menos dependentes de
fabricantes de software. Para este último, e mesmo considerando as leis de copyright,
a Europeana aqui teria a sua palavra ‐ mesmo recebendo apenas os metadados, é esta
65 Como já referido anteriormente, o seu fim de vida foi anunciado em 2012, a possibilidade do seu uso em novas versões de web browsers terminou na primeira metade de 2015 e o fim oficial do suporte da tecnologia por parte da Microsoft está previsto para outubro de 2021 (fonte: https://en.wikipedia.org/wiki/Microsoft_Silverlight, consultada em 15 Set. 2015).
61
instituição que acolhe os datasets e disponibiliza o link para visualização das
representações digitais provenientes das instituições aderentes.
Em termos da apresentação dos resultados, constatou‐se que o SPARQL
Endpoint utilizado não os apresenta de uma forma amigável para o utilizador. Não
sendo esse o intuito do presente estudo de caso, julgou‐se conveniente não envidar
pelo desenvolvimento de uma interface de apresentação de resultados de pesquisa,
uma vez que esta é considerada uma etapa de um processo complexo, para o qual são
necessários outros meios informáticos e de programação, deixando essa tarefa a cargo
da Europeana, instituição que detém estes meios.
62
Conclusão
Como nota final, com este estudo de caso comprovou‐se a complexidade do
procedimento destinado ao tratamento, adaptação para o modelo de dados EDM e
reconciliação dos dados do AH‐OTDU com os datasets Linked Data internacionais
existentes.
No entanto, cumpre aqui referir a importância de uma eventual participação da
Direção‐Geral do Território, através do SNIT/AH‐OTDU, no projeto do Portal
Europeana, podendo o presente trabalho constituir‐se como um ponto de partida para
um posterior desenvolvimento mais aprofundado. Mesmo tendo em consideração o
esforço financeiro, tecnológico e humano que esta adesão possa implicar, a mesma
trará benefícios, quer para a instituição, quer para o utilizador, e também como
contributo para as Humanidades Digitais (Digital Humanities).
Para além de a sua documentação ficar descrita conforme uma norma ou
orientação internacionalmente aceite, a instituição ganha visibilidade além‐fronteiras,
na medida em que a divulgação dos seus fundos é feita através de um portal agregador
europeu.
Para os utilizadores, principais beneficiários deste projeto, a pesquisa e acesso
digital a estes fundos documentais tornam‐se assim mais fácil e imediato. A partir do
momento em que a informação contida nos dados do AH‐OTDU esteja conciliada e
ligada com registos informativos de datasets de Linked Open Data, tal será outro
benefício para os utilizadores, na medida em que estes já não terão que saltar de
motor de pesquisa para outro motor de pesquisa, na senda da informação pretendida.
Por fim, e a fim de ser possível compreender o percurso histórico do
ordenamento do território e do desenvolvimento urbano português, salvaguardado
pela Direção‐Geral do Território e suas antecessoras, cumpre referir a importância e a
necessidade de os fundos documentais do AH‐OTDU serem digitalizados e divulgados
online. Assim, e tentando evitar ao máximo a existência de "coleções escondidas"
(hidden colections), através de todos estes meios e recursos, será possível preservar a
memória ‐ institucional, comunitária e até mesmo dos direitos e deveres dos cidadãos.
63
REFERÊNCIAS BIBLIOGRÁFICAS
BERMES, Emmanuelle (2011) ‐ Convergence and Interoperability: a Linked Data
perspective. [Em linha]. In: IFLA World Library and Information Congress, 77th. Puerto
Rico, 2011. Proceedings. [Consult. 20 mar. 2015]. Disponível na Internet <URL:
http://conference.ifla.org/past‐wlic/2011/149‐bermes‐en.pdf>
BIZER, Cristian; HEATH, Tom; BERNERS‐LEE, Tim (2009) – Linked data – the story
so far. [Em linha]. International Journal on Semantic Web and Information Systems.
[Consult. 20 mar. 2015]. Disponível na Internet: <URL
http://tomheath.com/papers/bizer‐heath‐berners‐lee‐ijswis‐linked‐data.pdf>
BORBINHA, José; FREIRE, Nuno (2010) ‐ Da “The European Library” à
“Europeana” – Um percurso com impulsos nacionais. [Em linha]. In: Actas do
Congresso Nacional de Bibliotecários, Arquivistas e Documentalistas, 10, Guimarães,
2010. [Consult. 13 ago. 2015]. Disponível na Internet <URL:
http://www.bad.pt/publicacoes/index.php/congressosbad/article/view/174/170>
CARMO, Hermano; FERREIRA, Manuela Malheiro (1998) ‐ Metodologia da
investigação : Guia para auto‐aprendizagem. [Em linha]. Lisboa : Universidade Aberta,
1998. [Consult. 15 set. 2015]. Disponível na Internet <URL:
http://pt.scribd.com/doc/74482416/Metodologia‐da‐Investigacao‐Hermano‐
Carmo#scribd>
CORTÊS, Cristina; RAPOSO, Rui (2012) ‐ A harmonização normativa em
Instituições de Memoria: os desafios e dificuldades na interoperabilidade. [Em linha].
In: Actas do Congresso Nacional de Bibliotecários, Arquivistas e Documentalistas, 11,
Lisboa, 2012. [Consult. 13 mar. 2015]. Disponível na Internet <URL:
http://bad.pt/publicacoes/index.php/congressosbad/article/view/435/pdf>
CONSELHO INTERNACIONAL DE ARQUIVOS (2002) – ISAD (G): Norma Geral
internacional de descrição arquivística. [Em linha]. 2.ª ed. Lisboa: IANTT, 2002. 97 p.
[Consult. 10 abr. 2015]. Disponível na Internet <URL:
http://arquivos.dglab.gov.pt/wpcontent/uploads/sites/16/2013/10/isadg.pdf>.
DIRECÇÃO GERAL DE ARQUIVOS (2007). PROGRAMA DE NORMALIZAÇÃO DA
DESCRIÇÃO EM ARQUIVO; GRUPO DE TRABALHO DE NORMALIZAÇÃO DA DESCRIÇÃO
64
EM ARQUIVO – Orientações para a Descrição Arquivística [Em linha]. 2ª versão. Lisboa:
Ministério da Cultura, DGARQ, 2007. [Consult. 10 ago. 2015]. Disponível em WWW:
<URL: http://arquivos.dglab.gov.pt/wp‐content/uploads/sites/16/2013/10/oda1‐2‐
3.pdf>
DIRECÇÃO GERAL DE ARQUIVOS (2011). GRUPO DE TRABALHO DA
NORMALIZAÇÃO DA DESCRIÇÃO EM ARQUIVO; GRUPO DE TRABALHO DE
NORMALIZAÇÃO DA DESCRIÇÃO EM ARQUIVO – Orientações para a Descrição
Arquivística. [Em linha]. 3ª versão. Lisboa: DGARQ, 2011. [Consult. 10 ago. 2015].
Disponível em WWW: <URL: http://act.fct.pt/wp‐content/uploads/2014/05/ODA‐3ª‐
versão.pdf>
EUROPEANA (2014) ‐ Definition of the Europeana Data Model v5.2.6.
Europeana Pro [Em linha]. 17. Dez. 2014. [Consult. 28 abr. 2015]. Disponível na
Internet: <URL:
http://pro.europeana.eu/files/Europeana_Professional/Share_your_data/Technical_re
quirements/EDM_Documentation/EDM%20Definition%20v5.2.6_01032015.pdf>
EUROPEANA (2015a) ‐ Europeana Data Model ‐ Mapping Guidelines v2.2.
Europeana Pro [Em linha]. Abr. 2015. [Consult. 28 abr. 2015]. Disponível na Internet:
<URL:
http://pro.europeana.eu/files/Europeana_Professional/Share_your_data/Technical_re
quirements/EDM_Documentation//EDM_Mapping_Guidelines_v2.2.pdf>
EUROPEANA (2015b) ‐ Hierarchical objects Task force ‐ Case study template:
The Montiano Family Archive. Europeana Pro [Em linha]. abr. 2015. [Consult. 28 abr.
2015]. Disponível na Internet: <URL:
http://pro.europeana.eu/files/Europeana_Professional/EuropeanaTech/EuropeanaTec
h_taskforces/Hierarchical_objects//The%20Montiano%20Family%20Archive.pdf>
EUROPEANA (2015c) ‐ Recomendations for the representation of hierarchical
objects in Europeana. Europeana Pro [Em linha]. abr. 2015. [Consult. 28 abr. 2015].
Disponível na Internet: <URL:
http://pro.europeana.eu/files/Europeana_Professional/EuropeanaTech/EuropeanaTec
h_taskforces/Hierarchical_objects//TF%20report%20V1.0%20PDF.pdf>
65
EUROPEAN COMISSION ON PRESERVATION AND ACCESS (2003) ‐ SEPIADES:
Recommendations for cataloguing photographic collections [Em linha]. Amsterdam,
2003. [Consult. 10 ago. 2015]. Disponível na Internet: <URL:
http://www.ica.org/download.php?id=1266>
FERROS, Luís Miguel, FILIPE, Susana; RAMALHO, José Carlos (2010) ‐ DigitArq e
o novo módulo de interoperabilidade OAI‐PMH. [Em linha]. In: Actas do Congresso
Nacional de Bibliotecários, Arquivistas e Documentalistas, 10, Guimarães, 2010.
[Consult. 13 mar. 2015]. Disponível na Internet <URL:
http://www.bad.pt/publicacoes/index.php/congressosbad/article/view/218/214>
GRACY, Karen f. (2014) ‐ Archival description and linked data: a preliminary
study of opportunities and implementation challenges . Archival Science [Em linha].
Fev. 2014. [Consult. 8 mar. 2015]. Disponível na Internet: <URL:
http://link.springer.com/content/pdf/10.1007%2Fs10502‐014‐9216‐2.pdf>
HEDEGAARD, Ruth (2003) – Benefits of Archives, Libraries and Museums
working together. [Em linha]. Comunicação apresentada ao World Library and
Information Congress: 69th IFLA General Conference and Council, Berlim, 1‐9 de
agosto de 2003 [Consult. 10 mar. 2015]. Disponível na Internet: <URL:
http://archive.ifla.org/IV/ifla69/papers/051e‐Hedegaard.pdf>
ISAAC, Anthoine; CLAYPHAN, Robina; HASHLOFER, Bernhard (2012) ‐
Europeana: Moving to Linked Open Data. ISQ ‐ Information Standards Quaterly [Em
linha]. Vol. 24 (Spring/Summer 2012). [Consult. 20 abr. 2015]. Disponível na Internet:
<URL: http://www.niso.org/apps/group_public/download.php/9407/IP_Isaac‐
etal_Europeana_isqv24no2‐3.pdf>
JORENTE, Maria José (2012) ‐ Archives information publishing new design in
post‐custodial regime: The National Archives Experience Digital Vaults. [Em linha].
Proceedings of the 16th International Conference on Electronic Publishing (Elpub
2012), Guimarães, 14‐15 June 2012. [Consult. 28 abr. 2015]. Disponível na Internet
<URL: http://ebooks.iospress.nl/publication/32004>
KIRCHHOFF, Thomas; SCHWELBENZ, Werner; SIEGLERSCHMIDT, Jöm, (2008) –
Archives, libraries, museums and the spell of ubiquitous knowledge. Archival Science
66
[Em linha]. Vol. 8, nº 4 (dez. 2008), p. 251‐266. [Consult. 10 mar. 2015]. Disponível na
Internet: <URL: http://link.springer.com/article/10.1007%2Fs10502‐009‐9093‐2>
MARCONDES, Carlos Henrique (2012) – "Linked Data" ‐ Dados interligados ‐ e
Interoperabilidade entre Arquivos, Bibliotecas e Museus Na Web. Encontros Bibli [Em
linha]. Vol. 17, nº 34 (mai. ‐ ago. 2012), p. 171‐192. [Consult. 13 mar. 2015]. Disponível
na Internet: <URL: http://www.redalyc.org/articulo.oa?id=14723061012>
SAYÃO, Luís Fernando ‐ Bibliotecas Digitais e suas utopias. Ponto de Acesso [Em
linha]. vol. 2, Nº 2 (2008) [Consult. 3 ago. 2015]. Disponível na Internet:<URL:
http://eprints.rclis.org/12823/1/bibliotecas‐digitais‐utopias‐final‐1‐06‐08.pdf>.
VAN HOOLAND, Seth; VERBORG, Ruben (2014) ‐ Linked Data for Libraries,
Archives and Museums. How to Clean, Link and Publish Your Metadata. Londres: Facet
Publishing. ISBN 978‐1‐85604‐964‐1
SOUZA, Renato Rocha; ALVARENGA, Lídia (2004) ‐ A Web Semântica e suas
contribuições para a ciência da informação. [Em linha]. Ciência da Informação, 2004,
vol. 33, nº 1, pp. 132‐141. ISSN 0100‐1965. [Consult. 20 mar. 2015]. Disponível na
Internet <URL: http://www.scielo.br/pdf/ci/v33n1/v33n1a16>
WINER, Dov; ROCHA, Ivan Esperança (2013) – Europeana: um projeto de
digitalização e democratização do patrimônio cultural europeu. Patrimônio e Memória
[Em linha]. UNSEP/São Paulo, Vol. 9, nº 2 (jan.‐ jun. 2013). [Consult. 13 mar. 2015].
Disponível na Internet: <URL:
http://pem.assis.unesp.br/index.php/pem/article/view/327/598>
67
LISTA DE FIGURAS OU ILUSTRAÇÕES
Figura 1: As três "classes de base": uma Aggretation com um ProvidedCHO e o seu
WebResource ....................................................................................................................... 21
Figura 2: Exemplo de um ProvidedCHO com dois recursos contextuais ........................... 22
Figura 3: Primeira proposta de estruturação do ponto de acesso online único ............... 38
Figura 4: Segunda proposta de estruturação do ponto de acesso online ......................... 39
Figura 5: Proposta de estrutura RDF de um processo de IGT, adaptado do exemplo
sugerido pela Task Force sobre a representação hierárquica de objectos no Portal
Europeana ............................................................................................................................ 44
Figura 6: Estrutura RDF onde não está representada a classe ProvidedCHO em falta (à
esquerda) e estrutura RDF onde a classe ProvidedCHO em falta foi substituída por uma
entidade contextual (à direita) ............................................................................................ 45
68
LISTA DE TABELAS
Tabela 1: Sumário das vantagens / desvantagens dos diferentes modelos de dados,
adaptado de Van Holland e Verborgh (2014, p. 51) ........................................................... 15
Tabela 2: SNIT/AH‐OTDU ‐ Análise SWOT ‐ pontos fortes e pontos fracos ........................ 36
Tabela 3: SNIT/AH‐OTDU ‐ Análise SWOT ‐ oportunidades e ameaças .............................. 36
Tabela 4: Campos de descrição definidos para posterior processamento no software
OpenRefine ........................................................................................................................... 40
Tabela 5: IGT‐Peças desenhadas ‐ Resultados do processamento de serviços de
reconciliação de dados, através do software OpenRefine ................................................. 49
Tabela 6: IGT‐Peças escritas ‐ Resultados do processamento de serviços de reconciliação
de dados, através do software OpenRefine ........................................................................ 49
Tabela 7: EUC ‐ Resultados do processamento de serviços de reconciliação de dados,
através do software OpenRefine ......................................................................................... 50
Tabela 8: Peças dos álbuns fotográficos ‐ Resultados do processamento de serviços de
reconciliação de dados, através do software OpenRefine ................................................. 51
Tabela 9: Peças fotográficas aéreas ‐ Resultados do processamento de serviços de
reconciliação de dados, através do software OpenRefine ................................................. 52
Tabela 10: Artigos do fundo bibliográfico ‐ Resultados do processamento de serviços de
reconciliação de dados, através do software OpenRefine ................................................. 53
Tabela 11: IGT ‐ Peças desenhadas ‐ Expressão da query utilizada no OpenLink Virtuoso
SPARQL Query Editor ........................................................................................................... 56
69
LISTA DE ANEXOS
(Em separado, gravado em CD)
Apêndice A ‐ História da evolução administrativa e organizacional das instituições que
antecederam a ex‐Direcção‐Geral do Ordenamento do Território e
Desenvolvimento Urbano (DGOTDU) (trabalho realizado pela aluna no
âmbito da U.C. História das Instituições) (páginas 1 a 14)
Apêndice B ‐ Base de dados AH‐OTDU ‐ Tabelas do fundo documental dos IGT e suas
relações (printscreens) (páginas 15 a 16)
Apêndice C ‐ Definição das amostragens dos fundos documentais do AH‐OTDU:
Registos de descrição selecionados das bases de dados /registos de
descrição dos pré‐inventários feitos (páginas 17 a 49)
Apêndice D ‐ Processamento dos dados das amostragens dos fundos documentais no
software OpenRefine: Campos de descrição alterados e adicionados
(resultantes dos serviços de reconciliação executados) e respetivos
registos (páginas 50 a 121)
(amostra exemplificativa na pg. 71 deste documento)
Apêndice E ‐ Estruturas RDF das amostragens dos fundos documentais (processados
através do Software OpenRefine) (páginas 122 a 127)
(amostra exemplificativa na pg. 72 deste documento)
Apêndice F ‐ Ficheiro RDF auxiliar "Autores_OTDU": Quadro dos campos de descrição
utilizados no software OpenRefine e estrutura RDF (páginas 128 a 129)
Apêndice G ‐ Ficheiro RDF auxiliar "Geonames_Select_Link": Quadro dos campos de
descrição utilizados no software OpenRefine e estrutura RDF (páginas 130
a 133)
(amostra exemplificativa na pg. 73 deste documento)
Apêndice H ‐ Amostragem do fundo documental dos IGT ‐ Peças desenhadas: Teste de
query de pesquisa no OpenLink Virtuoso SPARQL Query Editor ‐ Janela da
query submetida e resultados obtidos (página 134)
70
ANEXOS (amostras exemplificativas)
Apêndice D ‐ Processamento dos dados das amostragens dos fundos documentais no
software OpenRefine: Campos de descrição alterados e adicionados (resultantes dos
serviços de reconciliação executados) e respetivos registos
71
1) Amostragem do fundo documental dos IGT ‐ Peças Desenhadas
Designação original do campo de descrição
Nova designação / Novo campo de descrição criado
Descrição do seu conteúdo
dbo_Entidade.Nome Planta_Nome Designação da peça desenhada.
DataPlanta (manteve‐se a sua designação original)
Indicação da data da peça desenhada, segundo o formato aaaa‐mm‐dd (ano‐mês‐dia).
dbo_Plano.Nome Plano_Nome Designação do IGT (processo) (a nível da unidade de instalação).
‐ Plano_Nome_Recon_PEscritas
Novo campo criado a partir do resultado de reconciliação de dados do campo de descrição Plano_Nome com o dataset IGT Peças Escritas
dbo_Autor.Nome Autor_Nome Autoria do IGT
‐ AutorNome_ReconResult_Autores_OTDU
Novo campo criado a partir do resultado de reconciliação de dados do campo de descrição Autor_Nome com o dataset Autores_OTDU
Ano (manteve‐se a sua designação original)
Ano em que a elaboração do IGT foi finalizada.
Ordenacao (Campo de descrição não utilizado nestes testes)
Número de ordem da digitalização na correspondente página online.
NumeroProcessoDGOTDU (Campo de descrição não utilizado nestes testes)
Número identificador do IGT (Processo) no Arquivo dos IGT da DGT (formato analógico).
‐ LinkThumb Indicação do link para visualização do thumbnail da reprodução digital do documento
‐ LinkZoom Indicação do link para visualização da reprodução digital do documento recorrendo à tecnologia Silverlight
PlanoID ID_Provider_Plano Identificador único do IGT (processo) a que a peça documental pertence. Neste caso, à informação existente foi adicionado a designação "#IGT_XXX", para identificação do processo do qual o documento faz parte
Apêndice E ‐ Estruturas RDF das amostragens dos fundos documentais (processados
através do Software OpenRefine)
72
1) Amostragem do fundo documental ‐ IGT ‐ Peças Desenhadas: Estrutura RDF
(software OpenRefine)
Apêndice G ‐ Ficheiro RDF auxiliar "Geonames_Select_Link": Quadro dos campos de
descrição utilizados no software OpenRefine e estrutura RDF
73
Ficheiro RDF auxiliar "Geonames_Select_Link ": Quadro dos campos de descrição
utilizados no software OpenRefine
ID_Localidade
Nome_Localidade1
Nome_Localidade2
Distrito Concelho DTCC Geonames_Link
1 ABRANTES ABRANTES Santarém
Abrantes 1401 http://www.geonames.org/8010594/abrantes.html
2 ALTER DO CHÃO
ALTER DO CHÃO Portalegre
Alter do Chão
1201 http://www.geonames.org/6930689/alter‐do‐chao.html
3 AROUCA AROUCA Aveiro Arouca 104 http://www.geonames.org/8010416/arouca.html
4 ARRAIOLOS ARRAIOLOS Évora Arraiolos 702 http://www.geonames.org/8010499/arraiolos.html
5 ARRAIOLOS Vimieiro Évora Arraiolos 702 http://www.geonames.org/2261569/vimieiro.html
6 AVEIRO AVEIRO Aveiro Aveiro 105 http://www.geonames.org/8010417/aveiro.html
7 BEJA BEJA Beja Beja 205 http://www.geonames.org/8010436/beja.html
8 BRAGA BRAGA Braga Braga 303 http://www.geonames.org/8010448/braga.html
9 CASTELO BRANCO
CASTELO BRANCO
Castelo Branco
Castelo Branco
502
http://www.geonames.org/8010473/castelo‐branco.html
10 COIMBRA COIMBRA Coimbra Coimbra 603 http://www.geonames.org/8010483/coimbra.html