saa 2011-snac anila

58
EAC-CPF et les Réseaux Sociaux Présentation au congrès de la SAA Chicago, aôut 2011 Daniel Pitti (Institute for Advanced Technology in the Humanities, University of Virginia) Ray Larson - (School of Information, University of California, Berkeley) Adrian Turner et Brian Tingle -(CAD - California Digital Library, University of California) Version abrégée de la version d’origine, avec traduction en français des explications textuelles. Présentée aux groupes d’experts AFNOR sur l’EAD et l’EAC, par Anila Angjeli La version complète, présentée au congrès de la SAA est accessible

Upload: brian-tingle

Post on 09-Dec-2014

510 views

Category:

Documents


4 download

DESCRIPTION

SNAC presentation from SAA shortened and translated to French by Anila Angjeli for presentation to AFNOR.

TRANSCRIPT

Page 1: Saa 2011-snac anila

EAC-CPF et les Réseaux SociauxPrésentation au congrès de la SAA

Chicago, aôut 2011

Daniel Pitti (Institute for Advanced Technology in the Humanities, University of Virginia)

Ray Larson - (School of Information, University of California, Berkeley)

Adrian Turner et Brian Tingle -(CAD - California Digital Library, University of California)

Version abrégée de la version d’origine, avec traduction en français des explications textuelles.Présentée aux groupes d’experts AFNOR sur l’EAD et l’EAC, par Anila AngjeliLa version complète, présentée au congrès de la SAA est accessible à l’adresse:

http://www.slideshare.net/tinglebrian/saa-2011-snac

Page 2: Saa 2011-snac anila

Financement et durée• Subventionné par : National Endowment for the

Humanities• Axe: préservation et accès, recherche et développement • Durée : deux ans (mai 2010-avril 2012)

• Daniel Pitti (chef de projet) et Worthy Martin (IATH - Institute for Advanced Technology in the Humanities, University of Virginia)

• Ray Larson (School of Information, University of California, Berkeley)

• Adrian Turner et Brian Tingle (CAD - California Digital Library, University of California)

Equipe du projet

Page 3: Saa 2011-snac anila

ObjectifsSituation actuelle:• Les instruments de recherche confondent souvent la description

des documents d’archives et celle des producteurs de ces documents

Le projet vise à:• Utiliser les technologies avancées dans un processus continu de

transformation de la description archivistique – En facilitant la séparation de la description des “personnes” (au sens

large du terme) de la description des documents d’archives– En utilisant EAC-CPF: standard international de contrôle d’autorité

But:donner un élan à l’économie et à l’efficacité de la description archivistique pour une meilleure accès et compréhension de la part des utilisateurs des archives, des bibliothèques et des musées

Page 4: Saa 2011-snac anila

SNAC et les documents d’archives: principes

• Les documents d’archives :– émanent de personnes, qui vivent et agissent individuellement, en groupes

organisés, en familles – donnent de l’information sur la vie et l’œuvre des personnes

• Les personnes:– Evoluent dans des contextes socio-professionnels et en relations avec

d’autres personnes

• Les documents d’archives – nous informent sur ces relations

• Les documents d’archives produits par une même entité – sont réunis en fonds ou collections et c’est l’ensemble qui est décrit

• On y trouve de l’information détaillée sur les producteurs• Mais aussi on y fait référence à plusieurs autres “personnes”

• Les descriptions archivistiques– documentent les relations complexes entre les personnes et les documents

d’archives

Page 5: Saa 2011-snac anila

Les données exploitées

• Instruments de recherche en EAD– Library of Congress (1 159)– Online Archive of California (~15 400 )– Northwest Digital Archive (5 160)– Virginia Heritage (8 390)

• Notices d’autorité – Library of Congress: NACO/LCNAF (3,8M noms de personnes;

900K noms de collectivités)– Getty Vocabulary Program: Union List of Artist Names (293K

noms de personnes et de collectivités)– Virtual International Authority File (5M+ noms de personnes)

Page 6: Saa 2011-snac anila

Méthodes et traitements

• Extraction (génération) de notices EAC-CPF à partir des descriptions existantes en EAD– Extraction des noms de producteurs et de tous les autres noms CPF

référencés dans les instances EAD• “Matcher” les notices EAC-CPF les unes avec les autres et avec

les notices d’autorité existantes (ULAN, VIAF, LCNAF); fusionner les notices correspondant à la même entité– Enrichir et améliorer les notices EAC-CPF en normalisant les points

d’accès, en ajoutant des formes alternatives de noms, des titres (VIAF), des données historiques (ULAN)

• Créer un prototype pour un système d’accès – Aux données historiques et relatifs aux réseaux socio-professionnels– Liens avec les ressources des archives, des bibliothèques, et des

musées

Page 7: Saa 2011-snac anila

Situation des données source en EAD• Encoded Archival Description

– Description de producteurs de documents d’archives confondus avec des noms associés aux contenus des documents d’archives

– Description détaillée des producteurs de documents d’archives

• Qualité très variable– Dans le nombre des noms identifiés et encodés– Dans la forme des noms (directe, inversée, utilisation des majuscules, ponctuation, etc.)– Dans la catégorisation des noms (personnes, collectivités, familles)

• De nombreux noms apparaissent mais ne sont pas identifiés en tant que tels

• Dans la majorité se trouvent dans la description des biographies/histoires et dans la description des correspondances

• L’extraction a initialement visé les « fruits murs » (« low hanging fruit »), c.a.d. les noms balisés en tant que tels

• Les autres noms qui ne sont pas identifiés en tant que tels seront progressivement traités

Page 8: Saa 2011-snac anila

Source: J. Robert Oppenheimer Papers (LoC)

<origination> <persname source="lcnaf">Oppenheimer, J. Robert, 1904-1967</persname>

</origination>

<controlaccess><persname source="lcnaf" encodinganalog="100" role="creator">Oppenheimer, J. Robert, 1904-1967</persname><persname source="lcnaf" encodinganalog="600" role="subject">Bethe, Hans Albrecht, 1906- --Correspondence</persname> <!-- […] --><persname source="lcnaf" encodinganalog="600" role="subject">Born, Max, 1882-1970 --Correspondence</persname><persname source="lcnaf" encodinganalog="600" role="subject">Boyd, Julian P. (Julian Parks), 1903- --Correspondence</persname><persname source="lcnaf" encodinganalog="600" role="subject">Bush, Vannevar, 1890-1974 --Correspondence</persname><persname source="lcnaf" encodinganalog="600" role="subject">Casals, Pablo, 1876-1973 --Correspondence</persname> <!-- […] --><corpname source="lcnaf" encodinganalog="610" role="subject">Institute for Advanced Study (Princeton, N.J.)</corpname><corpname source="lcnaf" encodinganalog="610" role="subject">Los Alamos Scientific Laboratory</corpname> <!-- […] -->

</controlaccess>

Page 9: Saa 2011-snac anila

Source: Leonard Bernstein Collection (LoC) <c02> <did> <container type="box">1</container> <unittitle>Aaltonen, Erkki <unitdate era="ce" calendar="gregorian">1981</unitdate> </unittitle> <physdesc> <extent>1</extent> </physdesc> </did></c02><c02> <did> <unittitle>Abbado, Claudio <unitdate era="ce" calendar="gregorian">1963-90</unitdate> </unittitle> <physdesc> <extent>5</extent> </physdesc> </did></c02>[…]

Page 10: Saa 2011-snac anila

<bioghist> <head>Biographical Sketch</head> <p>José Marcos Mugarrieta, prior to his term as Mexican consul in San Francisco 1857-1863, served in the Mexican army from 1837. He saw action in numerous battles and campaigns – Jamaica, under General Canalizo in 1841; Campeche, 1842-1843; Merida, 1843; Veracruz, 1845; Mexico City, 1846; Angostura and Cerro-gordo, 1847; Guanajuato, 1848, and Sierra-Gorda under Bustamante, 1848-1849; and Matamoros, 1849-1850. […] </p> <p>In April 1857 Mugarrieta received an appointment from the Comonfort government for the consulship in San Francisco. He did not actually begin his new duties until September 1, 1859, due to illness and to the political situation in Mexico. […]</p> </bioghist>

Page 11: Saa 2011-snac anila

<bioghist> <head>Chronology</head> <chronlist> <chronitem> <date>1900</date> <event>Born on Jan. 20 in Hastings, Minnesota.</event> </chronitem> <chronitem> <date>1922</date> <event>Received baccalaureate from Princeton University, major in philosophy.

</event> </chronitem> […] <chronitem> <date>1965</date> <event>Died on April 4.</event> </chronitem> </chronlist> </bioghist>

Page 12: Saa 2011-snac anila

<identity><entityType>person</entityType><nameEntry scriptCode="Latn" xml:lang="eng">

<part>Oppenheimer, J. Robert, 1904-1967.</part><authorizedForm>AACR2</authorizedForm>

</nameEntry><nameEntry localType="VIAF:MainHeading">

<part>Oppenheimer, J. Robert (Julius Robert), 1904-1967</part><alternativeForm>VIAF</alternativeForm>

</nameEntry><nameEntry localType="VIAF:MainHeading">

<part>Oppenheimer, Julius Robert, 1904-1967</part><alternativeForm>VIAF</alternativeForm>

</nameEntry><nameEntry localType="VIAF:x400"><part>Oppenheimer, Robert</part><alternativeForm>VIAF</alternativeForm>

</nameEntry><nameEntry localType="VIAF:x400">

<part>Ou-pẽn-hai-mo, 1904-1967</part><alternativeForm>VIAF</alternativeForm>

</nameEntry></identity>

Standard utilisé: EAC-CPF

Page 13: Saa 2011-snac anila

<existDates><dateRange>

<fromDate standardDate=“1904-04-22”>1904, Apr. 22</fromDate><toDate standardDate=“1967-02-18”>1967, Feb. 18</toDate>

</dateRange></existDates><!-- ... --><localDescription localType="subject">

<term>Science--Societies, etc.</term></localDescription><localDescription localType="VIAF:nationality">

<placeEntry countryCode="US"/></localDescription><localDescription localType="VIAF:gender">

<term>Male</term></localDescription><languageUsed>

<language languageCode="eng"/></languageUsed><occupation>

<term>Physicists.</term></occupation><!-- ... -->

Page 14: Saa 2011-snac anila

<chronList><chronItem>

<date>1904, Apr. 22</date><placeEntry>New York, N.Y.</placeEntry><event>Born, New York, N.Y.</event>

</chronItem> <!-- ... --><chronItem>

<date>1943-1945</date><placeEntry>Los Alamos, N. Mex.</placeEntry><event>Director, Los Alamos Scientific Laboratory, Los Alamos, N.

Mex.</event></chronItem> <!-- ... --><chronItem>

<date>1954</date><event>(1) Denied security clearance […] (2) Published Science and the

Common Understanding […] </event>

</chronItem> <!-- ... --><chronItem>

<date>1967, Feb. 18</date><placeEntry>Princeton, N.J.</placeEntry><event>Died, Princeton, N.J.</event>

</chronItem></chronList>

Page 15: Saa 2011-snac anila

<cpfRelation xmlns:xlink="http://www.w3.org/1999/xlink" xlink:type="simple"xlink:role="http://RDVocab.info/uri/schema/FRBRentitiesRDA/Person" xlink:arcrole="correspondedWith"><relationEntry>Bush, Vannevar, 1890-1974.</relationEntry><descriptiveNote>

<p>recordId: DLC.ms998007.r007</p></descriptiveNote>

</cpfRelation>

Page 16: Saa 2011-snac anila

<resourceRelation xmlns:xlink="http://www.w3.org/1999/xlink" xlink:arcrole="creatorOf"xlink:role="archivalRecords” xlink:type="simple” xlink:href="http://hdl.loc.gov/loc.mss/eadmss.ms998007"><relationEntry>J. Robert Oppenheimer Papers, 1799-1980 (bulk

1947-1967)</relationEntry><objectXMLWrap><did xmlns="urn:isbn:1-931666-22-9” >

<unittitle>Papers <unitdate normal="1799/1980” era="ce” calendar="gregorian">1799-1980

</unitdate><unitdate label="Bulk Dates" type="bulk" normal="1947/1967”era="ce” calendar="gregorian">(bulk 1947-1967)</unitdate></unittitle><unitid countrycode="US" repositorycode="US-DLC">MSS35188</unitid><origination label="Creator">

<persname>Oppenheimer, J. Robert, 1904-1967</persname></origination> <!-- ... --><repository><corpname>Manuscript Division. Library of Congress</corpname></repository><abstract>Physicist and directorof the Institute for Advanced Study, Princeton, New Jersey. [...] Topics include

theoretical physics, development of the atomic bomb, the relationship between government and science, nuclear energy, security, and national loyalty. </abstract>

</did></objectXMLWrap>

</resourceRelation>

Page 17: Saa 2011-snac anila

Premières observations - Extraction

• La profondeur de l’analyse et la qualité de description des entités CPF varie largement d’un instrument de recherche en EAD à l’autre– Dans LoC, de nombreux noms obéissent au

contrôle d’autorité– Dans OAC et NWDA on trouve moins de noms et

le niveau de contrôle est variable

Page 18: Saa 2011-snac anila

Etape suivante dans l’extraction

• Affiner les procédures de l’extraction, en appliquant des outils de Traitement Automatisé de la Langue (TAL), ex:– Vérifier le type du nom : C, P ou F– Reformater les noms (normaliser les formes)– Identifier les chaînes de caractères qui sont potentiellement

des noms mais ne sont pas identifiés en tant que tels– Utiliser l’information contextuelle pour de meilleurs

résultats dans les “matching”, ex.: date/dates de correspondance, ou l’occupation du producteur des documents

Page 19: Saa 2011-snac anila

Au delà du projet• Créer une infrastructure pour un système national d’autorité

pour les archives – IMLS vient d’annoncer la subvention d’un projet pour deux ans,

octobre 2011- septembre 2013• Ateliers SAA sur l’EAC-CPF : 140 bourses d’étude• Planification d’un programme coopératif national portant sur les autorités

dans les archives « National Archival Authorities Cooperative »

• SNAC II: proposition pour étendre SNAC– Beaucoup plus de données– NARA, Smithsonian Institution, notices MARC WorldCat, encore

plus d’instruments de recherche• Appel à contribution avec des données (instruments de

recherche EAD et notices EAC-CPF) à la communauté internationale

Page 20: Saa 2011-snac anila

SNAC« matching » et fusion

Ray Larson

Université de Californie, BerkeleySchool of Information

Page 21: Saa 2011-snac anila

Objectif de l’équipe de Berkeley• Combiner les ressources de données

provenant de multiples archives et d’autres sources d’information

Page 22: Saa 2011-snac anila

Méthodes et traitements• Extraction (génération) de notices EAC-CPF à partir des

descriptions existantes en EAD– Extraction des noms de producteurs et de tous les autres noms CPF

référencés dans les instances EAD

• “Matcher” les notices EAC-CPF les unes avec les autres et avec les notices d’autorité existantes (ULAN, VIAF, LCNAF); fusionner les notices correspondant à la même entité– Enrichir et améliorer les notices EAC-CPF en normalisant les points

d’accès, en ajoutant des formes alternatives de noms, des titres (VIAF), des données historiques (ULAN)

• Défis à relever: – Plusieurs personnes portant le même nom– Plusieurs noms pour une même personne

Page 23: Saa 2011-snac anila
Page 24: Saa 2011-snac anila
Page 25: Saa 2011-snac anila
Page 26: Saa 2011-snac anila

Connecter « matcher » les correspondances exactes

• Les notices EAC-CPF fournissent les noms sans avoir besoin de « parser » les textes, etc.

• Permettent d’utiliser des méthodes simples comme les correspondances exactes:

• Postulat de départ: – les accès identiques désignent les mêmes personnes /

collectivités / familles– les noms complets et les ID des notices sont entrés

dans une base de donnée et les ID contenant les mêmes noms sont marquées pour être fusionnés

Page 27: Saa 2011-snac anila
Page 28: Saa 2011-snac anila

Recherche dans les fichiers d’autorité

• Pour chaque nom une recherche dans VIAF est formulée en utilisant le système Cheshire (système de recherche SGML/XML avec des fonctionnalités de mise en correspondance probabilistique et booléenne)– Recherche des formes d’autorité et des variantes– Toute correspondance de nom est considérée comme une

variante – candidate pour une mise en correspondance avec la forme d’autorité

– Les notices d’autorité EAC-CPF qui correspondent avec la même notice d’autorité, sont marquées comme des candidates pour une mise en correspondance

Page 29: Saa 2011-snac anila
Page 30: Saa 2011-snac anila

Fusion des notices marquées

• Pour tous les « matching » exacts et les autorités correspondantes– Utiliser les formes d’autorité du nom– Combiner les données de chaque « matching »

dans une seule notice EAC-CPF– Conserver toutes les ID des notices sources et les

autres informations recueillies• Enfin produire (sortir/générer) des notices

EAC-CPF fusionnées

Page 31: Saa 2011-snac anila
Page 32: Saa 2011-snac anila
Page 33: Saa 2011-snac anila

Mais

• Les « matching » exacts supposent que les archives suivent les pratiques de catalogage de la LoC dans leurs instruments de recherche

• Cette supposition pose quelques problèmes

Page 34: Saa 2011-snac anila
Page 35: Saa 2011-snac anila
Page 36: Saa 2011-snac anila
Page 37: Saa 2011-snac anila
Page 38: Saa 2011-snac anila

Traiter les échecs

• Où ça ne marche pas et pourquoi ?– Un échantillon de la base de données est en cours de

constitution pour identifier les problèmes– Plusieurs problèmes constatés semblent pouvoir être

résolus en utilisant:• des éléments contextuels dans les documents EAD• des « matching » plus sophistiqués pour les variantes

phonétiques– tels que les n-grams et les schémas phonétiques tel que phonex

• une normalisation additionnelle des noms avant fusion– pour l’ordre des noms, etc.– utilisation de méthodes avancées de « matching »

Page 39: Saa 2011-snac anila

Tester de nouvelles méthodes de fusion

• Travail effectué en conjonction avec SNAC dans le cadre d’un projet de master appelé Biograph

• Utilisation de SNAC et fusion avec FreeBase et IMDB

Page 40: Saa 2011-snac anila
Page 41: Saa 2011-snac anila
Page 42: Saa 2011-snac anila
Page 43: Saa 2011-snac anila
Page 44: Saa 2011-snac anila
Page 45: Saa 2011-snac anila
Page 46: Saa 2011-snac anila

Conclusion

• In n’y aura pas une seule méthode de fusion mais – un ensemble d’approches par couches permettant

d’aller des « matching » exacts, les plus simples, aux identifications fiables (on l’espère) de variantes de noms, lorsque l’information contextuelle le confirme (dates, etc.)

• Après fusion, c’est la phase recherche et l’affichage

Page 47: Saa 2011-snac anila

Découvrir les réseaux sociaux et historiques

Demo du prototype

Brian Tingle California Digital Library

Page 48: Saa 2011-snac anila

Demo• Les onglets• La recherche avancée

Page 49: Saa 2011-snac anila
Page 50: Saa 2011-snac anila
Page 51: Saa 2011-snac anila

Fonctionnalités

• Proposition de correction d’orthographe (suggestion de requête)

• Liste des variantes du nom (à la recherche, à l’affichage d’une notice)

• Recherche / tri par facettes (occupation, etc.)• Biographie ou histoire• Les entités liées

Page 52: Saa 2011-snac anila
Page 53: Saa 2011-snac anila
Page 54: Saa 2011-snac anila
Page 55: Saa 2011-snac anila
Page 56: Saa 2011-snac anila
Page 57: Saa 2011-snac anila
Page 58: Saa 2011-snac anila

Pour plus d’information:

• http://socialarchive.iath.virginia.edu/ (site web du projet)

• http://socialarchive.iath.virginia.edu/xtf/search (prototype public)