vers une analyse scientométrique de textes intégraux en ... · accès libre et auto-archivage...

44
Vers une analyse scientométrique de textes intégraux en accès libre par la réalisation d’un robot de recherche. Chawki Hajjem M. Stevan Harnad Professeur en Psychologie Centre des neurosciences cognitives (CNC) Département de psychologie Université du Québec à Montréal M. Bernard Lefebvre Professeur en informatique Département informatique Université du Québec à Montréal Directeurs de thèse

Upload: others

Post on 17-Apr-2020

3 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Vers une analyse scientométrique de textes intégraux en ... · Accès libre et auto-archivage Auto-archivage : « L'auto-archivage, consiste à déposer un document électronique

Vers une analyse scientométrique de textes intégraux en accès libre par la réalisation d’un robot de recherche.

Chawki Hajjem

M. Stevan HarnadProfesseur en Psychologie

Centre des neurosciences cognitives (CNC)Département de psychologie

Université du Québec à Montréal

M. Bernard LefebvreProfesseur en informatiqueDépartement informatique

Université du Québec à Montréal

Directeurs de thèse

Page 2: Vers une analyse scientométrique de textes intégraux en ... · Accès libre et auto-archivage Auto-archivage : « L'auto-archivage, consiste à déposer un document électronique

PlanProblématique Accès libre et auto-archivageObjet de la rechercheÉtat d’avancement des travaux

Robot de rechercheSources des donnéesAlgorithmesÉvaluation de l’exactitude des résultats du robotCalcul des citationsMesure de l’impactAnalyse par la régression multipleAnalyse de l’impact des articles disponibles dans archives obligatoires

Exploration de sujetsAlgorithmeIndicateurs du phénomène du libre accès

ÉchéancierRéférences

Page 3: Vers une analyse scientométrique de textes intégraux en ... · Accès libre et auto-archivage Auto-archivage : « L'auto-archivage, consiste à déposer un document électronique

ProblématiqueContexte

- Les chercheurs sont évalués par l’impact scientifique de leurs publications.

- Les institutions de recherche adoptent la politique « publier ou

périr»[Projet. 2002].

- Une croissance rapide et continue du nombre d’articles scientifiques

publiés chaque année (2.5 millions d’articles publiés dans 24 milles revues

scientifiques [Harnad.2001]).

Problème

⇒ Impact scientifique perdu.

⇒ Ralentissement de l’avancement de la recherche scientifique.

Page 4: Vers une analyse scientométrique de textes intégraux en ... · Accès libre et auto-archivage Auto-archivage : « L'auto-archivage, consiste à déposer un document électronique

ProblématiqueCauses possibles [Swan. 2004]

–Faible pourcentage des revues scientifiques mettant en accès libre les articles

qu’elles publient (5%).

–Coût extrêmement élevé des droits d’accès aux revues scientifiques.

–Impossibilité pour les institutions universitaires d’acheter les droits d’accès pour

les 24000 revues.

–Faible taux d’auto-archivage.

–Absence de politique institutionnelle d’auto-archivage.

–Fausses idées concernant le copyright.

–Difficulté de trouver l’information scientifique pertinente sur le Web.

–Faible taux de couverture des outils de recherche.

Page 5: Vers une analyse scientométrique de textes intégraux en ... · Accès libre et auto-archivage Auto-archivage : « L'auto-archivage, consiste à déposer un document électronique

Accès libre et auto-archivageAccès libre :

"Par "accès libre" à cette littérature, nous entendons sa mise à disposition gratuite sur

l'Internet public, permettant à tout un chacun de lire, télécharger, copier, distribuer,

imprimer, chercher ou faire un lien vers le texte intégral de ces articles, les disséquer

pour les indexer, s'en servir de données pour un logiciel, ou s'en servir à toute autre fin

légale, sans barrières financières, légales ou techniques autres que celles indissociables

de l'accès et l'utilisation d'Internet. La seule contrainte à la reproduction et la distribution,

et le seul rôle du copyright dans ce domaine, devrait être de garantir aux auteurs un

contrôle sur l'intégrité de leurs travaux et le droit à être correctement reconnus et cités."

[BOAI, 2007]

Impact scientifique :

Nous utilisons l’expression « impact scientifique » pour faire référence au nombre de

citations que reçoit une publication scientifique.

Page 6: Vers une analyse scientométrique de textes intégraux en ... · Accès libre et auto-archivage Auto-archivage : « L'auto-archivage, consiste à déposer un document électronique

Accès libre et auto-archivageAuto-archivage :

« L'auto-archivage, consiste à déposer un document électronique sur un site web en

accès public, de préférence selon le format d'archivage des publications électroniques

définis par l'OAI[1]. Ce dépôt implique une interface web simple, où le dépositaire

copie/colle les métadonnées (date, auteur, titre, nom du journal, etc ..), et attache ensuite

le texte intégral du document. Un logiciel autorisant l'auto-archivage de plusieurs

documents groupés, plutôt qu'un par un, est en cours de développement. »[BOAI, 2007]

Métadonnées :

Nous utilisons le terme métadonnées pour faire référence aux données relatives à une

publication : l’auteur, la discipline, la spécialité, le titre, l’année de publication, la revue qui

a publié l’article, l’institution signatrice de l’article, le pays auquel appartient l’institution, et

la langue dans laquelle est rédigé l’article.

[1] Open archives initiative.

Page 7: Vers une analyse scientométrique de textes intégraux en ... · Accès libre et auto-archivage Auto-archivage : « L'auto-archivage, consiste à déposer un document électronique

État du lieuResearchers write

pre-refereeing “Pre-Print”

New impact cycles:New research builds on existing research

Impact cycle begins:Research is done

Pre-Print revised by article’s Authors

Submitted to Journal

Pre-Print reviewed by Peer Experts – “Peer-Review”

Refereed “Post-Print”Accepted, Certified, Published by Journal

Researchers can access the Post-Print if their university has a subscription to the Journal

12-1

8 M

ont

hs

Processus de publication et de diffusion des articles scientifiques. [Harnad, Brody, Hajjem, 2006]

Page 8: Vers une analyse scientométrique de textes intégraux en ... · Accès libre et auto-archivage Auto-archivage : « L'auto-archivage, consiste à déposer un document électronique

Objet de la recherche– Identifier les facteurs influençant l’impact scientifique des publications.

– Déterminer si l’accès libre constitue un de ces facteurs et si oui qu’elle est l’ampleur de son impact.

– Étudier les diverses corrélations entre ces facteurs.

– Étudier l’évolution temporelle de l’impact des publications.

– Identifier les modèles de repérage qui peuvent être adaptés aux publications scientifiques.

– Développer les outils nécessaires pour mesurer l’impact scientifique et l’évolution du mouvement de l’accès ouvert.

– Développer un modèle de repérage qui se veut le plus adapté à la spécificité et au contexte des publications.

– Identifier les indicateurs qui peuvent être utilisés pour juger de l’impact des publications scientifiques.

Page 9: Vers une analyse scientométrique de textes intégraux en ... · Accès libre et auto-archivage Auto-archivage : « L'auto-archivage, consiste à déposer un document électronique

Robot de recherche« Programmes qui s’exécutent automatiquement sur un ordinateur relié à Internet

et qui explorent le Web « systématiquement » en parcourant et en enregistrant la

structure hypertextuelle et le contenu (ou des parties du contenu) des documents

repérés (et des documents auxquels réfèrent ces documents) en utilisant le

protocole http ».[Arsenault, 2005]

Algorithme de navigation des robots de recherche. [Arsenault, 2005]

Page 10: Vers une analyse scientométrique de textes intégraux en ... · Accès libre et auto-archivage Auto-archivage : « L'auto-archivage, consiste à déposer un document électronique

Recherche item connu

Page 11: Vers une analyse scientométrique de textes intégraux en ... · Accès libre et auto-archivage Auto-archivage : « L'auto-archivage, consiste à déposer un document électronique

Recherche item connu

Page 12: Vers une analyse scientométrique de textes intégraux en ... · Accès libre et auto-archivage Auto-archivage : « L'auto-archivage, consiste à déposer un document électronique

Recherche item connu

Page 13: Vers une analyse scientométrique de textes intégraux en ... · Accès libre et auto-archivage Auto-archivage : « L'auto-archivage, consiste à déposer un document électronique

1- Les données sources CD-ROM (Thomson scientifique)

– Données recueillies par l’Institut des Sciences de l’Information (ISI).

– Représentent les métadonnées des articles publiés dans des revues expertes et publiés entre les années 1992 et 2004.

– Diverses disciplines (biologie, sociologie, psychologie, etc.).

2- Les documents importés par le robot de recherche (AlltheWeb, Yahoo, eo, Altavista, OAIster et MetaCrawler).

État d’avancement des travaux

Page 14: Vers une analyse scientométrique de textes intégraux en ... · Accès libre et auto-archivage Auto-archivage : « L'auto-archivage, consiste à déposer un document électronique

État d’avancement des travauxInfrastructure informatique

- Serveur Mac.

- Cartes réseaux.

- Réseaux Ethernet de l’UQÀM.

- Système d’exploitation : Mac OS X.

-Fink 0.4.1.

- Système de gestion de base de données : SQL Server et MySQL.

- Convertisseurs: Xpdf, antiword, unrtf, html2text, texi2pdf, ps2pdf, latext2html.

- Serveur Web Apache.

- Interpréteur : Perl 5.6.

- Installation des packages : LWP, DBI, DBD ::ODBC, CGI, SOAP::Lite, URI::Escape,

HTML::Parse, XML ::Parser, HTML::Element, GD ::Graph, Statistics-Basic, Perl/tk,

Stemmer

- Octave.

Page 15: Vers une analyse scientométrique de textes intégraux en ... · Accès libre et auto-archivage Auto-archivage : « L'auto-archivage, consiste à déposer un document électronique

Évaluation de l’exactitude des résultats du robot

Échantillon

200 articles appartenaient à la discipline biologie dont 100 sont identifiés en accès

libre (OA) et 100 sont identifiés non en en accès libre (NOA).

Quatre groupes:

- Vrai OA: le fichier trouvé par le robot correspond à l'article recherché.

- Vrai NOA: le robot indique que l'article n'est pas en accès libre et la vérification

manuelle le confirme.

- Faux OA: le fichier trouvé par le robot ne correspond pas au texte intégral de

l'article recherché.

- Faux NOA: le robot indique que l'article n'est pas en accès libre cependant la

vérification manuelle l'infirme.

Page 16: Vers une analyse scientométrique de textes intégraux en ... · Accès libre et auto-archivage Auto-archivage : « L'auto-archivage, consiste à déposer un document électronique

Évaluation de l’exactitude des résultats du robot

11387Total946NOA19 81OA

NOAOARobot

Vérification manuelleMatrice de décision

0.16Taux d'échec (false alarm rate)

0.93Taux de réussite (hit rate)

Probabilité

Matrice de décision.[Hajjem, Harnad, Gingras, 2005]

Taux de réussite et d'échec du robot. [Hajjem, Harnad, Gingras, 2005]

0,528257842ß2,445075164d'

Mesure de d' (discriminability index) et de ß (decision bias)[Hajjem, Harnad, Gingras, 2005]

Page 17: Vers une analyse scientométrique de textes intégraux en ... · Accès libre et auto-archivage Auto-archivage : « L'auto-archivage, consiste à déposer un document électronique

Évaluation de l’exactitude des résultats du robot

Interprétation des résultats

=> d’ = 2.44, donc l'algorithme appliqué par le robot est efficace pour la tâche demandée.

=> ß=0.52, donc le robot a tendance à être libéral que neutre.

Analyse de détection de signal. [Hajjem, Harnad, Gingras, 2005]

Page 18: Vers une analyse scientométrique de textes intégraux en ... · Accès libre et auto-archivage Auto-archivage : « L'auto-archivage, consiste à déposer un document électronique

Calcul des citationsA r t ic le

P K , I 1 I D _ A r t

T i t r eF K 3 N o _ R e v u e

A n n e eV o lu m eN u m e r oP a g e _ D e b u tP a g e _ F in

F K 1 I D _ D o c u m e n tF K 2 C o d e _ L a n g u e

T G A _ N u m e r oN b _ R e f e r e n c eN b _ A u t e u rN b _ A d r e s s e

A d r e s s e

P K , F K 1 , I 1 I D _ A r tP K , I 1 O r d r e

F K 2 , U 1 I n s t i t u t io nD e p a r t e m e n t

U 3 V i l leP r o v in c e

F K 3 , U 2 P a y sC o d e _ p o s t a lA d r e s s e _ O r ig in a l

A u t e u r

P K , F K 1 , I 1 I D _ A r tP K , I 1 O r d r e

N o m

D e u x ie m e

P K , I 1 I D _ A r tP K , I 1 O r d r e

I n s t i t u t i o n

L is t e _ D is c ip l in e

P K , I 1 N o _ D i s c i p l i n e

C h a m pS o u s _ C h a m pE C h a m pE S o u s _ C h a m pF C h a m pF S o u s _ C h a m pA n c _ C h a m pA n c _ S o u s _ C h a m p

L is t e _ D o c u m e n t

P K , I 1 I D _ D o c u m e n t

T y p e _ D o c u m e n t

L is t e _ I n s t i t u t io n

P K , I 1 I n s t i t u t i o n

A f f i l ia t io nC e n t r e

F K 1 S e c t e u rN o m _ C o m p le tA d r e s s eL ie n _ W e b

L is t e _ L a n g u e

P K , I 1 C o d e _ L a n g u e

L a n g u e

L is t e _ L a n g u e

P K , I 1 C o d e _ L a n g u e

L a n g u e

L is t e _ P a y s

P K , I 1 P a y s

P a y s _ A n g la isP a y s _ F r a n c a isG r o u p _ C o u n t r yP a y s _ R e g r o u p e

L is t e _ s e c t e u r

P K , I 1 S e c t e u r

N o m _ S e c t e u rG r a n d _ S e c t e u r

S C I R e v u e

P K , I 1 N o _ R e v u e

R e v u eF K 1 , U 1 N o _ D is c ip l in e

C h a m pS o u s _ C h a m pR e v u e _ a b b r e g e _ C H IR e v u e _ A b b r e g eF a c t 8 0F a c t 8 1F a c t 8 2F a c t 8 3F a c t 8 4F a c t 8 5F a c t 8 6F a c t 8 7F a c t 8 8F a c t 8 9F a c t 9 0F a c t 9 1F a c t 9 2F a c t 9 3F a c t 9 4F a c t 9 5F a c t 9 6F a c t 9 7F a c t 9 8D e g r e _ a p p l ic a t io nC o m m e n t a i r e sP U B 1 9 9 3P U B 1 9 8 6I N F L _ W G TI N F L _ P U BI M P A C T _ C H ID i s p o n i b l e

References

PageVolumeNomAnneeRef_abbr

Id_artordre

Page 19: Vers une analyse scientométrique de textes intégraux en ... · Accès libre et auto-archivage Auto-archivage : « L'auto-archivage, consiste à déposer un document électronique

Mesure de l’impactAnalyse par discipline

Pour chaque article : (1) OA ou NOA.(2) Nombre de citations.(3) Discipline.(4) Revue.(5) Année de publication.

Pour chaque discipline:Pour chaque revue:

Pour chaque année:(1) pourcentage d’articles en accès libre.(2) nombre total d’articles.(3) moyenne de citations des articles en accès libre.(4) moyenne de citations des articles non en accès libre.(5) impact de citations.

- moyenne de citations des articles en accès libre.- moyenne de citations des articles non accès libre.- n nombre de revues.

∑=

=n

i

nNOAOALogonspactCitati

0

/))((Im

OA

NOA

Page 20: Vers une analyse scientométrique de textes intégraux en ... · Accès libre et auto-archivage Auto-archivage : « L'auto-archivage, consiste à déposer un document électronique

Mesure de l’impact

Variation de l'impact en fonction de la discipline.[Hajjem, Harnad, Gingras, 2005]

Page 21: Vers une analyse scientométrique de textes intégraux en ... · Accès libre et auto-archivage Auto-archivage : « L'auto-archivage, consiste à déposer un document électronique

Mesure de l’impact

0.25 NS0.21 NS-0.02 NS0.65p < 0.010.31 NS0.76p < 0.005

OA Citation Advantage x YearOA Citation Advantage x Total articlesOA Citation Advantage x %OA articlesTotal articles x YearTotal articles x %OA articles%OA articles x Year

rN=12

Variation de l'impact en fonction des années.[Hajjem, Harnad, Gingras, 2005]

Table des corrélations. [Hajjem, Harnad, Gingras, 2005]

Page 22: Vers une analyse scientométrique de textes intégraux en ... · Accès libre et auto-archivage Auto-archivage : « L'auto-archivage, consiste à déposer un document électronique

Mesure de l’impactAnalyse par pays

Variation de l'impact en fonction des pays des instituts signataires.[Hajjem, Harnad, Gingras, 2005]

Page 23: Vers une analyse scientométrique de textes intégraux en ... · Accès libre et auto-archivage Auto-archivage : « L'auto-archivage, consiste à déposer un document électronique

Analyse intra-niveaux de citations

Variation des pourcentages d'articles en fonction de niveaux de citations.

Page 24: Vers une analyse scientométrique de textes intégraux en ... · Accès libre et auto-archivage Auto-archivage : « L'auto-archivage, consiste à déposer un document électronique

Analyse intra-niveaux de citations

0.94p < 0.0050.60p < 0.0250.10p < 0.05-0.36 p < 0.05-0.74 p < 0.005-0.93 p < 0.001

O Citations OAc x Year1 Citations OAc x Year2 - 3 Citations OAc x Year4 - 7 Citations OAc x Year8 - 15 Citations OAc x Year16+ Citations OAc x Year

rN=12

Variation OAc en fonction des années.[Hajjem, Harnad, Gingras, 2005]

Tableau de corrélation OAc x années. [Hajjem, Harnad, Gingras, 2005]

Page 25: Vers une analyse scientométrique de textes intégraux en ... · Accès libre et auto-archivage Auto-archivage : « L'auto-archivage, consiste à déposer un document électronique

Analyse intra-niveaux de citations

0.94p < 0.0010.94p < 0.0010.96p < 0.0010.96 p < 0.0010.91 p < 0.0010.87 p < 0.001

O Citations OAc x Year1 Citations OAc x Year2 - 3 Citations OAc x Year4 - 7 Citations OAc x Year8 - 15 Citations OAc x Year16+ Citations OAc x Year

rN=12

Variation du rapport OAc/NOAc -1 avec les années.[Hajjem, Harnad, Gingras, 2005]

Tableau de corrélation (OAc / NOAc - 1) x années. [Hajjem, Harnad, Gingras, 2005]

Page 26: Vers une analyse scientométrique de textes intégraux en ... · Accès libre et auto-archivage Auto-archivage : « L'auto-archivage, consiste à déposer un document électronique

Analyse intra-niveaux de citations

Variation du rapport OAc/NOAc -1.[Hajjem, Harnad, Gingras, 2005]

Page 27: Vers une analyse scientométrique de textes intégraux en ... · Accès libre et auto-archivage Auto-archivage : « L'auto-archivage, consiste à déposer un document électronique

Analyse par la régression multipleÉtude de l’échantillon.

- CD-ROM présentant la base de données de ISI.

- Articles appartenaient à la discipline biologie.

- Publiés entre 1992 et 2003.

- Nombre total d’articles est 442750.

- Variable dépendante: nombre de citations.

Distribution du nombre d’articles en fonction du nombre de citations ne suit

pas la loi normale => transformation. Y’=Log(Y+1).

- Variables explicatives:

Impact de la revue (RI): min 0.000, max. 18.219;

Année de publication (An) : min 0 max. 11;

Nombre d’auteurs (Aut): min 1, max. 17;

Accès libre (statut, Al): binaire 0: non en accès libre et 1 en accès libre.

Page 28: Vers une analyse scientométrique de textes intégraux en ... · Accès libre et auto-archivage Auto-archivage : « L'auto-archivage, consiste à déposer un document électronique

Analyse par la régression multiple

Variation de nombre d’articles en fonction du nombre de citations (Y)

Variation de nombre d’articles en fonction (Y’)

Page 29: Vers une analyse scientométrique de textes intégraux en ... · Accès libre et auto-archivage Auto-archivage : « L'auto-archivage, consiste à déposer un document électronique

Analyse par la régression multiple

a Dependent Variable: CITT

Stepwise (Criteria: Probability-of-F-to-enter <= .050, Probability-of-F-to-remove >= .100).

. STATUT 4

Stepwise (Criteria: Probability-of-F-to-enter <= .050, Probability-of-F-to-remove >= .100).

. NAUTEURS 3

Stepwise (Criteria: Probability-of-F-to-enter <= .050, Probability-of-F-to-remove >= .100).

. RevueImpact2

Stepwise (Criteria: Probability-of-F-to-enter <= .050, Probability-of-F-to-remove >= .100).

. AGE1

MethodVariables Removed

Variables EnteredModel

a Dependent Variable: CITT

.00018.846 .026 .003 5.363E-02

STATUT

.00097.393 .137 .001 5.683E-02

NAUTEURS

.000146.066

.206 .001 .133 RevueImpact

.000259.351

.364 .000 7.751E-02

AGE

.000-49.146 .003 -.144 (Constant)

4

BetaStd. Error

B

Sig.tStandardized

Coefficients

UnstandardizedCoefficients

Model

Log (nombre de citations +1) =-0.144+7.75 10-2 An+ 0.133 RI+5.66 10-2Aut+5.36 10-2 Al

Nombre de citations = exp(-0.144+ 7.75 10-2An+ 0.133 RI+5.66 10-2Aut+5.36 10-2 Al -1.44)-1

Les variables entrées/supprimées.Table des coefficients.

Page 30: Vers une analyse scientométrique de textes intégraux en ... · Accès libre et auto-archivage Auto-archivage : « L'auto-archivage, consiste à déposer un document électronique

Analyse par la régression multipleImpact de la revue

Groupe Ari [0.000, 0.592]:Nombre de citations = exp(4.82 10-2An+ 0.592 RI+5.55 10-2Aut+1.21 10-2 Al -0.27)-1

Groupe Bri [0.593, 0.949]:Nombre de citations = exp(7.29 10-2 An+ 0.349 RI+5.78 10-2 Aut+ 5.69 10-2 Al -0.27)-1

Groupe Cri [0.950, 1.444]:Nombre de citations = exp(8.68 10-2 An+ 0.194 RI+5.21 10-2 Aut+ 5.35 10-2 Al -0.18)-1

Groupe Dri [1.445, 18.219]:Nombre de citations = exp(0.12 An+ 5.39 10-2 RI+4.71 10-2 Aut+ 7.92 10-2 Al -0.02)-1

Année de publicationGroupe Aan [2001, 2003]:

Nombre de citations = exp(2.48 10-2An+ 0.18 RI+9.65 10-2Aut+5.75 10-2 Al +1.42)-1Groupe Ban [1998, 2000]:

Nombre de citations = exp(7.22 10-2 An+ 0.16 RI+6.27 10-2 Aut+ 3.93 10-2 Al -0.06)-1Groupe Can [1995, 1997]:

Nombre de citations = exp(4.91 10-2 An+ 0.19 RI+8.16 10-2 Aut+ 6.34 10-2 Al -0.03)-1Groupe Dan [1992, 1994]:

Nombre de citations = exp(2.48 An+ 0.18 RI+9.65 10-2 Aut+ 5.75 10-2 Al +0.14)-1

Page 31: Vers une analyse scientométrique de textes intégraux en ... · Accès libre et auto-archivage Auto-archivage : « L'auto-archivage, consiste à déposer un document électronique

Analyse de l’impact des articles disponibles dans les archives obligatoires

Mise en oeuvre de la technique de T-test.

-Articles publiés par des institutions présentant des archives obligatoires

- Queensland University of Technology;

- CERN: European Organization for Nuclear Research;

- Universidade do Minho;

- University of Southampton Department of Electronics and Computer

Science).

-Publiés après la date de la mise en œuvre du mandat obligatoire (2004) de l’auto-

archivage;

-Référencés par ISI.

-Articles qui sont publiés dans la même année/revue.

Page 32: Vers une analyse scientométrique de textes intégraux en ... · Accès libre et auto-archivage Auto-archivage : « L'auto-archivage, consiste à déposer un document électronique

Analyse de l’impact des articles disponibles dans les archives obligatoires

Échantillon:-Groupe 1 (Sm) : articles présents dans les archives identifiées et qui sont trouvés par le robot de recherche.

-Groupe 2 (Nm) : les articles présents dans les archives identifiées mais qui ne n’ont pas ététrouvés par le robot de recherche.

-Groupe 3 (Sn) : les articles qui ne sont pas présents dans les archives identifiées mais qui sont trouvés par le robot de recherche.

- Groupe 4 (Nn) : les articles qui ne sont pas présents dans les archives identifiées et qui ne sont pas trouvés par le robot de recherche.

S Nm m

n n

Page 33: Vers une analyse scientométrique de textes intégraux en ... · Accès libre et auto-archivage Auto-archivage : « L'auto-archivage, consiste à déposer un document électronique

H0 : il n’existe pas de différence significative entre la moyenne de citations du groupe Sm et Sn.

H1 : il existe une différence significative entre la moyenne de citations du groupe Sm et Sn.

0,18

-0,27

0,18

0,57

0,34

0,17

106203

4974

27972

541279 24 48 20 24 48-1,00

-0,80

-0,60

-0,40

-0,20

0,00

0,20

0,40

0,60

0,80

1,00

S/N Sn/Sm Sn/Nn Sm/Nm Sm/N Sn/NRapports

0

5000

10000

15000

20000

25000

30000

Moyenne Nombre Article Nombre revue

Analyse de l’impact des articles disponibles dans les archives obligatoires

Étude de l'impact des articles auto-archivés.

Page 34: Vers une analyse scientométrique de textes intégraux en ... · Accès libre et auto-archivage Auto-archivage : « L'auto-archivage, consiste à déposer un document électronique

UpperLower

Sig. (2-tailed)

dftPaired Differences

95% Confidence Interval of the

Difference

Std. ErrorMean

Std. Deviati

on

Mean

0,03472,230,320,010,070,530,17SnT -NT

Pair 6

0,009232,860,580,090,110,580,34SmT -NT

Pair 5

0,015192,681,010,120,210,950,57SmT -NmT

Pair 4

0,007472,830,310,050,060,440,18SnT -NnT

Pair 3

0,037232,210,520,010,120,590,26SmT -SnT

Pair 2

0,008472,780,300,040,060,440,17ST -NT

Pair 1

Interprétation24 pair (24 revues) étudiées. La valeur de t est 2.21. La valeur de p est 0.03 < 0.05.

=> Hypothèse H1 confirmée, la moyenne de citations du groupe Sm est supérieure à la moyenne du groupe Sn.

Paired differences

Page 35: Vers une analyse scientométrique de textes intégraux en ... · Accès libre et auto-archivage Auto-archivage : « L'auto-archivage, consiste à déposer un document électronique

Exploration de sujetsAnalyse sémantique latente (LSI)[Furnas, Deerwester, Dumais, Landauer, Harshman, Streeter, Lochbaum, 1988]

M K

S 0 0 DT

Documents

Mots = x x

txd txr

r x r rxd

Mk Kk

Sk 0

0

DkT

Documents

Mots=

x x

kxd txk

k x k kxd

k

Décomposition en valeurs singulières

Réduction de la matrice.

Page 36: Vers une analyse scientométrique de textes intégraux en ... · Accès libre et auto-archivage Auto-archivage : « L'auto-archivage, consiste à déposer un document électronique

Le modèle neuronal[Willinkson, Hingston, 1991]

Index

Mot4

Mot1

Mot2

Mot3

Mot4

Doc1

Doc2

Requête DocumentsDoc3

Mot1

+++++LSI+++++Neuronal

Tenir compte des cooccurrences des mots

Propice pour tenir compte du feed-back de l’utilisateur

Ordonner

les documents selon leurs degrés de pertinence

Tenir compte des poids des termes dans les documents

Tenir compte des poids des termes dans la requête

Similaritépartielle

Modèle neuronal

Page 37: Vers une analyse scientométrique de textes intégraux en ... · Accès libre et auto-archivage Auto-archivage : « L'auto-archivage, consiste à déposer un document électronique

Modèle proposé

Page 38: Vers une analyse scientométrique de textes intégraux en ... · Accès libre et auto-archivage Auto-archivage : « L'auto-archivage, consiste à déposer un document électronique

Modèle proposé

Page 39: Vers une analyse scientométrique de textes intégraux en ... · Accès libre et auto-archivage Auto-archivage : « L'auto-archivage, consiste à déposer un document électronique

Indicateurs du phénomène libre accès

La date de publication de l’article.

Le nombre d’auteurs.

La diversité disciplinaire des auteurs.

Le nombre de citations reçues par les publications des auteurs.

Le nombre d’instituts signateurs.

La diversité géographique des instituts signateurs.

Le nombre de références citées.

La diversité disciplinaire des références citées.

La date de publication des références citées.

Le nombre de téléchargements.

Le nombre de téléchargements en fonction du temps.

Le nombre de téléchargement en fonction des intervalles de temps.

Le nombre de citations reçues.

Le nombre de citations reçues en fonction des intervalles de temps.

Page 40: Vers une analyse scientométrique de textes intégraux en ... · Accès libre et auto-archivage Auto-archivage : « L'auto-archivage, consiste à déposer un document électronique

Indicateurs du phénomène libre accès

Le nombre d’auto-citations.

Le pourcentage d’auto-citations.

La diversité disciplinaire des citations reçues.

La diversité géographique des citations reçues.

La diversité temporelle des citations reçues.

La diversité disciplinaire des auteurs des publications qui citent l’article.

La diversité géographique des auteurs des publications qui citent l’article

Le nombre de citations reçues.

Le facteur d’impact de la revue qui a publié l’article pour l’année de publication de l’article.

Le facteur d’impact de la revue en fonction du temps.

La date de mise en accès-libre de la version pré-tirage.

La date de la mise en accès libre de la version officielle.

L’intervalle de temps entre la date de mise en accès libre de la version pré-tirage et de la version

officielle.

Le nombre de citations reçues par la version de pré-tirage.

Page 41: Vers une analyse scientométrique de textes intégraux en ... · Accès libre et auto-archivage Auto-archivage : « L'auto-archivage, consiste à déposer un document électronique

Échéancier

Présentation de la thèse

Diffusion des résultats

Interprétation des résultats.

Test du code

Programmation exploration sujet

Conception de l'algorithme exploration sujet

Interprétation et diffusion des résultats

Analyse en fonction de la langue

Analyse en fonction de pays

Analyse en fonction de nombre citations

Interprétation et diffusion des résultats

Analyse des résultats

Interprétation et diffusion des résultatsÉtude de la régression multipleMise en pratique

Analyse des résultats

Mise en application 1ere phase

Test du code

Programmation Item connu

Installation des logiciels

Étude de l'infrastructure

Conception de l'algorithme Item connu

Rédaction de la proposition du projet

Identification des ressources

Identification des objectifs

Définition des concepts

2007200620052004

Page 42: Vers une analyse scientométrique de textes intégraux en ... · Accès libre et auto-archivage Auto-archivage : « L'auto-archivage, consiste à déposer un document électronique

Références[BOAI, 2007] Initiative de Budapest pour l’accès ouvert. http://www.soros.org/openaccess/fr/read.shtml. Consulté le 31 mars

2007.

[Arsenault, 2005] Arsenault, C. (2005). Notes du cours BLT6057, recherche d’information. Université de Montréal.

[Brody. 2004] Brody T. (2004).Citation impact of open access articles vs articles available only through subscription ("Toll-

Access"). http://citebase.eprints.org/isi_study/

[ClickZ. 2005] ClickZ. (2005). Trends & statistics The web’s richest source.

[Furnas, Deerwester, Dumais, Landauer, Harshman, Streeter, Lochbaum, 1988] G.W. Furnas and S. Deerwester and S. T.

Dumais and T. K. Landauer and R. A. Harshman and L.A. Streeter and K. E. Lochbaum (1988) Information retrieval using a

singular value decomposition model of latent semantic structure, SIGIR ’88 : Proceeding of the 11th annual international

ACM SIGIR conference on Research and development in information retrieval, pp. 465-480, Grenoble (France),

[Hajjem, Harnad, Gingras, 2005] Hajjem C., Harnad S., Gingras Y. (2005). Ten-Year Cross-Disciplinary Comparison of the

Growth of Open Access and How it Increases Research Citation Impact. IEEE Data Eng. Bull. 28(4): 39-46.

http://sites.computer.org/debull/A05dec/hajjem.pdf

[Han Kamber, 2006] Han, J. Kamber, M. (2006). Data mining, concepts and techniques, Second edition. Morgan Kaufmann

Publishers.

[Harnad, 2004] Harnad, S. & Brody, T. (2004) Comparing the Impact of Open Access (OA) vs. NOA Articles in the Same

Journals, D-Lib Magazine 10 (6) June http://www.dlib.org/dlib/june04/harnad/06harnad.html

[Harnad, Brody, Hajjem, 2006], Harnad, S. Brody, T. Hajjem, C. (2006). Self archiving-illustration.http://www.bibli.ens-

cachan.fr/WEB/Bases/Conferences/Roland/Roland2006.ppt

[Harnad. 2001] Harnad S.(2001). Lecture et écriture scientifique “dans le ciel” : une anomalie post - gutenbergienne et

comment la résoudre Archive institutionnel UQÀM

Page 43: Vers une analyse scientométrique de textes intégraux en ... · Accès libre et auto-archivage Auto-archivage : « L'auto-archivage, consiste à déposer un document électronique

Références[ISO/CEI9126] ISO/CEI9126. Technologie de l’information – Évaluation des produits logiciels – Caractéristiques de qualité et

directives d’utilisation. 1991.

[Kurtz, 2004] Kurtz, M. J., Eichhorn, G., Accomazzi, A., Grant, C. S., Demleitner, M., Murray, S. S. (2004) The Effect of Use

and Access on Citations. Information Processing and Business. http://cfa-www.harvard.edu/~kurtz/IPM-abstract.html

[Lawrence, 2001]Lawrence, S. (2001) Online or Invisible?, Nature 411 (2001) (6837), p. 521 http://citeseer.ist.psu.edu/online-

nature01/

[Moed, 2005] Henk F, Moed. (2005). Citation analysis in research evaluation. Springer.

[Okerson 1995] Okerson, A. S. & O’Donnell, J. J. (1995) Scholarly Journals at the Crossroads: A subversive proposal for

electronic publishing. Association of Research Libraries. http://www.library.yale.edu/~okerson/toc.html

[Poynder, 2004] Poynder, R. (2004) Ten years after. Information Today. 21(9)

http://www.infotoday.com/it/oct04/poynder.shtml

[Projet. 2002] Projet Eprints. (2002).Déclaration d'un engagement institutionnel. Université de Southampton.

http://www.unites.uqam.ca/cnc/declaration.fr.html

[Sean, 2002] Sean M, Burke. (2002) Perl & LWP, fetching Web pages, parsing HTML, Writing Spiders & More. O’REILLY.

[Swan. 2004] Swan A. (2004). Key perspectives ltd http://www.eprints.org/berlin3/ppts/02-AlmaSwan.ppt

[Willinkson, Hingston, 1991] Ross Willinkson and Philip Hingston (1991) Using the cosine measure in a neural network for

document retrieval, SIGIR ’91 : Proceedings of the 14th annual international ACM SIGIR conference on research and

development in information retrieval, pp. 202-210, Chicago, Illinois.

[Youngen, 1998] Youngen, G. K. (1998) Citation Patterns to Electronic Preprints in the Astronomy and Astrophysics Literature

Library and Information Services in Astronomy III, ASP Conference Series, Vol. 153,

Page 44: Vers une analyse scientométrique de textes intégraux en ... · Accès libre et auto-archivage Auto-archivage : « L'auto-archivage, consiste à déposer un document électronique

Merci!