empirische informationswissenschaft - phil-fak.uni ... · analogie zum radioaktiven zerfall die...
TRANSCRIPT
Empirische Informationswissenschaft 1
Empirische Informationswissenschaft
Empirische Informationswissenschaft 2
Forschungsfelder der empirischen
Informationswissenschaft
Empirische Informationswissenschaft 3
Informetrie
Empirische Informationswissenschaft 4
Informetrie
Nomothetische Informetrie
• Konzentrationsgesetze – Zipfsches Gesetz: Verteilung von Worthäufigkeiten in
Texten
– Lotkas Gesetz: Verteilung von Publikationen eines Fachgebiets auf Autoren
– Bradfordsches Gesetz: Verteilung von Artikeln eines Fachgebiets auf Zeitschriften
– Garfieldsches Gesetz: Verteilung von Zitationen auf wissenschaftliche Zeitschriften
• Gesetz der zeitlichen Verteilung – Halbwertzeit: Zeit, nach der die Hälfte einer Literatur-
menge nicht mehr benutzt wird
Virgil P. Diodato: Dictionary of Bibliometrics. – New York [u.a.]: Haworth, 1994.
Empirische Informationswissenschaft 5
Informetrie
Zipfsches Gesetz • George Kingsley Zipf (1902 - 1950)
gegeben: Text (Artikel, Buch, ...)
Auszählen der Häufigkeiten jedes Wortes
Ordnung der Wörter nach Häufigkeit (absteigend)
r * f = C
f = C : r
r =: Rangplatz des Wortes
f =: Häufigkeit des Wortes
C =: Konstante (abhängig vom Text)
Empirische Informationswissenschaft 6
Informetrie
Zipfsches Gesetz
Beispiel: “Ulysses” (James Joyce)
Wort auf Rang 10 kommt 2.653mal vor: C = 26.530
Wort auf Rang 20 kommt 1.311mal vor: C = 26.220
Wort auf Rang 1.000 kommt 26mal vor: C = 26.000
C (Ulysses) ~ 26.000
Das Gesetz gilt für Hochfrequenzworte, z.T. auch - je nach Text - für alle Worte eines Textes. Für Niedrigfrequenz-worte hat Zipf ein weiteres Gesetz entwickelt (Zweites Zipfsches Gesetz).
George K. Zipf: Human Behavior and the Principle of Least Effort. – Cambridge, MA: Addison-Wesley, 1949.
Empirische Informationswissenschaft 7
Informetrie
Lotkas Gesetz Alfred J. Lotka (1880 - 1949)
gegeben: Fachgebiet mit umfassender Liste der Publikationen zum Fachgebiet (Biblio- graphie, Spezialdatenbank)
Auszählen der Publikationsraten für alle Autoren
Sortieren der Autoren nach der Anzahl der Publikationen
Zählen der Autoren mit gleichviel Publikationen
x * y = c oder y = c / x
x =: Anzahl der Publikationen
y =: relative Häufigkeit der Autoren mit x Publikationen
n, c =: Konstanten (je nach Fachgebiet) [n ~ 2]
n Alfred J. Lotka: The frequency
distribution of scientific
productivity. – In: Journal of the
Washington Academy of Sciences
16 (1926), 317-323.
n
Empirische Informationswissenschaft 8
Informetrie
Lotkas Gesetz Beispiel: “Journal of Finance”, 1946-1980; insgesamt 1.844
Artikel)
1.237 Autoren (67,1%) produzierten je 1 Artikel
295 Autoren (16,0%) produzierten je 2 Artikel
140 Autoren (7,6%) produzierten je 3 Artikel
63 Autoren (3,4%) produzierten je 4 Artikel
41 Autoren (2,2%) produzierten je 5 Artikel
angenommen: n = 2
(1 * 1) * 0,671 = 0,671
(2 * 2) * 0,160 = 0,640
(3 * 3) * 0,076 = 0,684 c ~ 0,6
(4 * 4) * 0,034 = 0,544
(5 * 5) * 0,022 = 0,550
M. Keenan: Report on the 1987
membership survey. – In: Journal of
Finance 43 (1988), 767-777.
Empirische Informationswissenschaft 9
Informetrie
Lotkas Gesetz (geeicht auf 100 Autoren mit 1 Publikation) Publ.zahl (x) absolute Häufigkeit relative Häufigkeit (y) x2 * y
1 100 64,5% 0,645
2 25 16,1% 0,644
3 11,1 7,16% 0,645
4 6,25 4,03% 0,645
5 4 2,58% 0,645
6 2,77 1,79% 0,644
7 2,04 1,32% 0,645
8 1,56 1,01% 0,645
9 1,23 0,80% 0,645
10 1 0,645% 0,645
Σ ~ 155 Σ ~ 100%
rund 80% 20%
80/20 - Faustregel
Empirische Informationswissenschaft 10
Informetrie
Lotkas Gesetz
Kreise: empirische Daten
Linie: nach Theorie erwartet
Reduktion der Daten auf genau
100 Autoren, die 1 Aufsatz
publiziert haben (n = 2)
Derek J. de Solla Price: Litte Science, Big Science. –
Frankfurt: Suhrkamp, 1974.
Empirische Informationswissenschaft 11
Informetrie
Bradfordsches Gesetz
Samuel Clement Bradford (1878 - 1948)
gegeben: Artikel eines Fachgebiets
Zählen der Anzahl der Artikel pro Zeitschrift
Sortieren der Zeitschriften nach der Anzahl der Artikel
Bildung von drei Mengen, die jeweils die gleiche Anzahl der Artikel enthalten
die Anzahl der Zeitschriften in den drei Zonen folgt der Formel
1 : n : n
n =: Konstante (“Bradford Multiplikator”)
2
Empirische Informationswissenschaft 12
Informetrie
Bradfordsches Gesetz
drei Zonen: Kern - Mitte - Rand
empirisches Beispiel:
– Bradford (1934): Schmiermittel (395 Artikel in 164
Zeitschriften)
• Kern: 8 Zeitschriften produzieren 110 Artikel
• Mitte: die nächsten 29 Zs. produzieren 133 Artikel
• Rand: die nächsten 127 Zs. produzieren 152 Artikel
8 : 29 : 127 = 1 : 3,625 : 15,875 ~ 1 : 4 : 16
Samuel C. Bradford: Sources of information on specific subjects. – In: Engineering 137 (1934), 85-86.
Empirische Informationswissenschaft 13
Informetrie
Garfieldsches Gesetz Eugene Garfield (geb. 1925)
gegeben: Referenzen aus Quellenzeitschriften der Reihen des ISI (multidisziplinär)
Zuordnung von Zitationsraten zu Zeitschriften
Sortierung der Zeitschriften nach Zitationsraten
Konzentration wie bei Bradford-Zipf:
75% aller Zitationen entfallen auf knapp 1.000 Zeitschriften; 84% auf ca. 2.000 Zeitschriften
Praktische Konsequenz: eine Datenbank, die einige Tausend Zeitschriften (nämlich die jeweils meistzitierten) auswertet, ergibt ein repräsentatives Abbild der Wissenschaft; hieran orientiert sich die Quellenauswahl bei SCI, SSCI, A&HCI
Eugene Garfield: The mystery of the transposed journal list – wherein Bradford‘s law of scattering is generalized
according to Garfield‘s law of concentration. – In: E.Garfield: Essays of an Information Scientist, Vol 1. –
Philadelphia: ISI Press, 1977, 222-223.
Empirische Informationswissenschaft 14
Informetrie
Garfieldsches Gesetz • Beispiel: Philosophie (Drei-Zonen-Einteilung wie Bradford)
gegeben: 735 Referenzen (Jg. 1975); darin zitierte Zeitschriften: 223
Kern: 6 Zeitschriften (genannt in 245 Zitationen)
Mitte: 23 Zeitschriften (genannt in 245 Zitationen)
Rand: 194 Zeitschriften (genannt in 245 Zitationen)
also: 6 : 23 : 194 = 1 : 3,8 : 32,3 ~ 1 : 4 : 32 (erwartet: 1 : 4 : 16), demnach: sehr große Randzone
Kernzeitschriften:
Journal of Philosophy
Philosophical Review
Analysis
Mind
Philosophy of Sciences
American Philosophical Quarterly
Empirische Informationswissenschaft 15
f (x)
x
f (x) = _____
C
x a
Inverses Power Law
ca. 20%
ca.
80
%
Informetrie
Empirische Informationswissenschaft 16
Informetrie
Folgen alle Verteilungen von Informationen dem Power Law?
Distributions of relevance
0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
rank
deg
ree
of
rele
van
ce
informetric inverse logistic dichotomous
f(x) = C / xa
f(x) = e[-C„(x-1)]b
a ~ 1 ... 2 b ~ 3
Empirische Informationswissenschaft 17
Informetrie
Power Law vs. invers-logistische Verteilung
Was folgt aus unterschiedlichen Relevanzverteilungen?
• Nutzerverhalten bei Trefferlisten
• Pseudo Relevance Feedback
• Topic Detection and Tracking (TDT)
• Trefferlistenvereinigung bei der Meta-Suche
• Evaluation von Retrievalsystemen
• Einsatz von Tagging (Folksonomies) bei der inhaltlichen
Erschließung / Power Tags
Empirische Informationswissenschaft 18
Informetrie
Gesetz der zeitlichen Verteilung: Halbwertszeit
Analogie zum radioaktiven Zerfall
Die Halbwertszeit ist die Zeit, in der die Hälfte eines radioaktiven
Stoffes in einen anderen Stoff zerfallen ist. Dieser Prozess ist
zufallsabhängig; d.h. man weiß nicht, welches Atom zu welcher Zeit
zerfällt. Beispiele für Halbwertszeiten:
Uran-238: 4,5 Mrd. Jahre C-14: 5.730 Jahre
Jod-131: 8 Tage
Empirische Informationswissenschaft 19
Informetrie
Gesetz der zeitlichen Verteilung: Halbwertszeit
gegeben: Zitationen / Referenzen
Sortierung der Zitationen nach der Zeit
Zählen der Anzahl der Zitationen pro Jahr; Zählen der
Gesamtanzahl der Zitationen
Markierung des Jahres, an dem die Hälfte (ein Viertel, ein
Achtel usw.) der Zitationen erreicht wird
Gesetz: Die Halbwertzeiten sind (bei großen Zahlen) jeweils
gleich.
Empirische Informationswissenschaft 20
Informetrie
Deskriptive Informetrie
• Beschreibung von Dokumentmengen.
• Beispiele:
– Werke eines Wissenschaftlers (Wie viel geschrieben? In
welcher Zeit? Worüber? Welche Wirkung?)
– Artikel und Bücher von Angehörigen eines Instituts
– Patente und Artikel eines Wirtschaftsunternehmens
– Wissenschaftliche Zeitschriften (Wie viele Publikationen? Wie
viele unterschiedliche Autoren? Welche Wirkung?)
– Wissenschaftliche und technische Themen (Wann zuerst
aufgekommen? Wie verbreiteten sie sich? Wie lange
diskutiert? Welche Autoren?)
– Länder / Weltregionen (Nationaler Output? Internationale
Wirkung?)
– Websites / Domains (Einfluss? Verlinkung?)
Empirische Informationswissenschaft 21
Informetrie
deskriptive Informetrie: Aufspüren von neuen Informationen in Datenbanken („Knowledge Mining“)
• Rangordnungen
• Zeitreihen
• Semantische Netze
• Informationsfluss- und Linkanalysen
dabei – soweit möglich: Vergleich der beschriebenen Verteilungen mit den (nach den informetrischen Gesetzen) erwarteten
Empirische Informationswissenschaft 22
Informetrie
• Rangordnungen – Fragestellung: Welches sind die Top-X-Items in einer
Dokumentenmenge?
– Theoretische Basis: Konzentrationsgesetze
– Ziel: 1. Retrievalverbesserung; 2. Neue Informationen
– Vorgehen:
• Suche nach allen Datensätzen zum Thema
• Rangordnung zur gewünschten Ausprägung (in den meisten Systemen der Befehl: RANK)
• Ausgabe der “Hitparade” bis Platz X
– Beispiel: Welche Unternehmen sind in der FuE bei Verpackungsmaschinen führend?
Wolfgang G. Stock: Wirtschaftsinformationen aus informetrischen Online-Recherchen. – In: Nachrichten für
Dokumentation 43 (1992), 301-315. - Wolfgang G. Stock: Das „Online-Unternehmensbild“ anhand von
Wirtschaftsdaten und informetrischen F&E-Indikatoren. – In: Harald Killenberg et al. (Hrsg.): Wissensbasierte
Informationssysteme und Informationsmanagement. – Konstanz: Univ.-Verl., 1991, 376-386.
Empirische Informationswissenschaft 23
Informetrie
Rangordnung der Unternehmen nach Patenten bei Verpackungsmaschinen
Rang absolute H. relative H. Unternehmen
1 170 0,74 % Focke & Co GmbH & Co
2 153 0,66 % Grace & Co
3 126 0,55 % Robert Bosch GmbH
4 105 0,45 % Packaging Filling Equip.
N = 22.867 Patentfamilien in der IPC-Unterklasse B65B (nebst aller Unter- begriffe)
N‟ = 7.448 (unterschiedliche) Unternehmen mit mindestens einem Patent in B65B
Empirische Informationswissenschaft 24
Informetrie
• Informetrische Zeitreihen
– Fragestellung: Wie entwickelt sich ein Aspekt einer
Dokumentmenge im Laufe der Zeit?
– Ziel: Neue Informationen
– Vorgehen:
• Suche nach allen Datensätzen zum Thema
• Ausgabe der Inhalte des Feldes “Jahrgang” (mit
Angabe der Anzahl der DE)
• graphische Aufbereitung als Zeitreihe
(Tabellenkalkulationsprogramm)
– Beispiel: Wieviele Patente für Verpackungsmaschinen
haben die führenden Unternehmen pro Jahr zwischen
1981 und 1993 angemeldet?
Empirische Informationswissenschaft 25
Informetrie
Patentaktivitäten der führenden Unternehmen bei
Verpackungsmaschinen
0
10
20
30
40
50
60
70
80
1981
1982
1983
1984
1985
1986
1987
1988
1989
1990
1991
1992
1993
Pate
nta
nm
eld
un
gen
pro
Jah
r
Bosch
Focke
Grace
Empirische Informationswissenschaft 26
Informetrie
• Semantische Netze
– Fragestellung: Gibt es in einer Dokumentenmenge
zusammengehörige Komplexe? Bsp.: kooperierende
Autoren oder Institute; gemeinsam auftretenden Themen;
gemeinsame Referenzen oder Zitationen
– Ziel: 1. Retrievalverbesserung; 2. Neue Informationen
– Vorgehen:
• Suche nach allen Datensätzen zum Thema
• clusteranalytische Aufbereitung der DE
(Spezialsoftware; z.B. Pajek)
• graphische Aufbereitung
– Beispiel: Wie hängen die Forschungsthemen der Krones
AG im Bereich der Etikettiermaschinen zusammen?
Empirische Informationswissenschaft 27
Informetrie
Thematisches Cluster der
Artikel von Krones-
Mitarbeitern im Bereich
der Etikettiermaschinen
(im Bild der Deskriptoren
der FIZ Technik-Datenbank
DOMA)
Empirische Informationswissenschaft 28
Informetrie
• Informationsflussgraph
– Fragestellung: Fließen innerhalb einer Dokumentenmenge
Informationen (welche?, wieviele?) von A nach B? Sofern
Hypertextdokumente vorliegen: Sind A und B verlinkt?
– Ziel: 1. Retrievalstrategie; 2. Neue Informationen
– Vorgehen bei Zitationen:
• Aufruf einer Datenbank, die Zitationen speichert (wiss.
Artikel; Patente; Grundsatzurteile)
• Suche nach zitierenden Dokumenten (nach vorne) und
nach zitierten Dokumenten (nach hinten) – Hostsoftware
• graphische Aufbereitung als Informationsflussgraph
– Beispiel: Woher stammen die Technologieinformationen der
Krones AG? Wohin fließen die Technologieinformationen von
Krones?
Empirische Informationswissenschaft 29
Informetrie
Wissensimport und –export bei der Krones AG (im Bild von Derwent
World Patents Index bei Orbit)
Empirische Informationswissenschaft 30
Informetrie
Datengewinnung der Informetrie
– Online-Informetrie bei Content-Aggregatoren
• Voraussetzungen:
– (1) spezifische informetrische Befehle
– (2) adäquates Feldschema
– (3) adäquate Datenbasis
– Offline-Informetrie mittels spezifischer Analysesoftware
• Download von Datensätzen
• Weiterverarbeitung offline
• Analysesoftware:
– Anacubis
– HistCite
– Pajek (u.a.)
Empirische Informationswissenschaft 31
Informetrie
Online-Informetrie bei Content-Aggregatoren
W.W.Hood; C.S.Wilson: Informetric studies using databases: Opportunities and challenges,
Scientometrics 58 (2003), 587-608.
H.F.Moed: The use of on-line databases for bibliometrics analysis. – In: L.Egghe; R.Rousseau (Hrsg.):
Informetrics 87/88. – Amsterdam: Elsevier Science, 1988, 133-146.
Dietmar Wolfram; Clara M. Chu; Xin Lu: Growth of knowledge: bibliometric analysis using online database
data. – In: L.Egghe; R.Rousseau (Hrsg.): Informetrics 89/90. – Amsterdam: Elsevier Science, 1990, 355-372.
Empirische Informationswissenschaft 32
Informetrie
Informetrische
Befehle bei STN
Rangordnungen mit
ANALYZE
ANALYZE and TABULATE Commands. – In:
STNotes No. 17 (1998), 1-5.
Empirische Informationswissenschaft 33
Informetrie
Informetrische
Befehle bei STN
Zusammenhänge
zweier Variablen
mit TABULATE
(wenn eine Variable
PY ist: Zeitreihe)
ANALYZE and TABULATE Commands. – In:
STNotes No. 17 (1998), 6-8.
Empirische Informationswissenschaft 34
Informetrie
Informetrische
Befehle bei
DIALOG:
Zusammenspiel
von MAP und
RANK
Mechtild Stock; Wolfgang G. Stock: Dialog/DataStar. One-Stop-Shops internationaler Fachinformationen. –
In: Password Nr. 4 (2003), 22-29.
In welche Technikgebiete hinein haben
Düsseldorfer Unternehmen die größte
Wirkung? Welches ist das meistzitierte Patent
des Jahres 1995?
MAP PN/CT=
Empirische Informationswissenschaft 35
Informetrie
Zusammenspiel
von MAP und
RANK
Zwischenergebnis;
unter SC004
gespeichert
Datenbankwechsel:
b 342
Ausführen der
gespeicherten Suche:
EXS SC004
Empirische Informationswissenschaft 36
Informetrie
RANK IC(1-4)
RANK CT
C11D : Reinigungsmittel
G08G : Verkehrsregelungs-
und -überwachungssysteme
Empirische Informationswissenschaft 37
Web-Informetrie
(„Webometrie“)
Empirische Informationswissenschaft 38
Webometrie
Forschungsfelder der Webometrie
1. Inhalt (content) von Webseiten
2. Struktur der Links im WWW
3. Nutzer und Nutzung des Webs (einschließlich
Suchverhalten bei Suchmaschinen)
4. Analyse und Bewertung von Web-Technologie
(einschließlich Evaluation von Suchwerkzeugen)
Lennart Björneborn, Peter Ingwersen: Towards a basic framework for webometrics. – In:
Journal of the American Society for Information Science and Technology 55 (2004), 1216-1227.
Empirische Informationswissenschaft 39
Webometrie
Web-Informetrie bei Suchmaschinen
Web Impact Factor (WIF)
• WIF(C) = (# Links auf Seiten von C) / (# Seiten innerhalb C)
bei AltaVista: Zähler: link:.XX/
Nenner: domain:XX oder host:www.XXX/
Self-Link WIF (C) = (# Links aus C auf C) / (# Seiten innerhalb C)
bei AltaVista: Zähler: domain/host:XX/ AND link:.XX/
• Ext-Link WIF (C) = (# Links außerhalb C auf C) / (# Seiten innerhalb C)
bei AltaVista: Zähler: link:.XX/ AND NOT (domain/host:XX AND link:.XX/)
• Es gilt: WIF(C) = Self-Link (C) + Ext-Link (C)
Peter Ingwersen: The calculation of Web Impact Factors. – In: Journal of Documentation 54 (1998), 236-243.
Empirische Informationswissenschaft 40
Webometrie
Web Impact Factor (WIF) für Uni Düsseldorf und Uni Köln
– April 2003
• WIF (DDF) = 0,44 WIF (KÖLN) = 0,49
• Self-Link WIF (DDF) = 0,03 Self-Link WIF (KÖLN) = 0,14
• Ext-Link WIF (DDF) = 0,41 Ext-Link WIF (KÖLN) = 0,35
• N (Seiten DDF) = 56.927 N (Seiten KÖLN) = 87.421
Empirische Informationswissenschaft 41
Webometrie
Variante des Web Impact Factor von Thelwall
• Kritik am Verfahren von Ingwersen: Die Zahl der Webseiten eines
Hosts sagt nichts über die dahinterstehende Organisation aus.
• Vorschlag:
– (a) Beschränkung auf externe Links
– (b) Relativierung auf die Anzahl der Vollzeitäquivalente akademischer
Mitarbeiter einer Institution (was heißt, dass diese Variante ausschließ-
lich auf Universitäten und andere Forschungseinrichtungen anwendbar
ist)
• Academic-WIF (C) = (# Links außerhalb C auf C) / (# Wissenschaftler-
Vollzeitäquivalente in C)
Mike Thelwall: A comparison of sources of links for academic Web impact factor calculation. – In:
Journal of Documentation 58 (2002), 66-78.
Empirische Informationswissenschaft 42
Webometrie
Academic Web Impact Factor (Acad. WIF) und Wissen-
schaftsevaluation
– Gibt es Korrelationen (Pearson) zwischen
• Acad. WIF und
• „Official Government Research Assessment Exercise“ (RAE)
für britische Universitäten?
Domain der externen Links
Empirische Informationswissenschaft 43
Webometrie
• Links im WWW
– Fragestellung: Wie entfernt liegen die Webseiten
voneinander? (über den kürzesten Pfad)
– Ist auch das Web eine „kleine Welt“? D.h.: Ist die Pfadlänge
L kurz (bis zu ca. sechs Schritte; Erdös-Zahlen)?
– Erdös-Zahl (nach dem ungarischen Mathematiker Erdös):
1: wenn direkt mit Erdös gemeinsam publiziert,
2: wenn mit jemandem aus (1)
gemeinsam publiziert usw.
– Lada Adamek:
Stichprobe aus .edu-Sites
(11.000 Sites)
Lada A. Adamik: The small world Web. – In: Research and Advanced Technology for Digital Libraries.
Proceedings of ECDL’99. – Berlin [u.a.]: Springer, 1999. – (Lecture Notes in Computer Science; 1696),
443-452.
Empirische Informationswissenschaft 44
Webometrie
• Links im WWW
– L (.edu-Sites) =
4,062
– das WWW besteht
aus „Klumpen“
– innerhalb des
Clusters: (sehr)
kurze Pfadlänge
Empirische Informationswissenschaft 45
Webometrie
• Links im WWW
– Entfernungen der Webseiten über das ganze WWW hinweg
– A.-L. Barabasi: Vorgehen: empirische Erfassung für
(relativ) kleine N, Ableiten einer
Gesetzmäßigkeit
– Pfadlänge: <d>; Anzahl Webseiten: N
– Gesetz:
<d> = 0,35 + 2,06 log(N)
– bei n = 1 Mio. ist <d> = 10,65
– bei n = 800 Mio. ist <d> = 18,69 (Barabasis Wert)
– bei n = 4 Mrd. ist <d> = 20,13
– bei n = 10 Mrd. ist <d> = 20,95
Empirische Informationswissenschaft 46
Webometrie
Réka Albert; Hawoong Jeong; Albert-László Barabási: Diameter of the World-
Wide Web. – In: Nature 410 v. 9.9.1999, 130-131.
Empirische Informationswissenschaft 47
Webometrie
Watts, D.J.; Strogatz, S.H. (1998): Collective dynamics of 'small-world' networks. – In: Nature 393, S. 440-442.
„Kleine Welt“
Abkürzungen
Empirische Informationswissenschaft 48
Webometrie
• Thematische Linkanalysen
– Fragestellung: Wie sind Webseiten zu einem konkreten
Thema verlinkt?
– Vorgehen bei Hypertextdokumenten:
• Aufruf einer Suchmaschine, die eine Feldsuche zu Links,
Ankertexten, Hosts und Domains anbietet oder solche
ausgeben kann
• entweder direkte Ausgabe der „Landkarte“
• oder graphische Aufbereitung als Linkgraph
– Beispiel: Wie sind deutsche Webseiten zu Miranda Otto
verlinkt?
Empirische Informationswissenschaft 49
Webometrie
Link-Topologie
deutscher
Webseiten zu
Miranda Otto
(im Bild von
Kartoo.com)
Empirische Informationswissenschaft 50
Analyse und Evaluation
von Informationssystemen
Empirische Informationswissenschaft 51
Analyse und Evaluation von Informationssystemen
Aufgabe:
Messung der Qualität
von IS
Methoden:
• Information Systems Research
(Wirtschaftsinformatik)
• Marketingforschung
• Wissensmanagement
• Evaluationsforschung für
Retrievalsysteme
Empirische Informationswissenschaft 52
Analyse und Evaluation von Informationssystemen
Technology Acceptance Model
Davis, F.D. (1989). Perceived usefulness, perceived ease of use, and user acceptance of information
technology. MIS Quarterly, 13(3), 319-339.
Empirische Informationswissenschaft 53
Analyse und Evaluation von Informationssystemen
Technology Acceptance Model
Adams, D.A., Nelson, R.R., & Todd, P.A. (1992). Perceived usefulness, ease of use, and usage of
information technology. A replication. MIS Quarterly, 16(2), 227-247.
später hinzugefügt:
Vertrauen
Spaß
Empirische Informationswissenschaft 54
Analyse und Evaluation von Informationssystemen
IS Success Model
DeLone, W., & McLean, E. (1992). Information systems success. The quest for the dependent variable.
Information Systems Research, 3(1), 60-95.
Empirische Informationswissenschaft 55
Analyse und Evaluation von Informationssystemen
IS Success Model
DeLone, W., & McLean, E. (2002). The DeLone and McLean model of information systems success.
A ten-year update. Journal of Management Information Systems, 19(4), 9-30.
Empirische Informationswissenschaft 56
Analyse und Evaluation von Informationssystemen
Knowledge
Management
Success Model
Jennex, M.E., & Olfman, L. (2006). A model of knowledge management success. International Journal
of Knowledge Management, 2(3), 51-68.
Empirische Informationswissenschaft 57
Analyse und Evaluation von Informationssystemen
Beispiel für eine Doppelskala
(Item 14)
Lehne ich Stimme ich
vollkommen ab vollkommen zu
Mitarbeiter einer hervorragenden
Informationsvermittlungsstelle sind stets
gleichbleibend höflich zu ihren Kunden
1 2 3 4 5 6 7
Mitarbeiter der Informationsstelle XY sind
stets gleichbleibend höflich zu ihren Kunden
1 2 3 4 5 6 7
SERVQUAL
Doppelskala
1. Erwartete Dienstleistung (Einstellung)
2. Erlebte Dienstleistung (Zufriedenheit)
erfasst wird zusätzlich die DIFFERENZ der Noten beider Skalen
Empirische Informationswissenschaft 58
Das
Düsseldorfer
Analyse- und
Evaluations-
modell
Empirische Informationswissenschaft 59
Analyse und Evaluation von Informationssystemen
Evaluationsforschung für
Retrievalsysteme
Effektivität
Empirische Informationswissenschaft 60
Analyse und Evaluation von Informationssystemen
Effektivität: Die „klassischen“ Kennwerte zur Bewertung von Retrievalsystemen – Haben wir alle Datensätze gefunden, die
handlungsrelevantes Wissen beinhalten? (Vollständigkeit; Recall)
Recall R = a / (a + c)
– Haben wir nur solche Datensätze gefunden? (Genauigkeit, Precision)
Precision P = a / (a + b)
a =: gefundene relevante Treffer
b =: nichtrelevante Datensätze, die in der Treffermenge enthalten sind (Ballast)
c =: relevante Datensätze in der Datenbank, die nicht gefunden wurden
Gerard Salton; Michael J. McGill: Information Retrieval – Grundlegendes für Informationswissenschaftler. –
Hamburg [u.a.]: McGraw-Hill, 1983. – Kap. 5: Die Bewertung von Retrievalsystemen, 167-210.
Salton
Empirische Informationswissenschaft 61
Analyse und Evaluation von Informationssystemen
Recall / Precision
– Relevanz: kontextuelle Übereinstimmung zwischen einem
Suchargument und einem Dokument - unabhängig von
konkreten subjektiven Informationsbedürfnissen
(Salton/McGill)
– Pertinenz: Übereinstimmung zwischen einem subjektivem
Informationsbedürfnis und einem Dokument
– Ein Relevanzurteil nimmt in der klassischen Variante genau
einen von zwei Werten an: relevant – nicht relevant.
– Relevanzurteile sind mitunter unscharf, insofern
unterschiedliche Beurteiler zu abweichenden Urteilen
kommen können.
Christa Womser-Hacker: Theorie des Information Retrieval III: Evaluierung. –
In: Grundlagen der praktischen Information und Dokumentation. – München: Saur, 5. Aufl., 2004, 227-235.
Empirische Informationswissenschaft 62
Analyse und Evaluation von Informationssystemen
Recall / Precision
– Mengentheoretische Betrachtung (A: relevante Dokumente;
B: Dokumente in Treffermenge)
C.J. van Rijsbergen: Information Retrieval. – 2nd. Ed. –
London; Boston: Butterworth, 1979.
Recall Fallout
Verlust
Empirische Informationswissenschaft 63
Analyse und Evaluation von Informationssystemen
Recall / Precision
Quelle: Salton; McGill, 180
Empirische Informationswissenschaft 64
Analyse und Evaluation von Informationssystemen
Das Effektivitätsmaß von v.Rijsbergen
– E: Effektivität; R: Recall; P: Precision
– α: Wert zwischen 0 und 1
– α = 0 : Effektivität wird auf Recall (1-R) reduziert
– α = 1 : Effektivität wird auf Precision (1-P) reduziert
– α = ½ : Effektivität beruht ausgewogen auf R und P
van Rijsbergen
Quelle: v.Rijsbergen, 174 E ist zwischen 0 (beste Effektivität) und 1
(unendlich schlechte Effektivität) definiert.
Empirische Informationswissenschaft 65
Analyse und Evaluation von Informationssystemen
Serendipity
– Kennwert zur Erfassung der Fähigkeit eines
Informationssystems, im Ballast nützliche Informationen
zu finden
– b: Anzahl der Dokumente, die nicht relevant zum
Suchargument sind (wie bei Precision)
– b(u): Anzahl der Dokumente im Ballast, die völlig
unbrauchbar sind
– b(s): Anzahl der Dokumente im Ballast, die – durchaus
auch für ein völlig anderes Suchargument – brauchbar
sind
Serendipity S = b(s) / b
Jutta H.T. Klawitter-Pommer; Wolf D. Hoffmann: Übersicht über die für den Leistungsvergleich mehrerer
Literatur-Datenbasen wichtigsten Parameter. – In: Nachrichten für Dokumentation 27 (1976), 103-108.
Empirische Informationswissenschaft 66
einer der
Prinzen
Serendip:
Ceylon
Serendipity
– Term eingeführt von Horace Walpole (1717 – 1797) in
einem Brief aus dem Jahre 1754
– Basis: Märchen „The Three Princes of Serendip“
– diese finden unerwartet Sachen heraus,
die kein anderer weiß
– seitdem: Bezeichnung für etwas,
was gefunden, aber nicht gesucht
worden ist
Richard Boyle: The Three Princes of Serendip. – 2000. –
URL: http://livingheritage.org/three_princes.htm
Analyse und Evaluation von Informationssystemen
Empirische Informationswissenschaft 67
Analyse und Evaluation von Informationssystemen
Recall/Precision bei Systemen mit Relevance Ranking – Definition eines Cut-off-Wertes X (etwa: X=25, d.h. die
Top 25 Treffer)
– Precision
• rangspezifische Precision (Wie groß ist die Precision auf Rang 1, Rang 2 usw.?)
• rangunabhängige Precision (Wie groß ist die durchschnitt-liche Precision bis zum Cut-off-Wert X?)
• Problemfall: a = 0. Wie groß ist die Precision?
wenn a=0 und c=0, dann gilt P = 1
wenn a=0 und c>0, dann gilt P = 0
– Recall
hier stets: Wie groß ist der durchschnittliche Recall bei einem Cut-off-Wert X?
Empirische Informationswissenschaft 68
Analyse und Evaluation von Informationssystemen
Relevanzbestimmung bei Systemen mit verlinkten Dokumenten – Variante 1: es werden ausschließlich diejenigen Dokumente
beurteilt, die vom Retrievalsystem angezeigt werden
– dann aber Problem: einige Suchmaschinen übergehen im Relevance Ranking Seiten derselben Domain (Variante 1 würde diese methodisch benachteiligen); Webkataloge verweisen i.d.R. auf Websites, nicht auf einzelne Seiten
– Variante 2: ein weiterer Klick (oder sogar mehrere Klicks) wird (werden) gestattet; falls die verlinkte Seite relevant, gilt dies als Treffer für das Retrievalsystem
Beispiel: WiseNut
Empirische Informationswissenschaft 69
Analyse und Evaluation von Informationssystemen
Absoluter und relativer Recall
– absoluter Recall: Problemfall der Formel ist c. Woher
weiß ich, was ich NICHT gefunden habe, was aber
relevant wäre? Der absolute Recall kann nur bei kleinen
überschaubaren Datenbasen berechnet werden.
– relativer Recall: nicht ein System wird isoliert betrachtet,
sondern mehrere Systeme gleichzeitig („Pooling-
Methode“). c„ ist die Anzahl der Dokumente in der
Vereinigungsmenge der relevanten Treffer c(1), c(2)
usw. aller betrachteter Systeme
– relativer Recall R = a / c„,
wobei c„ = |c(1) c(2) ... c(n)| bei n Systemen
Empirische Informationswissenschaft 70
Analyse und Evaluation von Informationssystemen
MAP (Mean Average Precision)
Ranking für Query 1 (insgesamt 5 relevante Dok.)
Rang 1 2 3 4 5 6 7 8 9 10
r/nr r nr r nr nr r nr nr r r
Recall 0,2 0,2 0,4 0,4 0,4 0,6 0,6 0,6 0,8 1
Prec. 1,0 0,5 0,67 0,5 0,4 0,5 0,43 0,38 0,44 0,5
Average Precision: (1,0 + 0,67 + 0,5 + 0,44 + 0,5) / 5 = 0,62
Ranking für Query 2 (insgesamt 3 relevante Dok.)
Rang 1 2 3 4 5 6 7 8 9 10
r/nr nr r nr nr r nr r nr nr nr
Recall 0 0,33 0,33 0,33 0,67 0,67 1 1 1 1
Prec. 0 0,5 0,33 0,25 0,4 0,33 0,43 0,38 0,33 0,3
Average Precision: (0,5 + 0,4 + 0,43) / 3 = 0,44
Mean Average Precision: (0,62 + 0,44) / 2 = 0,53
Empirische Informationswissenschaft 71
Analyse und Evaluation von Informationssystemen
Availability (Verfügbarkeit)
– Term eingeführt in der empirischen Bibliothekswissenschaft
– bei Retrievaltests: Wie hoch ist die relative Häufigkeit, dass
ein Retrievalsystem ein bekanntes Dokument („Known
Item“) findet?
– A: Availability; Dgef: # der gefundenen Known Items (bei
Relevance Ranking: bis Cut-off-Wert); D: # aller gesuchten
Known Items
A = Dgef / D
Paul B. Kantor: Availability analysis. – In: Journal of the American Society for Information Science 27
(1976), 311-319.
Mechtild Stock; Wolfgang G. Stock: Internet-Suchwerkzeuge im Vergleich. Teil 1: Retrievaltest mit Known
Item Searches. – In: Password Nr. 11 (2000), 23-31.
Empirische Informationswissenschaft 72
Analyse und Evaluation von Informationssystemen
Faktische Nutzung
• a: gefundene relevante Treffer; b: Ballast
• n: (zur Bewältigung der Aufgabe) genutzte Treffer
• n(r): genutzte relevante Treffer (Relevanzeinschätzung nach
Erledigung der Aufgabe)
• Nutzungsquote NQ = n(r) / (a + b)
(Precision bzl. der faktischen Nutzung)
• Precision der Nutzung: NP = n(r) / n
(Precision bzl. der Aufgabenbewältigung)
Suzanne Kabel et al.: The added value of task and ontology-based markup for information retrieval. – In:
Journal of the American Society for Information Science and Technology 55 (2004), 348-362.
Empirische Informationswissenschaft 73
Analyse und Evaluation von Informationssystemen
Voraussetzung aller „klassischen“ Retrievaltests:
Relevanz ist binär (1 / 0). Und wenn das nicht stimmt? Etwa:
Relevanz verteilt sich nach Power Law oder invers logistisch.
Vorschlag von Della Mea & Mizzaro: Average Distance Measure
• empirische Erfassung der Relevanzeinschätzung der Nutzer
(User Relevance Score; URS) [0, ..., 1]
• Angabe des Relevanzwertes des Systems beim Relevance
Ranking (System Relevance Score; SRS) [0, ..., 1]
• Average Distance Measure ADM = SRS – URS
• (praktisches Problem: Suchmaschinen zeigen SRS nicht an)
V. Della Mea; S. Mizzaro: Measuring retrieval effectiveness. A new proposal and a first experimental validation.
- In: Journal of the American Society for Information Science and Technology 55 (2004), 530-543.
Empirische Informationswissenschaft 74
Analyse und Evaluation von Informationssystemen
Empirische Analysen von Informationssystemen: Cranfield
– Testkollektion: 1.400 Dokumente zur Aerodynamik
– Testfragen: 221 Suchargumente, zu denen die relevanten Dokumente
bekannt sind
– Indexierung I: „single terms“: einzelne Terme der Dokumente (in
natürlicher Sprache); Varianten: Grundformen, Synonyme, ...
– Indexierung II: „simple concepts“: Mehrwortausdrücke der Dokumente
(in natürlicher Sprache); mit Varianten
– Indexierung III: „controlled terms“: kontrollierte Schlagworte;
Varianten: mit/ohne Relationen
– Indexierung IV: Titelterme, Terme aus Abstract
– Forschungsfrage: Welche Indexierungsmethode bringt den besten
Recall?
Cyril Cleverdon: The Cranfield tests on index languages devices. – In: Aslib Proceedings 19 (1967), 173-192.
Empirische Informationswissenschaft 75
Analyse und Evaluation von Informationssystemen
Cranfield:
Ergebnisse
Empirische Informationswissenschaft 76
Analyse und Evaluation von Informationssystemen
Cranfield: Ergebnisse – „Sieger“: natürlichsprachige Terme
– verbessert wird die Retrievalleistung nur durch
• Grundformbildung
• Synonyme
– alle anderen Varianten und Indexierungsformen bringen schlechtere Ergebnisse als die Suche nach natürlichsprachigen Termen (in der Wortform des Textes)
– Brauchen wir demnach überhaupt keine Dokumentations-sprachen?
– Kritik an Cranfield:
• als Labortest kaum auf die Praxis (auch sehr großer) Datenbanken übertragbar
• Relevanzbeurteilung hier sehr problematisch
Empirische Informationswissenschaft 77
Analyse und Evaluation von Informationssystemen
Empirische Analysen von Informationssystemen:
MEDLARS
– MEDLARS (Medical Literature Analysis and Retrieval System)
der National Library of Medicine (USA) – heute: Medline
– Online-Datenbank zur Medizin (derzeit [1966] 800.000
Datensätze); erschlossen durch Thesaurus (MeSH)
– Fragen: 299 („echte“ Suchargumente)
– Recall: direkte Messung unmöglich; Befragung von Experten
nach einschlägigen Dokumenten; damit Schätzung auf c
– Precision: problemlos gemessen
F.W.Lancaster: MEDLARS: Report on the evaluation of its operating efficiency. – In: American Documentation
20 (1969), 119-142.
Empirische Informationswissenschaft 78
Analyse und Evaluation von Informationssystemen
MEDLARS
– Forschungsfrage 1: Wie groß sind Recall und Precision von
MEDLARS?
Empirische Informationswissenschaft 79
Analyse und Evaluation von Informationssystemen
MEDLARS
– Forschungsfrage 2: Wie hängen Recall / Precision und
Indexierungsbreite zusammen?
je breiter
indexiert, desto
höher der Recall
Empirische Informationswissenschaft 80
Analyse und Evaluation von Informationssystemen
MEDLARS
– Fehleranalyse: Wie kommen die doch durchaus
geringen Werte für Recall und Precision zustande?
RF : Recall-Fehler; PF : Precision-Fehler
RF PF
– Fehlerquelle 1: Indexierung (insb. Indexierungstiefe) 34% 13%
– Fehlerquelle 2: Dokumentationssprache 9% 36%
– Fehlerquelle 3: Formulierung des Sucharguments 32% 32%
– Fehlerquelle 4: Nutzer-System-Schnittstelle (etwa:
keine iterative Suche verwendet) 23% 17%
– anderes (etwa: Systemfehler) 1% 2%
Empirische Informationswissenschaft 81
Analyse und Evaluation von Informationssystemen
Empirische Analysen von Informationssystemen: TReC
– Text Retrieval Conferences
– Vorhalten einer (sehr großen) Datenbasis
– Vorhalten von Suchfragen
– Vorhalten der relevanten Dokumente (durch Pooling-Verfahren)
– Systeme werden mit der TReC-Datenbasis und den Suchfragen
konfrontiert (sowohl die Datenbasis als auch die Formulierung
der Suchfragen können dem System angepasst werden)
– Erhebung von relativem Recall und Precision (Zuordnung der
jeweiligen Werte)
Alle TReC-Dokumente unter: http://trec.nist.gov
Donna Harman: The TREC Conferences. – In: Rainer Kuhlen; Marc Rittberger (Hrsg.): Hypertext – Information
Retrieval – Multimedia: Synergieeffekte elektronischer Informationssysteme. – Konstanz: Univ.-Verl., 1995, 9-28.
Empirische Informationswissenschaft 82
Analyse und Evaluation von Informationssystemen
TReC
– Grundgerüst – Q1: Suchfragen zum
„Einstellen“ des Testsystems
– Q2: „eingestellte“ Suchfragen
auf die Dokumente angewandt
– Q3: vorformulierte
Testsuchfragen auf die
„eingestellten“ Dokumente
angewandt
– die offiziellen Ergebnisse
entstammen Q2 und Q3
– Pooling: Relevanzurteile für die
ersten 100 ausgegebenen
Dokumente pro System und
Suchanfrage (für 50 Fragen)
Empirische Informationswissenschaft 83
Analyse und Evaluation von Informationssystemen
TReC
– Ergebnis-
darstellung:
– Recall-Precision-
Graph
Empirische Informationswissenschaft 84
Analyse und Evaluation von Informationssystemen
Precision bei
Such-
maschinen im
WWW
Precision auf
Rangplatz n
(P @ n) für
n = 1, ..., 20
David Hawking; Nick Craswell; Peter Bailey; Kathleen Griffiths: Measuring search engine quality. – In:
Information Retrieval 4 (2001), 33-59.
Empirische Informationswissenschaft 85
Analyse und Evaluation von Informationssystemen
Availability
von Such-
maschinen im
WWW
Quelle: Password 11/2000
Empirische Informationswissenschaft 86
Analyse und Evaluation von Informationssystemen
Evaluation von deutschen Suchmaschinen im WWW
(Griesbaum/Rittberger/Bekavac)
– Erhebung der Precision, kumulierend bis Rang 20 (also:
Precision bei Rang 1, bei Rängen 1 und 2, bei Rängen 1-3, ...)
– durchschnittliche
Precision bis
Cut-off-Wert 20
Joachim Griesbaum; Marc Rittberger; Bernard Bekavac: Deutsche Suchmaschinen im Vergleich: AltaVista.de,
Fireball.de, Google.de und Lycos.de. – In: Rainer Hammwöhner; Christian Wolff; Christa Womser-Hacker (Hrsg.):
Information und Mobilität. Proceedings des 8. Internationalen Symposiums für Informationswissenschaft. - Konstanz:
UVK, 2002. – (Schriften zur Informationswissenschaft; 40), 201-223.
Empirische Informationswissenschaft 87
Analyse und Evaluation von Informationssystemen
Methodik von Retrievaltests
– (1) To test or not to test? Welche Neuigkeit soll erbracht werden? Grundsätzlich auf der Basis aller vergleichbaren Ergebnisse aufbauen. Zweck des Neuen erläutern.
– (2) What kind of test? Labortest unter kontrollierten Bedingungen (Nutzer, Datenbanken, Searcher, Suchbedingungen). Welche der vier Variablen werden konstant gehalten? Oder Beobachtung: Nutzung vorhandener Suchfragen und Suchergebnisse (dichter am „wirklichen Leben“, dafür können die Variablen nicht bewusst geändert werden)
Jean Tague-Sutcliffe: The pragmatics of information retrieval experimentation, revisited. – In: Information Processing
and Management 28 (1992), 467-490. - Jean Tague: The pragmatics of information retrieval experimentation. – In:
Karen Sparck-Jones (Hrsg.): Information Retrieval Experiment. – London: Butterworths, 59-102.
Empirische Informationswissenschaft 88
Analyse und Evaluation von Informationssystemen
Methodik von Retrievaltests
– (3) How to operationalize the variables? Konkrete Bedingungen definieren für: (3a) Datenbank, (3b) verwendete Methoden der Wissensrepräsentation, (3c) Nutzer (Typ, Kontext, Art des Informationsbedarfs, Dringlichkeit), (3d) Suchfragen (Suchargument: konstruiert – „echte“ Argumente, Anzahl der Suchbegriffe, Boolesche Operatoren – natürliche Sprache. – Suchprozess: befehlsorientiert – menügeführt, Nutzung von hinterlegten [invertierten] Listen, iterative Suche), (3e) Recall/Precision/E-Maß/Availability. Welche Werte erheben bzw. errechnen? Was tun bei Ergebnisse mit Relevance Ranking? Was tun bei 0 Treffern?
Empirische Informationswissenschaft 89
Analyse und Evaluation von Informationssystemen
Methodik von Retrievaltests
– (4) What database to use? Aufbau einer (exakt bekannten) experimentellen Datenbank (wie bei Cranfield). Oder Test einer „real-life“ Datenbank. Vergleiche zwischen (vergleichbaren!) Datenbanken.
– (5) Where to get queries? Wie Informationsbedarfe verbalisieren? Fragetypen als Testvariable definieren: Wie verhält sich ein System bei Phrasen, bei Einwortsuchen, bei UND-Verknüpfungen usw.? Wie verhält sich ein System bei unterschiedlichen Anfragesprachen? Oder bei domainspezifischen Suchen (etwa: nach Produkten, nach wissenschaftlicher Literatur, ...)?
– (6) How to process queries? Standardisierung des Suchprozesses. Kenntnis der Systemsoftware. Standardisierung der Kenntnisse der Testpersonen
– (7) How will treatments be assigned to experimental units? Design des Experiments. Wie soll was gemessen werden? Wie viele Fragen? Wie viele Formulierungen derselben Frage? Wie viele unterschiedliche Testpersonen?
Empirische Informationswissenschaft 90
Analyse und Evaluation von Informationssystemen
Methodik von Retrievaltests
– (8) How to collect data? Alle Aktionen protokollieren. Bei Relevanzurteilen: nur zwei Werte (relevant – nicht relevant) zulassen – mit mehreren Werten arbeiten (relevant – ggf. relevant – nicht relevant – nicht relevant, aber für anderes Problem relevant [Serendipity!]. Wenn sich die Testpersonen nicht auf Relevanz einigen können: Abstimmung? Diktatur? Diskussion? Wer beurteilt Relevanz: Testperson (Suchender) oder unabhängiger Experte
– (9) How to analyse the data? Deskriptiv: Recall-Precision-Graph (wie bei TReC), durchschnittliche(r) Recall / Precision (über alle Ergebnisse oder mit Cut-off-Wert), Recall / Precision bei genauem Rangplatz (P@n). Induktive Statistik: Wann sind unterschiedliche Ergebnisse (etwa für Systeme) „wirklich“ unterschiedlich? Errechnen von Mittelwerten, Standardabweichungen, N (Anzahl der Tests), Mutungsintervallen usw. (Einsetzen von Statistik-Software wie SPSS)
– (10) How to present results? Aufbau einer einschlägigen Publikation: Ziel und Zweck des Tests, Hintergrund (vorausgegangene Forschungen), Methode, Ergebnisse, Schlussfolgerungen, ggf. Ausblick auf weitere Forschungen, komplettes Literaturverzeichnis
Empirische Informationswissenschaft 91
Analyse und Evaluation von Informationssystemen
Qualität von Informations-
technik
Funktionalität (Beispiel:
Retrievalsystem)
Empirische Informationswissenschaft 92
Analyse und Evaluation von Informationssystemen
• Retrievalsystem / Funktionalität
– Befehlsumfang zur Recherche • Begin: Auswahloptionen der Datenbanken
• Expand: Optionen des Arbeitens mit invertierten Dateien
• Select: Suchoptionen
• Type: Markieren und Sortieren von Treffern, Ausgabeschnittstellen
– Befehlsumfang informetrischer Analyse • Rangordnungen
• Zeitreihen
• semantische Netze
• Informationsflussanalysen
– Pull- und Push-Service
Empirische Informationswissenschaft 93
Analyse und Evaluation von Informationssystemen
Qualität von Informations-
technik
Gebrauchstauglichkeit
(Usability)
Empirische Informationswissenschaft 94
Analyse und Evaluation von Informationssystemen
• Webauftritt. Usability – Gebrauchstauglichkeit, Benutzbarkeit und
Benutzerfreundlichkeit einer Website im Sinne des Endnutzes („normale“ Menschen)
– Ziel: leichte Benutzbarkeit einer Website, um dadurch dem Unternehmen zu Umsatzsteigerung und Verbesserung der Kundenbindung zu verhelfen (gemäß Jakob Nielsen)
– Herkunft der Usability-Forschung: Softwareergonomie bzw. Human-Computer-Interaction
Jakob Nielsen: Usability Engineering. – Boston: AP Professional, 1994. - Jakob Nielsen: Designing Web Usability. –
München: Markt + Technik, 2001. - Jakob Nielsen; Marie Tahir: Homepage Usability: 50 Websites Deconstructed. –
Indianapolis: New Riders, 2002. – Jakob Nielsen; Robert L. Mack (Hrsg.): Usability Inspection Methods. – New York
[u.a.]: Wiley, 1994. – Jeffrey Rubin: Handbook of Usability Testing. – New York [u.a.]: Wiley, 1994. -
Werner Schweibenz; Frank Thissen: Qualität im Web. Benutzerfreundliche Webseiten durch Usability Evaluation. –
Berlin [u.a.]: Springer, 2002. – (X.media.press).
Empirische Informationswissenschaft 95
Analyse und Evaluation von Informationssystemen
• Usability. Methoden
Task Based Testing
– Entwurf typischer Aufgaben für die Website
– Testpersonen auswählen, die der Zielgruppe der
Website entsprechen
– Testpersonen bearbeiten die Aufgaben
– Versuchsleiter beobachten Testpersonen und notieren
Reaktionen
Thinking-Aloud-Test
– analog Task Based Testing
– zusätzlich: Testpersonen sprechen ihre Gedanken aus
– Aufnahme der Tests (Video; Tonband)
Empirische Informationswissenschaft 96
Analyse und Evaluation von Informationssystemen
• Beispiel: Task Based Testing mit Thinking-aloud-Test der
Website des Landtages NRW (Nicola Roßmann)
– 40 Testpersonen. Arbeit an der Website unter
konstanten Bedingungen
– Aufgabenbeispiel 1: Wie heißen die direkt gewählten
Abgeordneten der Wahlkreis in Köln?
– Klicks bis zur richtigen Webseite: kürzester Weg 3;
Testpersonen: arithm. Mittel: 3,7 (N=40); Abbrüche:
keiner; Suchzeit arithm. Mittel: 86 Sek. (N=40)
– Thinking aloud: Orientierungsprobleme auf der
Wahlkreiskarte. Wie schließt man Wahlkreisanzeigen?
– Ergebnis: bis auf Detailprobleme okay
Nicola Roßmann; Website – Usability Landtag NRW. – Köln: FH Köln / FB Informationswissenschaft, 2002. –
(Kölner Arbeitspapiere zur Bibliotheks- und Informationswissenschaft; 34)
Empirische Informationswissenschaft 97
Analyse und Evaluation von Informationssystemen
Thinking aloud:
„Wie bekomme ich den
hervorgehobenen Wahlkreis
wieder weg?“
Empirische Informationswissenschaft 98
Analyse und Evaluation von Informationssystemen
• Usability. Beispiel: Task Based Testing mit Thinking-aloud-
Test der Website des Landtages NRW
– Aufgabenbeispiel 2: Wie lautet der 1. Tagesordnungs-
punkt der Ausschusssitzung des Ausschusses für
Kinder, Jugend und Familie vom 29.11.2001?
– Klicks bis zur richtigen Webseite: kürzester Weg 6;
Testpersonen: arithm. Mittel: 13,6 (N=26); Abbrüche: 14;
Suchzeit arithm. Mittel: 331 Sek. (N=26)
– Thinking aloud: Navigation irreführend (scharfe Kritik
der Probanden); erforderlicher Klick auf „Aktuelles“
wird nicht eingesehen; Link im Text versteckt
– Ergebnis: Handlungsbedarf! Navigation (Verlinkung und
Ankertexte) muss geändert werden
Empirische Informationswissenschaft 99
Analyse und Evaluation von Informationssystemen
Thinking aloud:
„Wie soll ich so einen
Link sehen?“
Empirische Informationswissenschaft 100
Analyse und Evaluation von Informationssystemen
• Usability. Methoden
Teaching Back
– Testperson erkundet Website
– danach unterstützt Testperson andere bei der Lösung
– Versuchsleiter protokolliert
Interviews / Fragebögen
– zum Gesamteindruck einer Website und zu einzelnen
Aspekten (etwa Screen Design, Navigation,
Performance)
– i.d.R. in Kombination mit Task Based Test, da die
Einschätzungen der Testpersonen (erfasst im
Fragebogen) deutlich von ihrem tatsächlichen Verhalten
abweichen können
Empirische Informationswissenschaft 101
Analyse und Evaluation von Informationssystemen
• Usability. Methoden
Usability-Labor
– wie bei Task Based Testing, zusätzlich
– Filmen der Testperson
– Screencam (zur Erfassung von Bewegungen auf dem
Bildschirm und auf der Tastatur)
– Eyetracking (Erfassung der Bewegungen der Pupillen
der Testpersonen)
Log-File-Auswertungen
– Auswertung der Protokolldaten über Seitenzugriffe
– Welche Eingangsseite? Welche Ausstiegsseite? Wie
häufig die jeweiligen Seiten? Wie lange auf den Seiten?
– nur ergänzend zu Task Based Testing
Empirische Informationswissenschaft 102
Analyse und Evaluation von Informationssystemen
• Usability. Methoden
Heuristische Evaluation
– Untersuchung ohne Testpersonen, sondern von
Experten
– Definition von Checklisten („Heuristiken“)
• allgemeine Heuristiken (Kriterien, die jede Website erfüllen
sollte)
• spezifische Heuristiken zur Bewertung unterschiedlicher
Typen von Websites (etwa: informative Websites,
werbende Websites, Websites mit integrierten
Retrievalsystemen)
– Beispiele für Heuristiken:
• von Jakob Nielsen (nur Usability)
• von Janet E. Alexander und Marsha Ann Tate (allgemeiner:
Checkliste auf Informationsqualität)
Empirische Informationswissenschaft 103
Analyse und Evaluation von Informationssystemen
• Heuristische Evaluation von Jakob Nielsen
– (1) Sichtbarkeit des Systemstatus (Wo bin ich? Wohin kann ich
als nächstes gehen?) – ganz wichtig, wenn Nutzer aus einer
Suchmaschine heraus ins System gelangen
– (2) Übereinstimmung zwischen der Sprache der Website und
der Sprache ihrer Nutzer (kein Internet-Slang; keine
unbekannten Abkürzungen)
– (3) „Notausgänge“ (bei Nutzerfehlern Ausstiegsmöglichkeiten
anbieten)
– (4) Konsistenz (Bezeichnungen für Inhalte oder Buttons
einheitlich; allgemeine WWW-Standards einhalten: z.B.
unterstrichene Stellen sind Ankertexte über Links)
– (5) Fehlerprävention (Nutzerfehler vermeiden ist besser als
Fehlermeldungen schicken)
Keith Instone: Site Usability Heuristics for the Web. Jakob Nielsen‘s 10 usability heuristics. – In: webreview
Oct. 10, 1997. – URL: www.webreview.com/1997/10_10/strategists/10_10_97_2.shtml
Empirische Informationswissenschaft 104
Analyse und Evaluation von Informationssystemen
• Heuristische Evaluation von Jakob Nielsen
– (6) Objekte, Aktionen, Optionen sichtbar machen (gute Labels,
eindeutige Ankertexte, Erkennen des Pfades zur aktuellen
Seite)
– (7) Bookmarks unterstützen (Nutzer wollen nicht nur eine
Homepage bookmarken, sondern jede singuläre Webseite;
Achtung bei Frames und temporären URLs)
– (8) Design: ästhetisch und minimalistisch (in den Hierarchien
vom Allgemeinen zum Besonderen gehen; der Inhalt sollte für
das Web geschrieben sein – keine eins-zu-eins-Übernahme
von Drucktexten; keine überflüssigen Informationen – auch
nicht, wenn sie noch so schön aussehen)
– (9) Fehlermeldungen (keine Codes, sondern Umgangssprache)
– (10) Hilfe und Dokumentation (Hilfe-Angebot auf jeder Seite;
kontextsensitive Hilfe; Handbücher – auch zum Ausdrucken)
Empirische Informationswissenschaft 105
Analyse und Evaluation von Informationssystemen
• Evaluation der Informationsqualität von Alexander & Tate
– jeweils: Site-Level (gesamter zusammenhängender
Webauftritt) und Page-Level (einzelne URL)
– (1) Autorität (Wer ist für Inhalt und Layout verantwortlich?
Welche Kompetenzen hat die Institution?). Hieran kann die
Glaubwürdigkeit der Quelle eingestuft werden
– (2) Genauigkeit (Sind die Seiten frei von grammatischen
Fehlern? Sind die Fakten verifiziert? Sind Graphiken oder
Tabellen eindeutig betitelt?)
– (3) Objektivität (Werden die Informationen unter einem
spezifischen Blickwinkel betrachtet? Ist die Seite frei von
Werbung? Falls nein: Sind die Zusammenhänge zwischen
Seitenbetreiber und Werbendem klar?)
Janet E. Alexander; Marsha Ann Tate: Web Wisdom. How to Evaluate and Create Information Quality on the Web. –
Mahwah: Lawrence Erlbaum, 1999.
Empirische Informationswissenschaft 106
Analyse und Evaluation von Informationssystemen
• Evaluation der Informationsqualität von Alexander & Tate
– (4) Aktualität (Sind Datumsangaben wie etwa das letzte
Aktualisierungsdatum vorhanden?)
– (5) Abdeckung (Ist klar, welches Material auf der Site
angeboten wird? Ist die Zielgruppe angegeben? Sind Seiten
noch „under construction“?)
– (6) Interaktion / Transaktion (Bei Transaktionen: Wie ist die
Datensicherheit garantiert? Bei Cookies: Werden die Nutzer
darüber informiert? Kann man Kontakt mit dem Betreiber der
Site aufnehmen?)
Empirische Informationswissenschaft 107
Analyse und Evaluation von Informationssystemen
Wissensqualität
Qualität der Dokumente
(Informationsqualität)
Qualität der Surrogate
(Qualität der
Wissensrepräsentation)
Empirische Informationswissenschaft 108
Analyse und Evaluation von Informationssystemen
• Dimensionen der Informationsqualität
– Zugänglichkeit (accessibility, downloadable)
– Aktualität
– Korrektheit / Zuverlässigkeit
– Relevanz (applicable, helpful)
– Glaubhaftigkeit (believability)
– Vollständigkeit
– Objektivität
– Angemessenheit
– Darstellung (readable, consistent, formal structure)
– Verständlichkeit
– Quelle
Parker, M.B. et al. (2006): An evaluation of information quality frameworks for the World Wide Web. – In:
Proceedings of the 8th Annual Conference on WWW Applications.
Empirische Informationswissenschaft 109
Analyse und Evaluation von Informationssystemen
Dimensionen der Qualität der Surrogate
– Anzahl der Datensätze / Abdeckungsgrad
– Dateitypen
– Aktualität
– Richtigkeit
– Auswertungstiefe (Feldschema / Anteil mit Inhalt gefüllter Felder)
– inhaltliche Erschließung
• eingesetzte Methoden
• Indexierungstiefe (Indexierungsspezifität, Indexierungsbreite)
• Indexierungskonsistenz: # der Deskriptoren, die beide Indexer A und B dem Dokument zugeordnet haben / # der Deskriptoren, die A bzw. B insgesamt dem Dokument zugeordnet haben
Dagobert Soergel: Indexing and retrieval performance: The logical evidence. – In: Journal of the American
Society for Information Science 45 (1994), 589-599.
Empirische Informationswissenschaft 110
Analyse und Evaluation von Informationssystemen
Qualität der Informations-
dienstleistungen
Empirische Informationswissenschaft 111
Analyse und Evaluation von Informationssystemen
1. Ereignisorientierte Qualitätsmessmethoden
• sequentielle Ereignismethode;
• Critical-Incident-Technik;
• Beschwerdeanalyse;
• Frequenz-Relevanz-Analyse für Probleme (FRAP)
2. Merkmalsorientierte Qualitätsmessmethoden
• SERVQUAL-Ansatz
• Penalty-Reward-Faktoren
Michaela Göcke: Kundenorientiertes Qualitätsmanagement bei Informations-
dienstleistern. - In: Password Nr. 9 (1999), 22-30.
Empirische Informationswissenschaft 112
Analyse und Evaluation
von Informationssystemen
Parken vor
der
Bibliothek
Außenansicht
der
Bibliothek
Betreten
der
Bibliothek
Suchen der
richtigen
Abteilung
Ansprechen des
Informationsbibliothekars
(Äußerung des Informationswunsches)
InterviewDurchführung
der
Recherche
Überprüfung und
Aufbereitung der
Ergebnisse
Übermittlung der
Ergebnisse
Verlassen der
Bibliothek
Abfahrt vom
Parkplatz
Auswahl der
Informationsmittel
Festlegung der
Suchstrategie
“Line of Visibility”
Line of
Visibility
Sequentielle
Ereignis-
methode
Empirische Informationswissenschaft 113
Analyse und Evaluation von Informationssystemen
Ereignis Zufriedenstellende
Ausprägung
Nicht zufriedenstellende
Ausprägung
Termineinhaltung Als ich den
Informationsvermittler auf die
Dringlichkeit meiner in
Auftrag gegebenen Recherche
hinwies, kümmerte er sich
sofort darum, und innerhalb
der nächsten 2 Stunden lagen
die von mir gewünschten
Ergebnisse vor
Obwohl ich den
Informationsvermittler auf
die Dringlichkeit der von mir
in Auftrag gegebenen
Recherche hinwies, erhielt
ich die von mir gewünschten
Ergebnisse nicht zum
vereinbarten Termin
Antwort auf Fehler bei der
Erstellung einer Kernleistung
Als die Ergebnisse einer
kostenpflichtigen Recherche
sich als lückenhaft erwiesen,
führte der
Informationsvermittler
kostenlos eine zweite
Recherche durch
Als sich die Ergebnisse einer
von mir in Auftrag
gegebenen Recherche als
unzureichend und fehlerhaft
erwiesen, gab man mir von
Seiten der Informations-
vermittlungsstelle zu
verstehen, ich allein sei
aufgrund meiner
unzureichenden Angaben
hierfür verantwortlich
Critical
Incident
Technik
Empirische Informationswissenschaft 114
Analyse und Evaluation von Informationssystemen
Problemrelevanz
hoch
FELD B FELD A
* Datenbankinkonsistenz fehlerhafte Sortierung bei Ranking *
* fehlerhafte Suchprofile * fehlerhafte Help-Desk-Auskünfte
Problemfrequenz
selten häufig
Rechtschreibefehler in Abstracts *
unübersichtliche Suchoberfläche *
FELD D FELD C
nur Initialen der Vornamen *
gering
Frequenz-
Relevanz-
Analyse
für
Probleme
(FRAP)
Empirische Informationswissenschaft 115
Analyse und Evaluation von Informationssystemen
Beispiel für eine Doppelskala
(Item 14)
Lehne ich Stimme ich
vollkommen ab vollkommen zu
Mitarbeiter einer hervorragenden
Informationsvermittlungsstelle sind stets
gleichbleibend höflich zu ihren Kunden
1 2 3 4 5 6 7
Mitarbeiter der Informationsstelle XY sind
stets gleichbleibend höflich zu ihren Kunden
1 2 3 4 5 6 7
SERVQUAL - Ansatz
Charakteristisch: Doppelskala
1. Erwartete Dienstleistung (Einstellung)
2. Erlebte Dienstleistung (Zufriedenheit)
erfasst wird die DIFFERENZ der Noten beider Skalen
Empirische Informationswissenschaft 116
Analyse und Evaluation von Informationssystemen
Penalty-Reward-Faktoren
• Penalty-Faktoren („Standard“): Erfüllung wird erwartet; Nichterfüllung
verärgert den Kunden
• Reward-Faktoren („Zusatzleistungen“): Erfüllung wird nicht unbedingt
erwartet; Nichterfüllung dementsprechend nicht schlimm; Erfüllung
(selbst auf niedrigem Qualitätsstand) wird als positiv erlebt
• Vorgehen:
– Einschätzung der Gesamtqualität der Informationsdienstleistungen
(„sehr zufrieden“ (1) ... „unzufrieden“ (7))
– Einschätzung einzelner Dimensionen („viel besser als erwartet“ (1) ...
„viel schlechter als erwartet“ (7))
– Penalty-Faktoren: Globalurteil steigt nicht mit Dimensionsurteil, fällt
aber mit Dimensionsurteil
– Reward-Faktoren: Globalurteil steigt mit Dimensionsurteil, fällt aber
nicht mit Dimensionsurteil
Empirische Informationswissenschaft 117
Wissenschaftliche Kommunikation
Empirische Informationswissenschaft 118
Wissenschaftliche Kommunikation
Szientometrie
– Vermessung der Wissenschaft, quantitative Analyse wissen-
schaftlicher Institutionen
Wissenschaftliche Kommunikation
– hier: Einschränkung der Szientometrie auf die quantitative
Analyse wissenschaftlicher Kommunikation und Information
Wissenschaftsanalyse
– Beschreibung und Erklärung von Wissenschaft auf der Basis
empirischer Erhebungen (falls diachronisch: Wissenschafts-
geschichtsschreibung)
Wissenschaftsevaluation
– Bewertung von Wissenschaft auf der Basis der
Wissenschaftsanalyse (auch komparativ vorgehend)
Finalisierung der Wissenschaft
– Steuerung von Wissenschaft (etwa: durch Mittelverteilung) auf
der Basis der Wissenschaftsevaluation
Empirische Informationswissenschaft 119
Wissenschaftliche Kommunikation
Wissenschaft: Grundlagenforschung, Technische
Forschung, Konstruktives Design
Grundlagen-
forschung
Technische
Forschung
Konstruktives
Design
Produkt-
innovationen
Prozeß-
innovationen Pfeile: Informationsflüsse
Empirische Informationswissenschaft 120
Wissenschaftliche Kommunikation
Wissenschaft: Bereichswissen (Bsp.:
Informationswirtschaft)
Empirische Informationswissenschaft 121
Wissenschaftliche Kommunikation
Die Forschung-Praxis-Lücken:
• Forscher publizieren für Forscher
• Praktiker publizieren (wenn
überhaupt) für Praktiker
• Folge 1: Forschungsergebnisse
werden in der Praxis suboptimal
genutzt
• Folge 2: Forscher interessieren sich
nicht für Probleme in der Praxis
• Mögliche Lösung: "Evidenz-basierte
Bibliotheks- und Informationspraxis"
Forschung
Praxis
Suboptimaler
Informationsfluss
Evidenz-basierte
Bibliotheks- und Infor-
mationspraxis
Empirische Informationswissenschaft 122
Wissenschaftliche Kommunikation
Szientometrie: Der Ansatz
von de Solla Price
Wissenschaftsentwicklung:
derzeit beobachtbar:
exponentielles Wachstum
(Zählbasis: # wiss. Zeitschriften;
# Abstractzeitschriften)
Derek J. de Solla Price: Little Science, Big Science. – Frankfurt: Suhrkamp, 1974. – (Orig. 1963).
Empirische Informationswissenschaft 123
Wissenschaftliche Kommunikation
de Solla Price
Zahl der Abstracts in vier
Wissenschaftsgebieten
(halblogarithmische
Darstellung)
Verdopplungszeiten: ca.
15 Jahre
Empirische Informationswissenschaft 124
Wissenschaftliche Kommunikation
de Solla Price
Wachstum der
wissenschaftlichen
Manpower und der
Gesamtbevölkerung der
USA
Empirische Informationswissenschaft 125
Wissenschaftliche Kommunikation
de Solla Price Verdopplungszeiten der Anzahl der Wissenschaftler
– alle 10 Jahre (alle wissenschaftlichen Mitarbeiter)
– alle 15 Jahre (Wissenschaftler mit Abschluss)
– alle 20 Jahre (nur „Qualitätswissenschaftler“)
Gegenwartskonzentration der Wissenschaftler – 87,5% aller Wissenschaftler (seit Babylon) leben heute (also 7
von 8)
– Vergleich: Gegenwartskonzentration aller Menschen: unter 5%
– das Verhältnis der Gegenwartskonzentration von Wissenschaftlern und Bevölkerung war immer so
– ... und immer fühlten sich die Wissenschaftler überfordert: „zu viele Bücher, zu viele Artikel!“ ...
Empirische Informationswissenschaft 126
Wissenschaftliche Kommunikation
de Solla Price
Weiterhin exponentielles Wachstum?
– exponentielles Wachstum mit Verdopplungszeiten von ca. 15
Jahren führt dazu, dass irgendwann jeder Mensch Wissenschaftler
wäre
– diese Behauptung ist
unsinnig
– Folgerung: These des
exponentiellen Wachs-
tums ist falsch
– wahrscheinlicher:
logistisches Wachstum
Empirische Informationswissenschaft 127
Wissenschaftliche Kommunikation
de Solla Price
Reaktionsformen des logistischen Wachstums bei Annäherung
an den Sättigungswert
Beispiel für Eskalation:
Chemische Elemente
Empirische Informationswissenschaft 128
Wissenschaftliche Kommunikation
de Solla Price
Abfolge von Phasen in der globalen Wissenschaftsentwicklung
• LITTLE SCIENCE
Privatgelehrter, kleine Forschungslabors
• BIG SCIENCE
Großforschung, Teams
• NEW SCIENCE
stabile Sättigung; Wissenschaft
der „Wissensgesellschaft“
de Solla Price
(1922 – 1983)
Empirische Informationswissenschaft 129
Wissenschaftliche Kommunikation
Wissenschaftssoziologie. Die institutionellen
Imperative der Wissenschaft nach Robert K. Merton
– „Das Ethos der Wissenschaft ist der gefühlsmäßig
abgestimmte Komplex von Werten und Normen, der für die
Wissenschaftler als bindend betrachtet wird.“
– Grundfrage: Unter welchen Normen (oder institutionellen
Imperativen) „funktioniert“ Wissenschaft
optimal? (deshalb: „Funktionalismus“)
– Das Ethos ist nicht kodifiziert
– es wird jedoch vom einzelnen Wissenschaftler
internalisiert und durch Sanktionen verstärkt
– institutionelles Ziel der Wissenschaft:
Ausweitung gesicherten Wissens
Robert K. Merton: Science and Technology in a Democratic Order. – In: Journal of Legal and Political
Sociology 1 (1942), 115-126.
Empirische Informationswissenschaft 130
Wissenschaftliche Kommunikation
Wissenschaftssoziologie. Institutionelle Imperative – 1. Universalismus
• Wahrheitsansprüche hängen nicht von personalen oder sozialen Eigenschaften ihrer Protagonisten ab
• Wahrheitsansprüche werden mit Beobachtungen und mit bereits bestätigtem Wissen verglichen
• die Sozialstruktur, die die Wissenschaft umgibt, muss den Universalismus pflegen, z.B. keinen Druck auf Wissenschaftler ausüben, Talenten sollen Karrieren offen stehen; freien Zugang zu wissenschaftlichen Arbeiten gewähren
– 2. Kommunismus
• allgemeines Eigentum an den Gütern der Wissenschaft
• Eigentumsrechte beschränken sich auf Anerkennung
• vollständige und offene Kommunikation; keine Geheimhaltung
• verpönt: Privateigentum an wissenschaftlichen Ergebnissen (aber: Patentwesen? Wissenschaftler in Privatunternehmen?)
Empirische Informationswissenschaft 131
Wissenschaftliche Kommunikation
Wissenschaftssoziologie. Institutionelle Imperative
– 3. Uneigennützigkeit
• persönliche Interessen des Wissenschaftlers sind
ausgeschlossen
• wechselnde Verantwortlichkeit für wissenschaftliche
Ergebnisse
• Es gibt jedoch Konkurrenz in der Wissenschaft. Jeder möchte
der erste sein, der ein bestimmtes Ergebnis publiziert
(Priorität)
– 4. Organisierter Skeptizismus
• Überprüfung wissenschaftlicher Ergebnisse durch andere
Wissenschaftler
• unvoreingenommene Prüfung aufgrund empirischer und
logischer Kriterien
Empirische Informationswissenschaft 132
Wissenschaftliche Kommunikation
Wissenschaftssoziologie. Warum halten sich die
Wissenschaftler an die Normen?
– Ein soziales System ist eine stabile Folge von Interaktions-
mustern,
• die um den Austausch eines Gutes organisiert
• und von einer Menge Normen geleitet sind.
– Das Gut des Wissenschaftssystems ist die kompetente
Reaktion auf (eigene wie fremde) Kreativität, ist Reputation.
– Das Wissenschaftssystem funktioniert nur darum, weil es
sein Gut – die Reputation – optimal zirkulieren lässt.
Norman W. Storer: The Social System of Science. – New York: Holt Rinehart and Winston, 1972.
Empirische Informationswissenschaft 133
Wissenschaftliche Kommunikation
Wissenschaftssoziologie. Warum halten sich die
Wissenschaftler an die Normen?
– Kommunismus: ermutigt zu publizieren (sonst kann das
Gut ja gar nicht entstehen)
– Organisierter Skeptizismus: sorgt für die Rückkopplung
durch Zitationen (so bekommt der Publizierende sein Gut)
– Uneigennützigkeit hilft, dass der Wissenschaftler nur das
Gut der Wissenschaft und nicht andere Güter anstrebt
• Grundlagen wissenschaftlicher Kommunikation
– Publikationen (das „Produkt“ des Wissenschaftssystems)
– Zitationen – im WWW: Links (die „Währung“ des
Wissenschaftssystems)
Empirische Informationswissenschaft 134
Wissenschaftliche Kommunikation
Funktionalistische Wissenschaftssoziologie
– im Wechselspiel von Publikation und Zitation baut sich die
Wissenschaft allmählich aus
– Wissenszuwachs verläuft kumulativ (das wird auch in der
Wissenschaftstheorie von Karl R. Popper behauptet)
– „stimmt nicht!“ – nach der Theorie der wissenschaftlichen
Revolutionen von Thomas S. Kuhn (1962)
– Organisierten Skeptizismus gibt es nämlich nur innerhalb
eines Paradigmas, nicht jedoch über Paradigmengrenzen
hinweg
Thomas S. Kuhn: The Structure of Scientific Revolutions. – Chicago: Univ. of Chicago, 1962.
(dt. Die Struktur wissenschaftlicher Revolutionen. – Frankfurt: Suhrkamp, 4.Aufl., 1979)
Empirische Informationswissenschaft 135
Wissenschaftliche Kommunikation
Tatsachen sammeln
(durchaus auch zufällig)
Entstehen von Schulen
(und Zweigschulen)
- neuartig
genug, um
eine
beständige
Gruppe von
Anhängern
anzuziehen
- offen
genug, um
den
Anhängern
genügend
ungelöste
Probleme
zu stellen
Empirische Informationswissenschaft 136
Wissenschaftliche Kommunikation
- verheißt die Lösung von Problemen
(erfolgreicher als Konkurrenten)
- Brennpunkte für die wissenschaftliche
Untersuchung von Fakten (Empirie): (1)
bekannte Fakten exakter bestimmen; (2)
vom Paradigma vorhergesagte Fakten
bestimmen; (3) Artikulation des
Paradigmas durch Unterteilung von
Begriffen und zum Auffinden von
Gesetzmäßigkeiten
- Brennpunkte für die Theorie: (1)
Vergleich von Voraussagen und
tatsächlichen Experimenten; (2)
Neuformulierung der Theorie (etwa: in
logischer Form)
- lösbare Probleme:
(1) Bestimmung bedeutsamer Tatsachen
(2) gegenseitige Anpassung von Fakten
und Theorie
(3) Artikulation der Theorie
- Normalwissenschaft besteht im Lösen
von Rätseln (lösbaren Problemen)
- Normalwissenschaft strebt nicht nach
unerwarteten Neuheiten
Rätsellösen wird von Regeln geleitet
- „außerordentliche“ Probleme (nicht
lösbare Probleme) werden ignoriert
Empirische Informationswissenschaft 137
Wissenschaftliche Kommunikation
„Solange die von einem Paradigma gelieferten Hilfsmittel sich als fähig erweisen, die von ihm definierten Probleme zu lösen, schreitet die Wissenschaft dann am schnellsten voran und dringt am tiefsten ein, wenn diese Hilfsmittel voll Überzeugung gebraucht werden. Der Grund ist klar. Wie bei der Fabrikation, so auch in der Wissenschaft - ein Wechsel der Ausrüstung ist eine Extravaganz, die auf die unbedingt notwendigen Fälle beschränkt bleiben soll.“ (Thomas S. Kuhn)
Hilfsmittel zur Dokumentation einer Normalwissenschaft:
• Klassifikation
• Thesaurus
Die Hilfsmittel sorgen dafür, dass die Normalwissenschaft optimal arbeitet.
Sie sorgen auch dafür, dass der Status quo der Normalwissenschaft erhalten bleibt.
Empirische Informationswissenschaft 138
Wissenschaftliche Kommunikation
Normalwissenschaft
Paradigma
Anomalien
außerordentliche
Probleme
Krise
neues Paradigma
wissenschaftliche
Revolution
Paradigmenwechsel
neue
Normalwissenschaft
Empirische Informationswissenschaft 139
Wissenschaftliche Kommunikation
soziale Krise
neues Paradigma:
nicht: Überlegung
sondern: Intuition
Wissenschaftliche
Revolution
- Gestaltwandel
- Änderung der wiss.
Wahrnehmung
- wiss. Rev. werden
im Nachhinein „unsicht-
bar“
- in den (neuen) Lehr-
büchern wird kumulie-
rendes Wachstum
suggeriert
neue Wissenschaftler-
gemeinschaft
Wissenschaftlerge-
meinschaft (verfügt
über Paradigma)
Ignorieren der
Anomalien wird
unmöglich
„Kampf“
„Überredung“
„Bekehrung“
Kuhns Theorie der wissenschaftlichen
Revolutionen: die sozialpsychologische Sicht
Empirische Informationswissenschaft 140
Wissenschaftliche Kommunikation
Kuhns Theorie der wissenschaftlichen Revolutionen:
„Gestaltwandel“ bei der Revolution;
völlig unterschiedliche Sichten auf
die Gegenstände bei den Anhängern
unterschiedlicher Paradigmen
Kuhn
(1922 – 1996)
Empirische Informationswissenschaft 141
(altes) Paradigma
wiss. Fortschritt Anomalien Krise
neues
Paradigma
Paradigmenwechsel
(neues) Paradigma
wiss. Fortschritt
Inkommensurabilität
kein Fortschritt „Eine neue wissenschaftliche Wahrheit pflegt
sich nicht in der Weise durchzusetzen, dass ihre
Gegner überzeugt werden und sich als belehrt
erklären, sondern vielmehr dadurch, dass die
Gegner allmählich aussterben und dass die heran-
wachsende Generation von vornherein mit der
Wahrheit vertraut gemacht ist.“ (Max Planck)
Wissenschaftliche Kommunikation
Kuhns Theorie der wissenschaftlichen
Revolutionen: theoriendynamische Sicht
Empirische Informationswissenschaft 142
Wissenschaftliche Kommunikation
Wissenschaftsindikatoren
Peter Weingart; Matthias Winterhager: Die Vermessung der Forschung. Theorie und Praxis der Wissenschafts-
indikatoren. – Frankfurt; New York: Campus, 1984.
Wolfgang G. Stock: Wissenschaftsevaluation. Die Bewertung wissenschaftlicher Forschung und Lehre. –
München: ifo Institut für Wirtschaftsforschung, 1994. – (ifo Diskussionsbeiträge; 17).
Empirische Informationswissenschaft 143
Wissenschaftliche Kommunikation
Wissenschaftsindikatoren
– Input-Indikatoren
• Geld
• Personal
• Ausstattung
– Verarbeitungs-Indikatoren (nur schwer messbar)
• wissenschaftliche Kreativität
• Sozialpsychologie wissenschaftlicher Teams
– Output-Indikatoren I: Forschungsoutput
• Publikationen als Maß wissenschaftlicher Leistung
• Zitationen als Maß wissenschaftlicher Wirkung
– Output-Indikatoren II: Output wissenschaftlicher Lehre
• Anzahl der Abschlüsse – Studiendauer – Dropout-Quote
Empirische Informationswissenschaft 144
Wissenschaftliche Kommunikation
Probleme der Wissenschaftsindikatorenforschung
– Reifizierung (den Indikator für eine Sache für die Sache
selbst nehmen)
– Der Schluss vom Input auf den Output ist nicht zwingend
(etwa: mehr Input, also mehr Output)
– Der Schluss vom Output (Leistung wie Wirkung) auf
Innovationen ist nicht zwingend (etwa: mehr Output, also
mehr Innovationen)
„Discovery-Push“ und „Demand-Pull“ müssen optimal
zueinanderpassen.
Empirische Informationswissenschaft 145
Wissenschaftliche Kommunikation
Outputindikatoren: Publikationen (wissenschaftliche
Leistung) – Zitationen (wissenschaftliche Wirkung)
– Was ist eine Publikation? Was ist eine Publikation?
Gegenstand und Einheit der wissenschaftlichen Leistung
– Was ist eine Zitation? Was ist eine Zitation?
Gegenstand und Einheit der wissenschaftlichen Wirkung
Eugene Garfield: Citation Indexing – Its Theory and Application in Science, Technology, and Humanities. –
New York [u.a.]: Wiley, 1979.
Blaise Cronin: The Citation Process. The Role and Significance of Citations in Scientific Communication. –
London: Taylor Graham, 1984.
Blaise Cronin; Helen Barsky Atkins (Hrsg.): The Web of Knowledge. A Festschrift in Honor of
Eugene Garfield. – Medford, NJ: Information Today, 2000. – (ASIS Monograph Series).
Wolfgang G. Stock: Publikation und Zitat. Die problematische Basis empirischer Wissenschaftsforschung. –
Köln: FH Köln, 2001. (Kölner Arbeitspapiere zur Bibliotheks- und Informationswissenschaft; 29).
Empirische Informationswissenschaft 146
Wissenschaftliche Kommunikation
Warum publizieren Wissenschaftler?
– wissenschaftliche Kommunikation (Theorie der
wissenschaftlichen Kommunikation)
– (ideelle) Sicherung des geistigen Eigentums (Ansatz von
de Solla Price)
– rechtliche Sicherung geistigen Eigentums (Patent-
publikation)
– Erlangen von Reputation (Theorie der funktionalistischen
Wissenschaftssoziologie)
– Verkauf (von Publikationen) zum Erlangen möglichst
hoher Preise (Zitationen) (ökonomische Theorie der
Wissenschaft)
Empirische Informationswissenschaft 147
Wissenschaftliche Kommunikation
• Was ist eine Publikation?
• Buchhandelsmedien
• Patente, Gebrauchsmuster
• graue Literatur
– Hochschulschriften
– Working Papers von Forschungsinstituten
– Unternehmensschriften
• Internet-Dokumente (digitale Analoga zu den o.g. Typen)
• Was ist keine Publikation?
• nicht der Öffentlichkeit zugängliche Dokumente (auch nicht, wenn als Nachlass in einer Bibliothek vorhanden)
• (interne) Berichte
• Gutachten
• Artefakte
• ??? andere Internetdokumente (Homepage, Facebook-Seite, Blog-Posts, Microblogging-Tweets, …) ???
Empirische Informationswissenschaft 148
Wissenschaftliche Kommunikation
• Was ist eine wissenschaftliche Publikation?
Wissenschaftstheoretische Antworten:
– Rudolf Carnap: empirische Signifikanz
– Karl R. Popper: Falsifizierbarkeit
– Wolfgang Stegmüller: Verständlichkeit, Nachprüf-
barkeit, Stützung durch rationale Argumente
– Rudolf Haller: Angemessenheit
– OECD (Frascati-Handbuch): neue Kenntnisse oder neue
Anwendungen
– negativ: keine Pseudowissenschaft; keine Fiktion
Empirische Informationswissenschaft 149
Wissenschaftliche Kommunikation
Publikationsrate
– Zur Einstimmung: Welche Publikationsrate hat
Ludwig Wittgenstein?
– Publikationen:
• Logisch-philosophische Abhandlung, 1921 als Aufsatz, 1922 (zweisprachig deutsch/englisch) als Buch
• Wörterbuch für Volksschulen
• Leserbrief an Mind
• Philosophische Untersuchungen 1952
• später: diverse Neuausgaben, Publikation von Skripten, mehrere Gesamtausgaben
Empirische Informationswissenschaft 150
Wissenschaftliche Kommunikation
Publikationen
– Publikationsrate von Ludwig Wittgenstein:
• # Artikel = 1
• # unselbständige Literatur = 2
• # Bücher und unselbständige Literatur = 5
• # Bücher und unselbständige Literatur bereinigt um Doppelveröffentlichung = 4
• # wissenschaftliche Bücher und unselbständige Literatur = 2 (keine Doppelveröffentlichung, kein Leserbrief)
• # dokumentarische Bezugseinheiten (bei „Philosophische Untersuchungen“ kapitelweise) = 711
Empirische Informationswissenschaft 151
Wissenschaftliche Kommunikation
Ist 1 Buch = 1 Artikel in Fachzeitschrift = 1 Leserbrief = 1 Patent?
– Dokumenttypen ggf. mit unterschiedlichen Gewichtungsfaktoren versehen:
• Monographie (Autor) – kapitelweise? – Auflage? / Monographie
(Herausgeber)
• Artikel in wissenschaftlicher Zeitschrift (mit Peer Review) – Auflage?
– Impact Factor? – aber: Freifahrtenhypothese
• Artikel in wissenschaftlicher Zeitschrift (ohne Peer Review)
• Letter to the Editor
• Hochschulschrift (Bachelor-, Master-, Diplomarbeit; Dissertation,
Habilitationsschrift) – Ansehen der Hochschule?
• Rezension / Buchbesprechung
• Patent (Gebrauchsmusterschrift; Offenlegungsschrift; Patentschrift)
– in wie vielen Ländern? – wichtige Länder?
• Artikel in einer Tageszeitung – regional/überregional? – Auflage?
Empirische Informationswissenschaft 152
Wissenschaftliche Kommunikation
Freifahrtenhypothese
– „Ein Artikel in einer prominenten Zeitschrift ist ‚wertvoller„ als ein
Artikel, der woanders erscheint. Ein Artikel einer prominenten
Zeitschrift wird im Schnitt häufiger zitiert als andere.“
• Nach Per Seglen stimmt die Hypothese in dieser allgemeinen Form
nicht.
• Falsch ist der Schluss auf den Einzelfall. „Im Schnitt“ werden
prominente Zeitschriften in der Tat häufiger zitiert.
• Verteilung der Zitationsraten von Artikeln einer Zeitschrift: typisch
informetrisch, also linksschief. (Die meistzitierte Hälfte der Artikel
wird 10mal so häufig zitiert wie die untere Hälfte.)
• Das Arbeiten mit dem arithmetischen Mittel ist also problematisch.
Per O. Seglen: Die Evaluierung von Wissenschaftlern anhand des „journal impact“. – In: Peter Weingart,
Roswitha Sehringer; Matthias Winterhager (Hrsg.): Indikatoren der Wissenschaft und Technik. Theorie,
Methoden, Anwendungen. – Frankfurt; New York: Campus, 1991, 72-90.
Empirische Informationswissenschaft 153
Wissenschaftliche Kommunikation
Autorenschaft
– ein Autor – ein Dokument: in vielen Disziplinen nicht mehr zutreffend
– in diversen Disziplinen: Mehrfachautoren (besonders ausgeprägt in
Hochenergiephysik und Biowissenschaften)
• konkreter Beitrag der einzelnen Teammitglieder
• Reihenfolge der Namensnennung
• „Ehrenautoren“ (Namen, die genannt werden, obwohl die Person
nichts dazu beigetragen hat)
• „Ghost Writer“ (Namen, die nicht genannt werden, obwohl die
Person etwas zum Artikel beigetragen hat)
• „Hyperauthorship“ (Cronin: „to be an author is not necessarily to be
a writer“ – Co-Autor vs. Acknowledgment)
Blaise Cronin: Hyperauthorship: A postmodern perversion or evidence of a structural shift in scholarly
communication practices? – In: Journal of the American Society for Information Science and Technology 52
(2001), 558-569.
Empirische Informationswissenschaft 154
Autoren-
schaft:
Beitrag der
einzelnen
Autoren?
9 Seiten.
Über 200 Autoren
Empirische Informationswissenschaft 155
Wissenschaftliche Kommunikation
Autorenschaft: Beitrag der einzelnen Autoren?
Höchst erfolgreicher Artikel: 175 Zitationen im „Web of Science“.
Wem die Ehre zuschreiben: J.Klose oder U.Kobalz oder beiden?
Empirische Informationswissenschaft 156
Wissenschaftliche Kommunikation
Autorenschaft: Entwicklung der Autorenzahl und der
Nennung nicht-wissenschaftlicher Mitarbeiter
– Medizinische Zeitschrift: „British Medical Journal“
– Nennung als 1. Autor: „senior authors“ (Professoren;
Lehrstuhlinhaber)
– Nennung als letzter Autor: „senior member of the research team“
Joost P.H. Drenth: Multiple authorship. – In: Journal of the American Medical Association 280 (1998), 219-221.
Empirische Informationswissenschaft 157
Autorenschaft: Beitrag
der einzelnen Autoren
Befragung von „Autoren“
einer medizinischen
Zeitschrift
† : Kriterien für Autoren nach
den Regeln des
„International Comittee of
Medical Journal Editors“
(ICMJE)
Wendela P. Hoen; Henk C. Walvoort; John Overbeke:
What are the factors determining authorship and the
order of the authors‘ names? – In: Journal of the
American Medical Association 280 (1998), 217-218.
Empirische Informationswissenschaft 158
Wissenschaftliche Kommunikation
Autorenschaft: Beitrag der einzelnen Autoren (nach
Hoen/Walvoort/Overbeke)
– Die untersuchte Zeitschrift („Nederlands Tijdschrift voor
Geneeskunde“) veröffentlicht nur Artikel mit max. 6 Autoren.
– Gegenstand der Untersuchung: alle 450 Autoren aller 115
Originalartikel des Jahres 1995 mit mehr als 2 Autoren;
Fragebogenrücklauf: 352 (87,2%)
– ICMJE-Kriterien eingehalten (nach eigener Einschätzung aller
Autoren): 64%
– ICMJE-Kriterien vom erstgenannten Autor eingehalten: 79%
– ICMJE-Kriterien von später genannten Autoren eingehalten: 58%
Empirische Informationswissenschaft 159
Wissenschaftliche Kommunikation
Autorenschaft: „Ehrenautoren“
Annette Flanagin; Lisa A. Carey; Phil B. Fontanarosa; Stephanie G. Phillips; Brian P. Pace; George D. Lundberg;
Drummond Rennie: Prevalence of articles with honorary authors and ghost authors in peer-reviewed medical
journals. – In: Journal of the American Medical Association 280 (1998), 222-224.
Empirische Informationswissenschaft 160
Wissenschaftliche Kommunikation
Autorenschaft: „Ghost Writer“
Empirische Informationswissenschaft 161
Wissenschaftliche Kommunikation
Autorenschaft: „Ehrenautoren“ - „Ghost Writer“
– Studie von Flanagin et al.: groß angelegt: Fragebogen an
1.179 Autoren von medizinischen Artikeln im Jahr 1996;
Rücklauf: 69%
– Ergebnisse nach Selbsteinschätzung der Autoren
– „Ehrenautoren“: durchschnittlich 19% (d.h. jeder Fünfte)
– „Ghost Writer“ (nach der Einschätzung der genannten
Autoren): durchschnittlich 11%
– „Misappropriation of authorship ... is incompatible with
the principles, duties, and ethical responsibilities
involved in scientific publications.“
Empirische Informationswissenschaft 162
Wissenschaftliche Kommunikation
Was sind Acknowledgements?
– „schwebende Zwischenstellung“ zwischen Co-Autoren und
Zitationen
– Problem: Die empirische Erhebung ist schwierig; letztlich ist
nur „Handarbeit“ drin, da Acknowledgements nicht (wie
Publikationen und Zitationen) in Datenbanken erfasst sind.
Blaise Cronin: The Scholar‘s Courtesy. The Role of Acknowledgements in the Primary Communication Process. –
London: Taylor Graham, 1995.
Empirische Informationswissenschaft 163
Wissenschaftliche Kommunikation
Wie Publikationsraten erfassen?
– ein Autor / ein Werk: kein Zuschreibungsproblem
– Mehrautorenwerke
• jeden Autor mit „1“ zählen (große statistische Probleme bei
der Bildung von Aggregaten (etwa: Institut, Land), da für die
Gesamtheit ein Wert > 100 herauskommt)
• Division durch Anzahl der Autoren (sagt zwar nichts über
den faktischen Anteil aus, ist aber wenigstens statistisch
okay)
– Dokumenttyp
• nur jeweils genau einen Dokumenttyp vergleichen (etwa:
Zeitschriftenartikel, Patente)
• nach Dokumenttyp gewichten
– Offen bleiben „unethisches Verhalten“ der Autoren sowie
Acknowledgements
Empirische Informationswissenschaft 164
Wissenschaftliche Kommunikation
Publikationskennwerte
– absolute Anzahl an Publikationen (pro Autor, Institution,
Stadt, Land, ...)
• mögliche Probleme:
– Homonyme bei Autorennamen: „Schmitz, W.“
– Homonyme bei Städte- bzw. Ländernamen: London
[England] – London, Ontario / Wales – New South Wales
– Identifizierung einer Institution (Affiliation-Angaben sind
teilweise verstümmelt) – Wie fein gliedern? Ganze Univ.,
Institut, Abteilung?
– relative Anzahl an Publikationen (etwa: pro Jahr)
– gewichtetes Maß an Publikationsaktivität
– Kooperationsstärke (Anzahl an Co-Autoren aus
unterschiedlichen Instituten, Ländern usw.)
Empirische Informationswissenschaft 165
Wissenschaftliche Kommunikation
Publikationskennwert:
Publikationsrate
Beispiel:
Städte in Europa
Christian Wichmann Matthiesen;
Annette Winkel Schwarz:
Scientific centres in Europe: An analysis of
research strength and patterns of specialisation
based on bibliometric indicators. –
In: Urban Studies 36 (1999), 453-477.
Empirische Informationswissenschaft 166
Wissenschaftliche Kommunikation
Publikationskennwert:
Kooperation zwischen
Ländern (Basis: Co-
Autor-Analyse)
Beispiel:
Zusammenarbeit zwischen
Spanien bzw. Portugal mit
Autoren aus Lateinamerika
G. Lewison; A. Fawcett-Jones; C. Kessler: Latin American scientific output 1986-91 and international
co-authorship patterns. – In: Scientometrics 27 (1993), 317-336.
Empirische Informationswissenschaft 167
Wissenschaftliche Kommunikation
Zitationen / Zitationsanalyse
Eugene Garfield
(„Vater“ der Zitationsindexierung
und Gründer des ISI; heute:
Thomson Scientific)
Blaise Cronin
Empirische Informationswissenschaft 168
Wissenschaftliche Kommunikation
Zitationen und Referenzen
Variante 1:
Fuß- oder Endnote
mit Mehrfachnennung
derselben Literatur:
a.a.O., Ebd., wie Anm. X,
idem, loc. cit., ...
Variante 2:
Literaturverzeichnis
teilweise arg
verstümmelt
Empirische Informationswissenschaft 169
Wissenschaftliche Kommunikation
Zitationen und Referenzen
Empirische Informationswissenschaft 170
T.A.Brooks: Private acts and public objects: An investigation of citer motivations. – In: Journal of the American
Society for Information Science 36 (1985), 223-229. – Mengxiong Liu: The complexities of citation practices. – In:
Journal of Documentation 49 (1993), 370-408. – P.Vinkler: A quasi-quantitative citation model. – In: Scientometrics
12 (1987), 47-72.
Wissenschaftliche Kommunikation
Zitieren oder
nicht zitieren?
Motive zu
zitieren
Motive, nicht zu
zitieren
Intrinsische
Motive
aktueller Bezug
operativer Bezug
„weiterführende“ Lit.
negativer Bezug
Uncitedness I
Uncitedness II
Uncitedness III
Extrinsische
Motive
Überzeugen wollen (Lit.
nennen, die die eigene
Meinung stützt)
sozialer Konsens
Überzeugen wollen
sozialer Dissenz
Faulheit (Review-Arti-
kel statt Original o.ä.)
Empirische Informationswissenschaft 171
Wissenschaftliche Kommunikation
Uncitedness I bis III
• Uncitedness I: Irrelevant für die betreffende Arbeit
• Uncitedness II: Eigentlich relevant, aber nicht zitiert, da
dem/den Zitierenden unbekannt (Fehler des Autors)
• Uncitedness III: Implizite Zitation: keine formale Fußnote
oder Bibliographie, sondern Nennung im Text (weil etwa vom
Autor als „Super-Klassiker“ eingeschätzt).
• hinzuzufügen: versteckte Zitation: Nennung der
Literaturstelle im Text, nicht als Super-Klassiker gemeint
(kommt häufig in geisteswissenschaftlichen Artikeln, aber
auch in Patenten vor)
Eugene Garfiled: Unicitedness III – The importance of not being cited. –
In: Current Comments Nr. 8 vom 23. Februar 1973, 5-6.
Empirische Informationswissenschaft 172
Wissenschaftliche Kommunikation
Ebene des Zitierten
• Ebene 1: Detail aus Publikation
• Ebene 2: Kapitel, Abschnitt aus Publikation
• Ebene 3: Werk (Publikation: Artikel, Buch)
• Ebene 4: Motiv (Bsp.: „Sexualität bei Freud“)
• Ebene 5: Lebenswerk
• Probleme:
• (1) Ebenen 1 und 2 werden i.d.R. durch Ebene 3 zitiert.
• (2) Ebenen 4 und 5 werden überhaupt nicht formal zitiert
Blaise Cronin: Tiered citation and measures of document similarity . – In: Journal of the American
Society for Information Science 45 (1994), 537-538.
Empirische Informationswissenschaft 173
Wissenschaftliche Kommunikation
Selbstzitation („Inzest“)
• von Autoren, Instituten, Zeitschriften, Ländern, ...
• bedeutet, dass der Autor die eigenen Publikationen (die des eigenen
Instituts usw.) für einschlägig hält
• es ist stets der Fall zu beachten, dass der Autor – außer den eigenen
Werken – wenig Zitierfähiges vorfindet
– positiver Fall: Autor bearbeitet wissenschaftliches Neuland
– negativer Fall: Autor arbeitet in einem Bereich, den außer ihm keiner
bearbeitet (da längst verlassen, als irrelevant erkannt, ...)
• die Rate der Autorenselbstzitation ist abhängig
– von der Disziplin (hoch in Chemie und Physik; gering in der Medizin)
– von der Zeit (höher zu Beginn der Zitationsgeschichte)
Empirische Informationswissenschaft 174
Wissenschaftliche Kommunikation
Autorselbstzitation
• Studie an norwegischen Autoren (N = 40.000 Artikel der
Jahre 1981 – 1996; Zitationen der Jahre 1981 bis 2000)
• von den 40.000 Artikeln enthalten 71% Selbstzitationen
• die 40.000 werden insgesamt 641.000mal zitiert
(durchschnittliche Zitationsrate: 13,7 Zitationen pro Artikel);
davon sind 136.000 Autorselbstzitationen (Anteil der Selbst-
zitationen an allen Zitationen: 21%)
Dag W. Aksnes: A macro study of self-citation. – In: Scientometrics 56 (2003), 235-246.
Empirische Informationswissenschaft 175
Wissenschaftliche Kommunikation
Autorselbstzitation
je größer die relative
Häufigkeit der
Gesamtzitationen,
desto geringer die
relative Häufigkeit
der Selbstzitationen
Empirische Informationswissenschaft 176
Wissenschaftliche Kommunikation
Autorselbstzitation
je größer die Anzahl
der Co-Autoren,
desto größer die Zahl
der Gesamtzitationen
und die Zahl der
Selbstzitationen
(„lohnt“ es sich zu
kooperieren? –
optimale Größe des
Kollektivs?)
Empirische Informationswissenschaft 177
Wissenschaftliche Kommunikation
Autorselbstzitation
je aktueller der
zitierte Artikel, desto
höher die relative
Häufigkeit der
Selbstzitation
(im 1. Jahr: 63% sind
Selbstzitationen; im
15. Jahr: nur noch
9%)
Empirische Informationswissenschaft 178
Wissenschaftliche Kommunikation
Autorselbstzitation nach Disziplinen
Empirische Informationswissenschaft 179
Wissenschaftliche Kommunikation
Institutsselbstzitation
Selbstzitationen des ifo
Instituts zwischen 1988
und 1993
Institutsselbstzitation:
1. Autorenselbstzitation
(im Schnitt: 7%)
2. Zitation von Kollegen
(im Schnitt: 8%)
3. Zitation von
hauseigenen Erhebungen
(im Schnitt: 16%)
Kristine Albrecht; Michaela Frost; Ulrike Handtke: Informetrische Vermessung eines Forschungsinstituts. – In:
Wolf Rauch [u.a.] (Hrsg.): Mehrwert von Information – Professionalisierung der Informationsarbeit. – Konstanz:
UVK, 1994. – (Schriften zur Informationswissenschaft; 16), 151-163.
Empirische Informationswissenschaft 180
Wissenschaftliche Kommunikation
Institutsselbstzitation
Vergleich der deutschen Wirtschaftsforschungsinstitute (1993)
ifo verfügt über eigene Erhebungen („Geschäftsklima“)
DIW verfügt über eigene Zeitreihen (VGR für Deutschland)
Empirische Informationswissenschaft 181
Wissenschaftliche Kommunikation
Sprachselbstzitation
Vergleich von
Sprachzitationen im
Bereich der „Biblical
Studies“ 1950 und
1980
1950: engl., dt., hebr.:
zitiert sich vorwiegend
selbst
Moshe Yitzhaki: The language barrier in the humanities: Measures of language self-citation and self-derivation –
The case of biblical studies. In: L.Egghe;R.Rousseau (Hrsg.): Informetrics 87/88. – Amsterdam: Elsevier, 1988, 301-314.
Empirische Informationswissenschaft 182
Wissenschaftliche Kommunikation
Sprachselbstzitation
1980: engl., dt., hebr.:
zitiert sich noch
stärker ausgeprägt
vorwiegend selbst
allgemeiner Trend in
den Geisteswissen-
schaften? Sprach-
barriere?
Empirische Informationswissenschaft 183
Wissenschaftliche Kommunikation
Selbstzitation einer Gruppe (Zitationskartell)
• Mitglieder einer informellen Gruppe (invisible college)
zitieren sich gegenseitig
• positiver Fall: gemeinsames Forschungsgebiet
• negativer Fall: man zitiert sich (nach Absprache)
gegenseitig, um die eigene Zitationsrate zu erhöhen
(Zitationskartelle sind nämlich – im Gegensatz zu
Autorselbstzitationen – nur schwer zu erkennen); gilt als
„unethisches“ Verhalten
Empirische Informationswissenschaft 184
Wissenschaftliche Kommunikation
Länge des Artikels – Anzahl der Zitationen
• Das Verhältnis zwischen der Artikellänge und der Anzahl
der Zitationen scheint bei Forschungsartikeln – pro
Disziplin – (mehr oder minder) gleich zu sein.
Helmut A. Abt; Eugene Garfield: Is the relationship between numbers of references and paper length the same for
all sciences? – In: Journal of the American Society for Information Science and Technology 53 (2002), 1106-1112.
Empirische Informationswissenschaft 185
Wissenschaftliche Kommunikation
Länge des Artikels – Anzahl der Zitationen
• Bei Review-Artikeln werden rund doppelt so viele Zitationen
pro Textseite gesetzt wie bei Forschungsartikeln.
Empirische Informationswissenschaft 186
Wissenschaftliche Kommunikation
Persönlicher Zitationsstil
• „Recitations“ (wiederholtes Zitieren eines Autors) –
„persönlicher Klassiker“
• „Unicitations“ (einmaliges
Zitieren eines Autors)
• Kennwert Zitationen / zit. Autoren
– Wilson: 1,19
– Borgman: 1,58
– Small: 2,08
• also: Small neigt zu Recitations,
Wilson eher zu Unicitations
Howard D. White: Authors as citers over time. - In: Journal of the American Society for Information Science and
Technology 52 (2001), 87-108.
Empirische Informationswissenschaft 187
Wissenschaftliche Kommunikation
Zitationsnorm
• etwa: „Zitiere alles, was Du bei der Vorbereitung und der
Durchführung Deiner wissenschaftlichen Arbeit gelesen hast
und zitiere nichts, was Du nicht selbst gelesen hast!“
• Wissenschaftler aus früheren Jahrhunderten kennen eine
solche Norm nicht.
• Außerhalb von Wissenschaft (sowie Technik und Recht) wird
die Norm nicht angewandt (Bsp.: bei Tageszeitungen).
• Das Einhalten der Norm ist kaum erschöpfend zu
kontrollieren. Nach MacRoberts/MacRoberts werden nur ca.
30% der eigentlich einschlägigen Publikationen zitiert
(Brechen der Norm oder schlicht Unkenntnis?)
M.H.MacRoberts; Barbara R. MacRoberts: Problems of citation analysis. – In: Scientometrics 36 (1996),
435-444.
Empirische Informationswissenschaft 188
Wissenschaftliche Kommunikation
Publizieren – Zitieren – Lesen • Forscher als Autoren und Forscher als Leser: Verhalten wie
Dr. Jekyll und Dr. Hyde
Michael A. Mabe; Mayur Amin: Dr Jekyll and Dr Hyde: Author-reader asymmetries in scholarly publishing. – In:
Aslib Proceedings 54 (2002), 149-157.
derzeit: rund 97
Artikel pro Jahr
derzeit:
eher
nicht
reali-
siert
Empirische Informationswissenschaft 189
Wissenschaftliche Kommunikation
Lesen und Zitieren: Hat das Medium (online vs.
Print) Einfluss?
• Analyse von 120.000 Artikeln von Konferenzbeiträgen
(Informatik) – durch Peer Review geprüft
• ausgeschlossen: Selbstzitationen
• online (frei im WWW) erhältlich – in Print (bzw. online gegen
Gebühr) erhältlich
• frei online: 7,03 Zitationen; nicht frei online: 2,74 Zitationen
(frei online im Schnitt fast 3mal häufiger)
• eindeutiger Zusammenhang zwischen freier Zugänglichkeit
und Zitationsrate
Steve Lawrence: Online or invisible? – In: Nature 411 (2001), 521.
Empirische Informationswissenschaft 190
Wissenschaftliche Kommunikation
Was ist 1 Zitation?
• analoge Probleme wie bei der Einheitenbestimmung der
Publikation; hier allerdings doppelt:
– aus der Sicht der zitierenden Publikation (etwa: Ist eine Zitation in
einem grundlegenden Lehrbuch „mehr wert“ als eine Zitation in
einer No-Name-Zeitschrift?)
– aus der Sicht der zitierten Publikation (etwa: ein Werk von drei
Autoren wird zitiert. Zählt dies bei jedem als 1 oder als 1/3?)
• Mehrfachzitationen
– mehrfach in einer Arbeit zitierte Dokumente (a.a.O.; ebd., ibid,
loc. cit.) werden (insgesamt) mit 1 gezählt
– Zitationszählungen erfassen somit nur das Faktum der
Informationsübermittlung, nicht auch deren Ausprägung
Wolfgang G. Stock: Publikation und Zitat. Die problematische Basis empirischer Wissenschaftsforschung. –
Köln: FH Köln, 2001. (Kölner Arbeitspapiere zur Bibliotheks- und Informationswissenschaft; 29), 34 ff.
Empirische Informationswissenschaft 191
Wissenschaftliche Kommunikation
Das „Institute for Scientific Information“ (ISI)
• erstes Institut, das auf dem Gebiet der Zitationen in der
(akademischen) Grundlagenforschung (kommerziell) arbeitet
• gegründet 1960 von Eugene Garfield; Hauptprodukte: Current
Contents (CC); Science Citation Index (SCI)
• ab 1992 Teil des Thomson-Konzerns (heute: Thomson-Reuters)
• Datenbanken bei Hosts (u.a.DIALOG) und als „Web of Knowledge“
Tony Cawkell; Eugene Garfield: Institute for Scientific Information. – In:
Information Services & Use 21 (2001), 79-86.
Empirische Informationswissenschaft 192
Wissenschaftliche Kommunikation
ISI - Produkte
• Zitationen
– Web of Science
• Science Citation Index Expanded (5.900 Zeitschriften; ab 1945)
• Social Sciences Citation Index (1.700 Zeitschriften; ab 1956)
• Arts and Humanities Citation Index (1.130 Zeitschriften; ab 1975)
• ISI Proceedings (bisher: 60.000 Konferenzen; ab 1990)
• Derwent Innovations Index (Patente; ab 1963)
– „Analytische Tools“
• Essential Science Indicators (ESI)
• Journal Citation Reports (JCR)
Empirische Informationswissenschaft 193
Wissenschaftliche Kommunikation
ISI - Produkte
• Grenzen:
• ausgewertet werden beim Web of Science ausschließlich
Zeitschriftenartikel und Beiträge in Proceedings in rund 10.000
akademischen Zeitschriften
• damit nicht vorhanden:
– Monographien
– die restlichen Zeitschriften
• nicht zu unterschätzen: Tipp- bzw. OCR-Fehler (sowohl beim Autor
wie beim ISI)
• ausgewertet werden bei Derwent Patentfamilien der Patent-
anmeldungen und -erteilungen der wichtigsten Patentämter der Welt
Empirische Informationswissenschaft 194
Wissenschaftliche Kommunikation
Zitationskennwerte / Zitationsraten
Probleme mit ISI-Daten • die Namensansetzung NAME_INITIALEN VORNAME(N) (etwa:
Cohen J) produziert häufig Homonyme. Warum wird das so gemacht?
• Garfield:
– 1960: nur 80 Zeichen auf der Lochkarte zur Verfügung
– viele Autoren nennen in der By-Line nur die Initialen
– „eigentlich“ speichert ISI Artikelangaben – und die sind exakt
Eugene Garfield; Wolfgang G. Stock: Citation consciousness. – In: Password Nr. 6 (2002), 22-25.
Empirische Informationswissenschaft 195
Wissenschaftliche Kommunikation
Zitationskennwerte I:
• Zitationsraten
Beispiel: Nobelpreisträger der Chemie (1950 bis 1967) und deren
Zitationsraten (1961 bis 1975); fett: unter den Top 250 im SCI
Eugene Garfield: Citation Indexing – Its Theory and Application in Science, Technology, and Humanities. –
New York [u.a.]: Wiley, 1979, 65.
Empirische Informationswissenschaft 196
Wissenschaftliche Kommunikation
Zitationskennwerte II:
• Zitationsstrukturen. IIa. Bibliographic Coupling
A
Z
Y
X
B
„zitiert“
(Zitierende) Dokumente
A und B sind
bibliographisch
gekoppelt, wenn die beiden
dieselben Dokumente
(X, Y, Z) zitieren.
Michael M. Kessler: Bibliographic coupling between scientific papers. – In: American Documentation
14 (1963), 10-25.
Empirische Informationswissenschaft 197
Wissenschaftliche Kommunikation
Zitationskennwerte II:
• Zitationsstrukturen. IIb. Co-Zitationen von Artikeln
A B
Y
X
Z
(Zitierte) Dokumente
A und B sind co-zitiert,
wenn die beiden
im Zitationsapparat
zitierender Dokumente
(X, Y, Z) gemeinsam
vorkommen.
„zitiert“
Henry G. Small: Co-citation in scientific literature. – In: Journal of the American Society for Information Science
24 (1973), 265-269. – Henry G. Small; Belver C. Griffith: The structure of scientific literature I: Identifying and
graphing specialties. – In: Science Studies 4 (1974), 17-30. – Belver C. Griffith; Henry G. Small; H.J.Stonehill;
S.Dey: The structure of scientific literature II: The macro- and micro-structure of science. – In Science
Studies 4 (1974), 339-365.
Henry Small
Empirische Informationswissenschaft 198
Wissenschaftliche Kommunikation
Co-Zitations-Netz. Beispiel
Quelle: Garfield 1979, 107.
Empirische Informationswissenschaft 199
Wissenschaftliche Kommunikation
Zitationskennwerte II:
• Zitationsstrukturen. IIc. Autor-Co-Zitationen
A B
Y
X
Z
(Zitierte) Autoren
A und B sind co-zitiert,
wenn die beiden Namen
im Zitationsapparat
zitierender Dokumente
(X, Y, Z) gemeinsam
vorkommen.
„zitiert“
Howard D. White; Belver C. Griffith: Author cocitation: A literature measure on intellectual structure. – In:
Journal of the American Society for Information Science 32 (1981), 163-171.
Howard D.
White
Empirische Informationswissenschaft 200
Wissenschaftliche Kommunikation
Zitationskennwerte II:
Zitationsstrukturen. IId. Forschungsfronten
• basiert auf Co-Citations von Artikeln
• Schwellenwert 1: nur hochzitierte Artikel
• Schwellenwert 2: nur häufig co-zitierte Artikelpaare
• Forschungsfront: das entstehende Cluster (als Ganzes)
• Kern: diejenigen Artikel, die im Cluster vorkommen
(„bahnbrechende“ Arbeiten) – also: die zitierten Artikel
• Teil der Forschungsfront: diejenigen Artikel, die (durch ihre
Referenzen) die Cluster bilden – also: die zitierenden Artikel
Empirische Informationswissenschaft 201
Wissenschaftliche Kommunikation
Forschungsfront. Beispiel Essential Science Indicators (ESI)
Empirische Informationswissenschaft 202
Wissenschaftliche Kommunikation
Forschungsfront. Beispiel: Collagen-Forschung
Henry G. Small: A co-citation model of a scientific specialty: A longitudinal study of collagen research. – In:
Social Studies of Science 7 (1977), 139-166.
1970 1971
wenig Veränderungen
Empirische Informationswissenschaft 203
Wissenschaftliche Kommunikation
Forschungsfront. Beispiel: Collagen-Forschung
1972 1973
ein zweites, neues
Cluster entsteht
das alte Cluster,
kaum verändert
nur das neues
Cluster „überlebt“
Empirische Informationswissenschaft 204
Wissenschaftliche Kommunikation
Forschungsfront. Beispiel: Collagen-Forschung
1974 Das neue Cluster
wird größer und
bildet Sub-Cluster.
Auch „alte“ (methodisch
orientierte) Artikel
gehören wieder zur
Forschungsfront.
Abbild einer
wissenschaftlichen
Revolution im Sinne
Thomas S. Kuhns
mit Mitteln der
Zitationsanalyse
Empirische Informationswissenschaft 205
Wissenschaftliche Kommunikation
Zitationskennwerte III:
Wissenschaftliche Wirkung.
– IIIa. Impact Factor
Welche Wirkung haben Artikel aus dem letzten und
vorletzten Jahrgang einer akademischen Zeitschrift im
Berichtsjahr?
– IIIb. Immediacy Index
Welche Wirkung haben Artikel aus dem laufenden
Jahrgang im Berichtsjahr?
– Beide Kennwerte sind ausschließlich für akademische
Zeitschriften definiert.
Empirische Informationswissenschaft 206
Wissenschaftliche Kommunikation
Journal Citation Reports (JCR)
Wolfgang G. Stock: JCR on the Web. Journal Citation Reports: Ein Impact Factor für Bibliotheken, Verlage und
Autoren? – In: Password Nr. 5 (2001), 24-39.
Empirische Informationswissenschaft 207
Wissenschaftliche Kommunikation
• Zitationsrate, Artikelrate
Anzahl der Zitationen in einem Berichtsjahr t, die die Zeitschrift
Z nennen; Anzahl der Quellenartikel
Empirische Informationswissenschaft 208
Wissenschaftliche Kommunikation
• Impact Factor IF. Quotient aus der Anzahl der Zitationen C
der Quellenartikel S von Z in t und der Anzahl der
Quellenartikel S von Z in den zwei vorangegangenen
Jahren t-1 (S1) und t-2 (S2)
IF (Z;t) = C / (S(1) + S(2))
Empirische Informationswissenschaft 209
Wissenschaftliche Kommunikation
• Berechnung des Impact Factor für „College &
Research Libraries“ 1999
– # Quellenartikel in 1998 S(1) = 37
– # Quellenartikel in 1997 S(2) = 35
– # Zitationen von 1998-er und 1997-er Artikeln
aus „Coll Res Lib“ in 1999 C=76
– IF(Coll Res Lib;1999) = 76 / 37+35
= 1,056
Empirische Informationswissenschaft 210
Wissenschaftliche Kommunikation
• Nicht alle wissenschaftlichen Zeitschriften sind in den JCR
vertreten. Aus Gründen der Vergleichbarkeit muss für alle Nicht-
JCR-Periodika der IF intellektuell errechnet werden.
• Variante A (ohne Selbstzitationen der Zeitschriften):
– Nicht-JCR-Zs. werden durchaus in den Quellenzeitschriften der
JCR zitiert: Anzahl Zitationen: C*
– Quellenartikel aus der Zs.: S(1) und S(2): entweder auszählen
oder aus fachspezifischen Datenbanken recherchieren
– Formel: IF(Z;t) = C* / (S(1) + S(2))
– Probleme: Bei den JCR-Zs. müssen die Selbstzitationen heraus-
gerechnet werden; Selbstzitationen sind wichtig
Empirische Informationswissenschaft 211
Wissenschaftliche Kommunikation
• Variante B (mit Selbstzitationen) von Sen/Karanjai/Munshi:
– C* aus JCR übernehmen; Selbstzitationen SC der Zeitschrift
(der Jahre t-1 und t-2) auszählen
– Quellenartikel auszählen
– Formel: IF(Z;t) = (C* + SC) / (S(1) + S(2))
– Vorteile: Vergleichbarkeit mit den JCR-Zs.ist gegeben;
Selbstzitationen werden mitgezählt
B.K.Sen; A.Karanjai; U.M.Munshi: A method for determining the impact factor of a non-SCI journal. - In:
Journal of Documentation 45 (1989), 139-141.
Empirische Informationswissenschaft 212
Wissenschaftliche Kommunikation
• Variante C (Regionaler Impact
Factor) von Grazia Colonia:
– zusätzlich zu Variante B:
Referenzen der wichtigen
regionalen Zeitschriften
intellektuell auszählen
– Zitationen von Z in diesen
Zeitschriften zählen
(C[Land])
– Formel:
rIF(Z;t) = (C* + SC +
C[Land]) / (S(1) + S(2))
Grazia Colonia: Informationswissenschaftliche Zeitschriften in szientometrischer Analyse. – Köln: FH Köln,
2002. – (Kölner Arbeitspapiere zur Bibliotheks- und Informationswissenschaft; 33).
Empirische Informationswissenschaft 213
Wissenschaftliche Kommunikation
• Titeländerungen von Zeitschriften (auch Teilung
in Reihen bzw. Fusion von Reihen) gelten für die
JCR als neue Zeitschrift. Probleme in der
Übergangsphase:
– erstes Jahr nach Änderung: alter Titel: IF
wahrscheinlich zu hoch (Quellenartikel des aktuelleren
Jahrgangs fehlen); neuer Titel: IF zu niedrig (Zitationen
des früheren - in der Regel höher zitierten - Jahrgangs
fehlen)
– Lösung: Titeländerung identifizieren (durch „Journal
Title Change“-Seite)! IF intellektuell errechnen!
Empirische Informationswissenschaft 214
Wissenschaftliche Kommunikation
• Beobachtungszeitraum von zwei Jahren zu kurz, methodisch begünstigt werden aktuelle Zeitschriften, benachteiligt alle anderen
• „Reife“ und „Niedergang“ von Informationen
– (1) kurze Reife - kurzer Niedergang
– (2) kurze Reife - langsamer Niedergang
– (3) langsame Reife - kurzer Niedergang
– (4) langsame Reife - langsamer Niedergang
• IF erkennt den Unterschied zwischen (1) und (2) nicht; die Fälle (3) und (4) werden gar nicht erfasst
• Lösungsvorschlag: zusätzliche Impact Factors einführen (5-Jahres-IF; 6-10-Jahres-IF, 10-Jahres-IF)
Wolfgang Glänzel; Urs Schoepflin: A bibliometric study of ageing and reception processes of scientific literature. –
In: Journal of Information Science 21 (1995), 37-53.
Empirische Informationswissenschaft 215
Wissenschaftliche Kommunikation
• Was heißt: Quellenartikel?
– Welche Zitationen werden gezählt? ALLE
– Welche Artikel werden gezählt? AUSWAHL
– NUR „zitierbare“ Quellen (Originalartikel, technical notes, meeting
abstracts, Reviewartikel) werden als Artikel gezählt.
– Übergangen werden alle anderen Dokumenttypen, obwohl diese
auch zitiert werden.
– Dies treibt den IF derjenigen Zeitschriften nach oben, in denen viele
„andere“ Dokumenttypen erscheinen (die Zitationen werden im
Zähler mitgezählt, die Quellen im Nenner nicht).
H.F.Moed; Th.N. van Leeuwen: Improving the accuracy of Institute for Scientific Information‘s journal impact
Factors. – In: Journal of the American Society for Information Science 46 (1995), 461-467.
Empirische Informationswissenschaft 216
Wissenschaftliche Kommunikation
• IF einzelner Dokumenttypen nach Moed und van Leeuwen: – Buchbesprechungen 0,03
– Corrigenda 0,17
– Diskussionsbeiträge 1,07
– Editorials 0,53
– Letters to the Editor 0,60
– Meeting abstracts 0,10
– Technical notes 2,43
– Reviewartikel 7,28
– Originalartikel 3,61
– sonstige 0,05
• Durchschnitt 2,60
• Durchschnitt ISI-Zählart 3,62
JCR
Quellen-
artikel
Empirische Informationswissenschaft 217
Wissenschaftliche Kommunikation
• Dokumenttypen
– Reviewartikel erhalten im Durchschnitt einen doppelt so hohen
IF wie Originalartikel (7,28 gegen 3,61)
– Zeitschriften, die bevorzugt Reviewartikel publizieren, werden
methodisch bevorzugt
– Originalartikel berichten über Ergebnisse eigener Forschung
und Entwicklung; Reviewartikel fassen „nur“ bereits bekannte
Ergebnisse zusammen. Entsprechend gelten Originalartikel als
„wertvoller“
– ISI-Lösung: Angabe der Anteile Original- und Reviewartikel in
den Source Data
Empirische Informationswissenschaft 218
Wissenschaftliche Kommunikation
• Zeitschriften aus unterschiedlichen Erscheinungs-
ländern haben im Durchschnitt andere IF
– USA 1,58
– Deutschland 0,79
– Frankreich 0,39
– Russland 0,21
• Erklärung A: USA haben viel mehr Zeitschriften in den JCR und
sind deshalb überrepräsentiert (am Rande: EU hat mehr Titel in
der Datenbank als USA)
• Erklärung B: die Wirkung amerikanischer Zeitschriften ist in der
Tat höher
Guido van Hooydonk: Cost and citation data for 5399 scientific journals in connection with journal price-setting,
copyright laws and the use of bibliometric data for project review. – In: Serials Librarian 27 (1995), 45-58.
Empirische Informationswissenschaft 219
Wissenschaftliche Kommunikation
• Unterschiedliche Wissenschaftsdisziplinen haben
signifikant unterschiedliche IF
– alle SCI-Zeitschriften (Stichprobe v.Hooydonk) 1,059
– Biowissenschaften 1,439
– Ingenieurwissenschaften 0,416
• Vergleiche anhand der IF-Werte über Disziplingrenzen hinweg sind
unzulässig.
• Lösung: Einführung eines „Normalisierungsfaktors“; Eichung am
Durchschnitt; in den Beispielen:
– Biowissenschaften IF * 0,736
– Ingenieurwissenschaften IF * 2,546
• Für jede Zeitschrift muss der IF normalisiert werden.
Empirische Informationswissenschaft 220
Wissenschaftliche Kommunikation
• Lesertyp (Scanlans Vermutung)
– Zeitschriften, die vorwiegend akademische
Wissenschaftler ansprechen, haben i.d.R einen höheren
IF als Zeitschriften, die eher Wissenschaftler in der
Wirtschaft ansprechen
– Grund: beide Lesertypen lesen, aber nur Akademiker
publizieren
– und: ohne Publikation keine Zitation
– Lösung: offen (für Informationswissenschaft: widerlegt)
Brian D. Scanlan: Coverage by Current Contents and the validity of impacts factors: ISI from a journal publisher‘s
perspective. – In: Serials Librarian 13 (1978) 2/3, 57-66.
Empirische Informationswissenschaft 221
Wissenschaftliche Kommunikation
• Immediacy Index II. Quotient der Anzahl der
Quellenartikel S(t) von Z in t und der Zitationen
C(t), die in t Artikel aus Z nennen
Formel: II(Z,t) = C(t) / S(t)
Empirische Informationswissenschaft 222
Wissenschaftliche Kommunikation
• Berechnung des Immediacy Index für „College &
Research Libraries“ 1999
– # Quellenartikel in 1999 S = 37
– # Zitationen von 1999-er Artikeln aus „Coll Res
Lib“ in 1999 C=4
– II(Coll Res Lib;1999) = 4 / 37
= 0,108
Empirische Informationswissenschaft 223
Wissenschaftliche Kommunikation
• Probleme des Immediacy Index
– Was heißt Quellenartikel? Dasselbe Problem wie beim Impact
Factor
– Publikationsgeschwindigkeit von Zeitschriften und
Disziplinen: Zeitspanne zwischen Abfassen eines Skripts und
der Auslieferung des fertigen Heftes. Liegt diese Zeit bei einer
Disziplin bei über einem Jahr, so haben alle Zeitschriften einen
II von 0 (weil keine Zitation da sein kann)
– Erscheinungsweise der Zeitschrift: wöchentlich, viertel- oder
halbjährlich, jährlich (zu Beginn oder zu Ende des Jahres)
Empirische Informationswissenschaft 224
Wissenschaftliche Kommunikation
Zitationskennwerte IV: Veralterung
Halbwertszeit (half-life – median age)
– Cited Half-Life:
Median des Alters der Zitationen. Wie lange bleiben die
Ergebnisse einer Zeitschrift aktuell?
– Citing Half-Life:
Median des Alters der Referenzen. Wie alt ist die zitierte
Literatur einer Zeitschrift?
• Beim ISI ist die Halbwertszeit ausschließlich für
akademische Zeitschriften definiert.
R.E.Burton; R.W.Kebler: The „half-life“ of some scientific and technical literature. – In:
American Documentation 11 (1960), 18-22. – R.E.Burton; B.A.Green: Technical reports in physics literature. –
In: Physics Today 14 (1961) 10, 35-37.
Empirische Informationswissenschaft 225
Wissenschaftliche Kommunikation
• Cited Half-Life: Zeitraum T, in den 50% aller
Zitationen der Zeitschrift Z im Jahre t fallen
• Citing Half-Life: Zeitraum T(R), in den 50% aller
Referenzen der Zeitschrift Z im Jahre t fallen
Empirische Informationswissenschaft 226
Wissenschaftliche Kommunikation
• Berechnung der Halbwertszeit: – Berichtsjahr =: 1
– {Gesamtmenge der Zitationen/Referenzen} : 2 = a
– „kritisches Jahr“: Jahr in dem der Median der Zitationen/ Referenzen erreicht wird
– „subkritisches Jahr“: Jahr vor dem kritischen Jahr: Y
– kumulierte Anzahl der Zitationen/Referenzen am Ende des subkritischen Jahres: b
– kumulierte Anzahl der Zitationen/Referenzen am Ende des kritischen Jahres: c
Half-Life T(Z,t) = Y + (a-b) / (c-b)
Empirische Informationswissenschaft 227
Wissenschaftliche Kommunikation
Empirische Informationswissenschaft 228
Wissenschaftliche Kommunikation
Summe bis 1992:
b=207
Summe bis 1991:
c=241
a = 446 : 2 = 223
Subkritisches Jahr
Empirische Informationswissenschaft 229
Wissenschaftliche Kommunikation
Cited Half-Life von „Coll Res Libr“ 1999 • Gesamtzahl der Zitationen von „Coll Res Libr“ in 1999 ist
446; demnach a = 223
• subkritisches Jahr: 1992; demnach Y = 8
• Kumulation der Zitationen bis zum Ende des subkritischen Jahres (1992) b = 207
• Kumulation der Zitationen bis zum Ende des kritischen Jahres (1991) C = 241
T(Coll Res Libr;1999) = 8 + (223-207) / (241-207)
= 8 + 16/34 = 8,471
Empirische Informationswissenschaft 230
Wissenschaftliche Kommunikation
• Durch die beiden Listen Cited / Citing Journals lassen sich Sozio-
gramme wissenschaftlicher Zeitschriftenkommunikation erstellen
Zitationen in:
Selbst-
zitatio-
nen
Empirische Informationswissenschaft 231
Wissenschaftliche Kommunikation
A, B, ...: Zeitschriften
Pfeile: Informationsübermittlungen („Stimmen“)
Dicke der Pfeile: Größe der Informationsübermittlungen
rückbezügliche Pfeile: Größe der Selbstzitation
Empirische Informationswissenschaft 232
Szientometrie wissenschaftlicher
Institutionen
Empirische Informationswissenschaft 233
Szientometrie wissenschaftlicher Institutionen
Szientometrie wissenschaftlicher Institutionen:
Konkrete Forschungsergebnisse in Beispielen
• Publikationen und Zitationen aggregiert
– Autor
– Zeitschrift
– Institut
– Disziplin
– Land / Region
• Wissenschaftsgeschichtsschreibung mittels Datenbanken
– Entwicklung von Themen innerhalb der Wissenschaft
– Thematisierungen
Empirische Informationswissenschaft 234
Szientometrie wissenschaftlicher Institutionen
Szientometrie wissenschaftlicher Autoren:
„Ego-Centered Citation Analysis“ von Howard D. White
- Publikations- und Zitationskennwerte (1. Co-Authors;
2. Author„s Citation Identity; 3. Author„s Citation Image Makers;
4. Author„s Citation Image)
- formale Kennwerte (Publikationsjahre, Artikel pro Jahr,
Zeitschriften, Sprachen)
- inhaltliche Kennwerte (1. Themen des Autors [aus Titel,
Deskriptoren, Volltexten]; 2. Themen der Sekundärliteratur)
Howard D. White: Towards Ego-Centered Citation Analysis. – In: Blaise Cronin; Helen Barsky Atkins (Hrsg.):
The Web of Knowledge. A Festschrift in Honor of Eugene Garfield. – Medford, NJ: Information Today, 2000,
475-496. – Howard D. White; Author-centered bibliometrics through CAMEOs. – In: Scientometrics 51 (2001),
607-637. - Blaise Cronin; Debora Shaw: Identity-creators and image-makers: Using citation analysis and thick
description to put authors in their place. – In: Scientometrics 54 (2002), 31-49.
Empirische Informationswissenschaft 235
Szientometrie wissenschaftlicher Institutionen
CAMEO („Characterizations Automatically Made
and Edited Online“)
• Co-Authors: Mit wem hat unser Autor zusammengearbeitet?
DIALOG-Befehle (Datenbanken SCI, SSCI, A&HCI):
SELECT AU=AUTOR A - RANK AU
• Author„s Citation Identity: Welche Autoren hat unser Autor
zitiert?
DIALOG-Befehle: SELECT AU=AUTOR A - RANK CA
• Author„s Citation Image Makers: Von welchen Autoren wird
unser Autor zitiert?
DIALOG-Befehle: SELECT CA:AUTOR A - RANK AU
• Author„s Citation Image: Mit welchen Autoren wird unser
Autor co-zitiert?
DIALOG-Befehle: SELECT CA:AUTOR A - RANK CA
Empirische Informationswissenschaft 236
Szientometrie wissenschaftlicher Institutionen
CAMEO von
B.C.Griffith
Quelle: White 2001, 623
Empirische Informationswissenschaft 237
Citation Identity von Blaise Cronin
165 Cronin: Autorselbstzitation
23 Garfield: „Klassiker“
17 Davenport: Schülerin
9: Martyn: im selben Zimmer gearbeitet
• zitiert werden thematisch „einschlägige“
Autoren (etwa Garfield, Price, Small)
• soziale Beziehungen (Lehrer-Schüler,
Kollege, persönliche Bekanntschaften)
schlagen sich auch in Zitationen nieder
Szientometrie wissenschaftlicher Institutionen
Quelle: Cronin/Shaw 2002, 37
Empirische Informationswissenschaft 238
Analyse formaler Aspekte
Beispiel: Publikationsanzahl und Anzahl der Sekundärliteratur
(Thematisierung; schwarze Balken) von Alexius Meinong
Szientometrie wissenschaftlicher Institutionen
Empirische Informationswissenschaft 239
Themenanalyse eines Autors • nach Schlagworten (hier: Textwortmethode)
• Voraussetzung: (möglichst) vollständige Datenbank
• Errechnung dokumentspezifischer Gewichtungen für jedes
Schlagwort
• Errechnung des arithmetischen Mittels der dokumentspezifischen
Gewichtungen für jedes Schlagwort (D-Gewicht)
• Errechnung von thematischen Nähen zwischen den Schlagworten
(nach dem Jaccard-Sneath-Koeffizienten): g / (a + b – g)
a: Anzahl der Dokumente zum Schlagwort A, b: Anzahl der
Dokumente zu B, g: Anzahl der Dokumente, in denen A und B in
mindestens einer thematischen Kette gemeinsam vorkommen
Szientometrie wissenschaftlicher Institutionen
Wolfgang G. Stock: Psychologie und Philosophie der Grazer Schule. Ein informetrischer Überblick zu Werk
und Wirkungsgeschichte von Meinong, Witasek, Benussi, Ameseder, Schwarz, Frankl und Veber. – In:
Mechtild Stock; Wolfgang G. Stock: Psychologie und Philosophie der Grazer Schule. – Amsterdam;
Atlanta, GA:: Rodopi, 1990, Band 2, 1223-1445.
Empirische Informationswissenschaft 240
Themenanalyse des Lebenswerkes und der Sekundärliteratur
von Alexius Meinong (Datenbank Grazer Schule)
Szientometrie wissenschaftlicher Institutionen
Themen der Schriften von
Alexius Meinong (N = 217)
01 Gegenstand (8,57)
02 Urteil (7,12)
03 Annahme (6,88)
04 Wert (6,56)
05 Objektiv (6,38)
06 Vorstellung (6,36)
07 Psychologie (5,67)
08 Gefühl (5,03)
09 Relation (4,83)
10 Wahrscheinlichkeit (4,77)
11 Gegenstandstheorie (4,68)
12 Inhalt (3,91)
Themen der Schriften über
Alexius Meinong (N = 1.210)
01 Meinong,Alexius (61,43)
02 Gegenstand (13,36)
03 Gegenstandstheorie (10,57)
04 Wert (6,49)
05 Russell, Bertrand (6,33)
06 Urteil (5,71)
07 Veber, France (5,42)
08 Vorstellung (5,04)
09 Annahme (5,02)
10 Brentano, Franz (4,59)
11 Psychologie (4,50)
12 Objektiv (4,31)
Empirische Informationswissenschaft 241
Rezeptionsgrad der Themen von Alexius Meinong
Rezeptionsgrad (A) = D-Gewicht(A; Sek.lit.) : D-Gewicht(A; Prim.lit.)
Szientometrie wissenschaftlicher Institutionen
„Gewinner“
Veber, France (271,00)
Russell, Bertrand (15,44)
Brentano, Franz (7,40)
Werttheorie (6,66)
Existenz (2,93)
Husserl, Edmund (2,64)
Wirklichkeit (2,64)
Gegenstandstheorie (2,26)
Ehrenfels, Christian von (1,70)
Gegenstand (1,56)
Sein (1,54)
Witasek, Stephan (1,07)
Erkenntnis (1,07)
„Verlierer“
Wert (0,99)
Logik (0,87)
Evidenz (0,86)
Philosophie (0,85)
Erkenntnistheorie (0,85)
Urteil (0,80)
Psychologie (0,79)
Vorstellung (0,79)
Annahme (0,73)
...
Wahrscheinlichkeit (0,17)
Stumpf, Carl (0,05)
Kausalgesetz, allgemeines (0,03)
Empirische Informationswissenschaft 242
Thematisches Umfeld von „Gegenstand“ im Lebenswerk von Meinong
Szientometrie wissenschaftlicher Institutionen
Schwellenwert Koinzidenz > 0,110
Empirische Informationswissenschaft 243
Rezeptionsgeschichte von „Gegenstand“. Phase I: 1872 – 1921
Szientometrie wissenschaftlicher Institutionen
Schwellenwert Koinzidenz > 0,150
Empirische Informationswissenschaft 244
Rezeptionsgeschichte von „Gegenstand“. Phase II: 1922 - 1959
Szientometrie wissenschaftlicher Institutionen
Schwellenwert Koinzidenz > 0,150
Empirische Informationswissenschaft 245
Rezeptionsgeschichte von „Gegenstand“. Phase III: 1960 - 1979
Szientometrie wissenschaftlicher Institutionen
Schwellenwert Koinzidenz > 0,150
Empirische Informationswissenschaft 246
Rezeptionsgeschichte von „Gegenstand“. Phase IV: 1980 - 1987
Szientometrie wissenschaftlicher Institutionen
Schwellenwert Koinzidenz > 0,150
Empirische Informationswissenschaft 247
Entwicklung des „Gegenstand“-Cluster (P): Cluster zu Gegenstand in der Meinong-Primärliteratur: 79 Themen (I): Cluster der Sekundärliteratur Phase 1: 77 Themen (II): Phase 2: 70 Themen (III): Phase 3: 117 Themen (IV): Phase 4: 97 Themen Stabilität des Clusters der Primärliteratur bzl. der Wirkungsgeschichte (P) – (I) 42% gleiche Themen (P) – (II) 48% (P) – (III) 37% (P) – (IV) 30% Stabilität der Cluster innerhalb der Wirkungsgeschichte (I) – (II) 50% (II) – (III) 52% (III) – (IV) 50%
Szientometrie wissenschaftlicher Institutionen
Quelle: Stock 1990, 1277+1300 ff.
Empirische Informationswissenschaft 248
Autorennetzwerke • Grad der Zentralität
eines Autors
• Maße:
• Degree (Anzahl der Co-
Autoren)
• Closeness (kurze
Verbindungen zu allen
Autoren im Netz)
• Betweenness (kurze
Verbindungen
zwischen den Autoren)
Szientometrie wissenschaftlicher Institutionen
Peter Mutschke: Autorennetzwerike: Verfahren der Netzwerkanalyse als Mehrwertdienste für Informations-
systeme. – Bonn: IZ Sozialwissenschaften, 2004. – (IZ-Arbeitsberichte; 32).
Empirische Informationswissenschaft 249
Autorennetzwerke
• Methode 1: nach Knoten (Autoren) „k-cores“
k = 1 (alle Autoren)
k = 2 (alle Autoren mit min. 2 Co-Autoren)
usw.
• Methode 2: nach Pfaden (Co-Autorschaft) „m-paths“
m = 1 (nur der Pfad zu einem Co-Autor, dem mit dem
höchstem Degree, wird angegeben)
m = 2 (zwei Pfade werden angegeben)
usw.
• Auswahl der Dokumente jeweils durch
– Thema
– Autor (hierbei: Tiefenschwellenwerte; 1: die Co-Autoren,
2: die Co-Autoren der Co-Autoren usw.)
• Anwendung: zur Strukturierung von Retrievalergebnissen,
u.U. Ordnungskriterium beim Relevance Ranking
Szientometrie wissenschaftlicher Institutionen
Empirische Informationswissenschaft 250
Autorennetzwerke
Szientometrie wissenschaftlicher Institutionen
Autorennetzwerk
zum Thema „Bildungsforschung“
Empirische Informationswissenschaft 251
Autorennetzwerke
Szientometrie wissenschaftlicher Institutionen
Peter Mutschke: Autorennetzwerike: Netzwerkanalyse als Mehrwertdienst für Informationssysteme. – In:
Bernard Bekavac; Josef Herget; Marc Rittberger (Hrsg.): Information zwischen Kultur und Marktwirtschaft. –
Konstanz: UVK. – (Schriften zur Informatoinswissenschaft; 42), 141-162. Autorennetzwerk
zum Autor „Peter Mutschke“
(Tiefenschwellenwert 1)
Empirische Informationswissenschaft 252
Autorennetzwerke
Szientometrie wissenschaftlicher Institutionen
Autorennetzwerk
zum Autor „Peter Mutschke“
(6-score – Tiefenschwellenwert 2)
Empirische Informationswissenschaft 253
Autorennetzwerke • Barabási et al.: nomothetische Betrachtung: Gibt es
Gesetzmäßigkeiten?
• Untersuchungsgegenstände: – Mathematik 1991 – 1998 (M), 70.974 Autoren, 70.901 Artikel
– Neurowissenschaften 1991 – 1998 (NS), 209.293 Autoren,
210.750 Artikel
• Forschungsfragen (u.a.):
• Folgt die Anzahl der Co-Autoren dem informetrischen
Konzentrationsgesetz?
• Wie entwickelt sich die durchschnittliche Zahl der Co-
Autoren im Laufe der Zeit?
Szientometrie wissenschaftlicher Institutionen
A.L.Barabási; H.Jeong; Z.Néda; E.Ravasz; A.Schubert; T.Vicsek: Evolution of the social network of
scientific collaborations. – In: Physica A 311 (2002), 590-614.
Empirische Informationswissenschaft 254
Autorennetzwerke • informetrische
Verteilung
• k : Anzahl der Co-
Autoren
• P(k) : Wahrschein-
lichkeit von k
Szientometrie wissenschaftlicher Institutionen
Empirische Informationswissenschaft 255
Autorennetzwerke • durchschnittliche
Anzahl der Co-Autoren
pro Autor
• linearer Anstieg
• bei Mathematik leicht
steigend
• bei Neurowissen-
schaften stark
steigend
• Gründe: – 1. neue Autoren
– 2. alte Autoren gehen
neue Verbindungen
ein
Szientometrie wissenschaftlicher Institutionen
Empirische Informationswissenschaft 256
Szientometrie wissenschaftlicher Institutionen
Szientometrie wissenschaftlicher Zeitschriften
Dimensionen
– Zeitschriftenproduktion (Artikel, Autoren)
– Zeitschrifteninhalt (Themen)
– Zeitschriftenrezeption (Leser)
– formale Fachkommunikation (Referenzen, Zitationen)
– Redaktion (Redaktionspolitik, Verlag)
Empirische Informationswissenschaft 257
Szientometrie wissenschaftlicher Institutionen
Szientometrie wissenschaftlicher Zeitschriften
– Zeitschriftenproduktion (Artikel, Autoren))
• Kennwerte: Artikelanzahl, -länge, -titel, -sprache,
Dokumenttypen, Autorenzahl pro Artikel, Autorenelite,
regionale Verteilung der Autoren (Sprachraum, Länder,
Städte, Institutionen), geschlechtsspezifische Aspekte
Empirische Informationswissenschaft 258
Szientometrie wissenschaftlicher Institutionen
Zeitschriftenproduktion
Beispiel:
American Documentation /
JASIS / heute: JASIST
• Umfang (Anzahl Heft;
Seitenzahlen pro Jahr)
Wallace Koehler et al.: A profile in statistics of journal articles: Fifty years of American Documentation and
the Journal of the American Society for Information Science. – In: CyberMetrics. International Journal of
Scientometrics, Informetrics and Bibliometrics 4 (2000), 1, paper 1.
Empirische Informationswissenschaft 259
Szientometrie wissenschaftlicher Institutionen
• Artikellänge
• Artikeltitel
Empirische Informationswissenschaft 260
Szientometrie wissenschaftlicher Institutionen
• Anzahl der Autoren pro Artikel
Empirische Informationswissenschaft 261
Szientometrie wissenschaftlicher Institutionen
• Autoren nach der Anzahl der Artikel („Autorenelite“)
• analog: Institutionen oder Städte nach Anzahl der Artikel
Empirische Informationswissenschaft 262
Szientometrie wissenschaftlicher Institutionen
• Autoren nach Geschlecht
Empirische Informationswissenschaft 263
Szientometrie wissenschaftlicher Institutionen
• Autoren nach Organisationstyp
Empirische Informationswissenschaft 264
Szientometrie wissenschaftlicher Institutionen
• Autoren nach
Land
Empirische Informationswissenschaft 265
Szientometrie wissenschaftlicher Institutionen
• Autoren nach
Dokumenttyp
und
Geschlecht
• Beispiel
• BuB – Forum
für Bibliothek
und
Information
414
13787 109
869
1257
739
642
330
0
200
400
600
800
1000
1200
1400
M änner F rauen
Rezension Tagungsbericht Kurzbeitrag Aufsatz BdA
Empirische Informationswissenschaft 266
Szientometrie wissenschaftlicher Institutionen
• Artikelproduktion bei BuB insgesamt:
• 50% der Beiträge von Männern – 50% von Frauen
• bei Dokumenttypen geschlechtsspezifische
Unterschiede:
• Rezensionen: 75% Männer
• Aufsätze: 54% Männer
• Kurzbeiträge: 59% Frauen
• Tagungsberichte: 56% Frauen
Empirische Informationswissenschaft 267
Szientometrie wissenschaftlicher Institutionen
Szientometrie wissenschaftlicher Zeitschriften
– Zeitschrifteninhalt (Themen)
• Kennwerte: Titelterme, Schlagworte / Notationen /
Deskriptoren, Termhäufigkeit, Co-Terme (jeweils pro Artikel)
Empirische Informationswissenschaft 268
Szientometrie wissenschaftlicher Institutionen
Szientometrie wissenschaftlicher Zeitschriften
– Zeitschriftenrezeption (Leser)
• Kennwerte: Downloadhäufigkeit, Lesehäufigkeit, Anwendbar-
keit der Ergebnisse, ...
Empirische Informationswissenschaft 269
Szientometrie wissenschaftlicher Institutionen
Zeitschriftenrezeption
Beispiel: Informationswissenschaft (Grazia Colonia-
Studie)
– „Was lesen deutschsprachige Information Professionals?“
– E-Mail-Befragung von Mitgliedern von einschlägigen
Fachverbänden und von Institutsmitarbeitern
– auswertbare Fragebögen: 257
Grazia Colonia: Informationswissenschaftliche Zeitschriften in szientometrischer Analyse. – Köln: FH Köln,
2002. – (Kölner Arbeitspapiere zur Bibliotheks- und Informationswissenschaft; 33).
Empirische Informationswissenschaft 270
Szientometrie wissenschaftlicher Institutionen
Lesehäufigkeit
informations-
wissenschaftlicher
Zeitschriften
bei deutschsprachigen
Lesern
N = 257
E-Mail-Befragung von
Mitgliedern
bibliothekarischer,
dokumentarischer
und informations-
wissenschaftlicher
Vereinigungen
Empirische Informationswissenschaft 271
Szientometrie wissenschaftlicher Institutionen
Lesepräferenzen (N = 257)
Empirische Informationswissenschaft 272
Szientometrie wissenschaftlicher Institutionen
Lesepräferenzen (N = 257)
Empirische Informationswissenschaft 273
Szientometrie wissenschaftlicher Institutionen
Szientometrie wissenschaftlicher Zeitschriften
– Redaktion (Redaktionspolitik, Verlag)
• Kennwerte: Zielgruppe Autoren, Zielgruppe Leser, Art der
Qualitätssicherung, Ablehnungsquote, Überarbeitungsquote,
Druckauflage, Preis, digitale Zugänglichkeit, ...
Empirische Informationswissenschaft 274
Szientometrie wissenschaftlicher Institutionen
– Redaktion von LIS-Zeitschriften: Verlage
Christian Schloegl; Wolfgang Petschnig: Library and information science journals: An editor survey. – In:
Library Collections, Acquisitions, & Technical Services 29 (2005), 4-32.
Empirische Informationswissenschaft 275
Szientometrie wissenschaftlicher Institutionen
– Redaktion von LIS-Zeitschriften: Leser
Empirische Informationswissenschaft 276
Szientometrie wissenschaftlicher Institutionen
– Redaktion von LIS-Zeitschriften: Online-Zugang
Empirische Informationswissenschaft 277
Szientometrie wissenschaftlicher Institutionen
– Redaktion von LIS-Zeitschriften: Größe des Editorial Board
Empirische Informationswissenschaft 278
Szientometrie wissenschaftlicher Institutionen
– Redaktion von LIS-Zeitschriften: Reviewverfahren
Empirische Informationswissenschaft 279
Szientometrie wissenschaftlicher Institutionen
Redaktion von
LIS-Zeitschriften:
Ablehnung und
Überarbeitung
Publikations-
verzögerung
Empirische Informationswissenschaft 280
Szientometrie wissenschaftlicher Institutionen
Szientometrie wissenschaftlicher Zeitschriften
– formale Fachkommunikation (Referenzen, Zitationen)
• Kennwerte: Impact Factor, Halbwertszeit (Referenzen und
Zitationen), Referenzen pro Artikel, Zeitschriftenselbstreferen-
zen, Stellung im Zeitschriftensoziogramm (Reputation), ...
Empirische Informationswissenschaft 281
Szientometrie wissenschaftlicher Institutionen
Formale Fachkommunikation:
Zeitschriften einer Wissenschaftsdisziplin
• Beispiel: Informationswissenschaft (Grazia Colonia-
Studie)
– internationale Zeitschriften
– deutschsprachige Zeitschriften
• Welche Werte erhalten informationswissenschaftliche
Zeitschriften?
• Gibt es Unterschiede zwischen deutschen und internationalen
informationswissenschaftlichen Zeitschriften?
Grazia Colonia: Informationswissenschaftliche Zeitschriften in szientometrischer Analyse. – Köln: FH Köln,
2002. – (Kölner Arbeitspapiere zur Bibliotheks- und Informationswissenschaft; 33).
Empirische Informationswissenschaft 282
Szientometrie wissenschaftlicher Institutionen
Informationswissenschaftliche Zeitschriften
• Beobachtungszeitraum: 1997 bis 2000
• gesamt: 50 Zeitschriften mit 6.203 Quellenartikeln
- darin enthalten: ca. 90.000 Referenzen
• International:
40 Fachzeitschriften: Erfassung anhand der Daten der
„Journal Citation Reports“ (JCR) vom „Institute for
Scientific Information“ (ISI)
• Deutschsprachig:
10 der wichtigsten informationswissenschaftlichen
Zeitschriften:
intellektuelle Auszählung von 1.494 Quellenartikeln
- darin enthalten: 10.520 Referenzen
Empirische Informationswissenschaft 283
Szientometrie wissenschaftlicher Institutionen
Verwendete informetrische Kennwerte:
• Impact Factor (IF) im Sinne des ISI
• eigens entwickelter regionaler Impact Factor (rIF) - zur
Erfassung der Wirkung deutschsprachiger Periodika
• Halbwertszeit der Referenzen - zur Analyse der Aktualität der
Zeitschriften
• Anzahl der Referenzen pro Artikel
• relative Häufigkeit der Selbstreferenzen der Zeitschriften
• Clusterbildung nach Informationsübermittlungen bzw.
Reputation
Empirische Informationswissenschaft 284
Szientometrie wissenschaftlicher Institutionen
Internationale Zeitschriften IF
(1. Library and Information Science) ??? 2,167
2. J of Documentation 1,519
3. J ASIS 1,291
4. Annual Review of Information Science 1,229
5. Library Quarterly 1,052
6. College and Research Libraries 0,940
7. Scientometrics 0,748
8. Inf. Processing & Management 0,609
9. Internet World 0,571
10. J of Information Science 0,548
Deutschsprachige Zs. rIF
13. Zs. f. Bibliothekswesen u. Bibl. 0,438
15. Bibliothek. Forschung und Praxis 0,420
22. ABI-Technik 0,339
23. Bibliotheksdienst 0,335
27. Buch und Bibliothek 0,310
33. ProLibris 0,287
39. NfD 0,199
46. Password 0,028
47. BIT Online 0,022
49. Intern. Symp. Infwiss. ISI 0,013
Durchschnittswert (intern. Zs.): 0,47 Durchschnittswert (dt. Zs.): 0,25
Rangordnung der Zeitschriften nach Impact Factor
Empirische Informationswissenschaft 285
Szientometrie wissenschaftlicher Institutionen
0
0,2
0,4
0,6
Impact-
Factor
IF(1997) IF(1998) IF(1999) IF(2000)
Zeitschriften gesamt
Die Impact Faktoren liegen recht konstant bei rund 0,4.
Im Vergleich zu anderen Wissenschaftsdisziplinen ist dieser Wert
sehr gering.
Impact Factor informationswissenschaftlicher Zeitschriften (N=50)
Empirische Informationswissenschaft 286
Szientometrie wissenschaftlicher Institutionen
Haben internationale Zeitschriften einen höheren Impact Factor als deutschsprachige?
Eugene Garfield vermutet:
Deutschsprachige wissenschaftliche Zeitschriften haben durchaus ihre regionale Bedeutung, können aber bzgl. ihres IF nicht mit international orientierten Periodika mithalten.
- Lediglich „ZfBB“ und „NfD“ sind in Datenbanken des ISI vorhanden gewesen.
- Warum sind die anderen nicht ausgewertet? ( „Basic Standards“?)
Für einige Einzelfälle der deutschen Zeitschriften der Informationswissenschaft gilt Garfields Vermutung nicht.
Garfields Vermutung
Empirische Informationswissenschaft 287
Szientometrie wissenschaftlicher Institutionen
Der „wahre“ Wert des Mittelwertes für deutschsprachige Periodika liegt
bei einer Irrtumswahrscheinlichkeit von 1% zwischen 0,17 und 0,33.
Der „wahre“ Wert des Mittelwertes für internationale Periodika liegt
bei einer Irrtumswahrscheinlichkeit von 1% zwischen 0,38 und 0,56.
deutschsprachigeZeitschriften
internationaleZeitschriften
arithmetisches Mittel rIF = 0,25 IF = 0,47Standardabweichung 0,19 0,33N 38 144Konfidenz (1%) 0,08 0,09
Garfields Vermutung wird bestätigt
Empirische Informationswissenschaft 288
Szientometrie wissenschaftlicher Institutionen
T (1997) T (1998) T (1999) T (2000) Zeitschriften gesamt
4,45 4,52 4,77 4,77 4,62
N = 40 N = 45 N =42 N = 42 N = 167
Die durchschnittliche Halbwertszeit beträgt bei
geringen jährlichen Abweichungen rund 4,5 Jahre.
Halbwertszeit der Referenzen informationswissenschaftlicher Zeitschriften
Empirische Informationswissenschaft 289
Szientometrie wissenschaftlicher Institutionen
Rang Halbwertszeit
01 Library Journal 0,60
02 Zs f Bibliothekswesen u Bibliographie 0,93
03 E- Content 1,50
04 Online 1,63
05 Interlending & Document Supply 1,90
06 Buch und Bibliothek 2,28
07 NfD 2,35
08 ABI- Technik 2,50
08 Bibliotheksdienst 2,50
10 BIT Online 2,53
Zeitschriften
gesamt:
Ø 4,6 Jahre
Internationale
Zeitschriften:
Ø 5,1 Jahre
Deutschsprachige
Zeitschriften:
Ø 2,8 Jahre
Jahre
Die deutschsprachigen informationswissenschaftlichen Zeitschriften zitieren
sehr aktuelle Literatur.
Wo bleibt der historische Background?
Empirische Informationswissenschaft 290
Szientometrie wissenschaftlicher Institutionen
Rang Ref./Art
01 Library Quarterly 42,94
02 Library & Inf Sc Research 36,77
03 Information Processing & Management 33,11
22 Bibliothek. Forschung u. Praxis 16,50
Durchschnittswert 15,93
26 BIT Online 14,39
29 - 45 mit geringen Abständen alle übrigen ausgewerteten deutschsprachigen Zs.
durchschnittliche Anzahl Referenzen deut. zwischen 4,84 und 12,46 AM 8,65
durchschnittliche Anzahl Referenzen intern. zwischen 13,88 und 22,64 AM 18,26
Es drängt sich der Verdacht auf, dass deutschsprachige Autoren die
internationale und teilweise auch die nationale Diskussion auf dem
informationswissenschaftlichen Sektor nicht wahrnehmen.
AM = arithmetisches Mittel, Irrtumswahrscheinlichkeit 1%
Referenzen pro Quellenartikel für informationswissenschaftlichen Zeitschriften
Empirische Informationswissenschaft 291
Szientometrie wissenschaftlicher Institutionen
Rang Selbstref.%
01 Buch und Bibliothek 22,77
02 Library Journal 21,70
03 E-Content (Database) 20,32
04 Scientometrics 17,81
06 Bibliotheksdienst 12,69
09 ProLibris 9,47
13 Zeitschr. für Bibliothekswesen u. Bibliographie 7,77
Durchschnittswert 5,94
18 NfD 5,26
27 ABI-Technik 4,41
46 Intern. Symp. Infwiss. ISI 0,60
durchschnittliche Anzahl Selbstreferenzen deutschsprachiger Zeitschriften 6,59%
durchschnittliche Anzahl Selbstreferenzen internationaler Zeitschriften 5,77%
Je höher dieser Wert liegt, desto mehr kapseln sich die Autoren eines bestimmten
Fachgebietes von den Forschungsergebnissen auf anderen Gebieten ab.
Selbstreferenzen informationswissenschaftlicher Zeitschriften
Empirische Informationswissenschaft 292
Szientometrie wissenschaftlicher Institutionen
Cluster der
deutsch-
sprachigen
Zeitschriften
Empirische Informationswissenschaft 293
Szientometrie wissenschaftlicher Institutionen
J ASIS/T
Inf Proc &
Man
RQ
Comm ACM
Online
Americ Libr
J Doc
Inform Retr
Commications
Libr Trends
J Acad Libr
Database
J Inform Sc
Coll Res Libr
ARIST
Scientometrics
Libr Quarterly
Libr J
Coll Res Libr
News
Inf Technol
Libr
ASLIB Proc
Knowl Org
Interlend
Doc Suppl
VINE
Program
J of Chem
Inf Sc
Governm
Inf Quart J of Governm
Inf
Telecomm
Policy Inf Society
Int J of Inf
Man
Online Inf
Review
Libr Hi Tech Scholarly
Publ
Brit Med J
Bull Medical
Libr Ass
Electronic
Libr
Libri
Libr and Inf
Sc Res Libr and
Inf Sc Canadian J
Inf Sc
Proc ASIS
Ann Meet
Libr Coll
Acqui T Serv Reference Libr
J Librship
Inf Sc
J of Inf
Ethics
J Libr Inf Sc
Libr Res
Techn Serv
Serials Libr
J Education
Libr Inf Sc
Empirische Informationswissenschaft 294
Impact Factor
Referenzen pro
Artikel
Selbstreferenz-
rate
Halbwertszeit +0,30*
+0,35*
+0,25
-0,31*
-0,39**
+0,45
-0,41
-0,62 +0,02
-0,20
(Korrelation n. PEARSON, *signifikant bei 5%-, **signifikant bei 1 % Irrtumswahrscheinlichkeit)
Schwarz: Alle
Zeitschr. (N=50)
Rot: Deutsche
Zeitschr. (N=10)
Szientometrie wissenschaftlicher Institutionen
+0,45 +0,76**
Empirische Informationswissenschaft 295
Szientometrie wissenschaftlicher Institutionen
Der Matthäus-Effekt wissenschaftlicher Zeitschriften
• ursprünglich entwickelt von Robert K. Merton mit Bezug auf
Wissenschaftler: „wer hat, dem wird gegeben“ („große“
Wissenschaftler bekommen überproportional hohe Reputation für
ihre Artikel im Gegensatz zu unbekannten Wissenschaftlern, die
unterproportional Reputation erhalten)
• eindeutige empirische Belege stehen derzeit noch aus
• bei akademischen Zeitschriften lässt sich ein Matthäus-Effekt mit
Bezug auf Länder feststellen. Entdecker: Manfred Bonitz
Robert K. Merton: The Matthew effect in science. – In: Science 159 (1968), Nr. 3810, 56-63.
Robert K. Merton: The Matthew effect in science, II: Cumulative advantage and the symbolism of intellectual
property. – In: ISIS 79 (1988), 606-623.
Empirische Informationswissenschaft 296
Szientometrie wissenschaftlicher Institutionen
Der Matthäus-Effekt wissenschaftlicher Zeitschriften
• „Wenige Länder mit hohen Erwartungswerten erlangen noch mehr
Zitationen als erwartet, viele Länder mit niedrigeren Erwartungs-
werten kriegen noch weniger Zitationen als erwartet“ (Bonitz).
Manfred Bonitz; E. Bruckner; Andrea Scharnhorst: Characteristics and impact of the Matthew effect for
countries. – In: Scientometrics 26 (1993), 37-50. – Manfred Bonitz; Andrea Scharnhorst: Nicht alle Zeitschriften
haben das gleiche Gewicht – Der harte Kern der Wissenschaftskommunikation. – Berlin: Wissenschaftszentrum
Berlin für Sozialforschung, 2001. – (Discussion Paper FS II 01 – 307).
Manfred Bonitz
Andrea Scharnhorst
Empirische Informationswissenschaft 297
Szientometrie wissenschaftlicher Institutionen
Der Matthäus-Effekt wissenschaftlicher Zeitschriften
• Ensemble wissenschaftlicher Zeitschriften: gegeben sei die
(durchschnittliche) Zitationsrate pro Artikel („Erwartungswert“)
für jede Zeitschrift
• in einer Zeitschrift des Ensembles: beobachtete Zitationsrate
pro Artikel mit Erstautor aus einem gegebenen Land
• Vergleich: Erwartungswert und Zitationsrate (Land)
• Berechnung:
– 1. Anzahl der erwarteten Zitationen = Anzahl der
Publikationen * durchschnittliche Zitationsrate pro Artikel
– 2. Matthäus-Zitationen(Land) = Anzahl der beobachteten
Zitationen des Landes – Anzahl der erwarteten Zitationen
Empirische Informationswissenschaft 298
Szientometrie wissenschaftlicher Institutionen
Der Matthäus-Effekt wissenschaftlicher Zeitschriften
• Anzahl Matthäus-Zitationen(Land) > 0 : „Gewinnerländer“
• Anzahl Matthäus-Zitationen(Land) < 0 : „Verliererländer“
• Rangordnung der Zeitschriften nach der Anzahl der Matthäus-
Zitationen: neuer szientometrischer Kennwert
• relative Abweichung eines Landes vom Erwartungswert ergibt
eine Länderrangliste nach Matthäus-Effekt
Manfred Bonitz: Wird der Matthäus-Effekt in der Wissenschaft meßbar bleiben? – In: Wissenschaftsforschung.
Jahrbuch 1998. – Berlin: Gesellschaft für Wissenschaftsforschung, 2000, 231-237.
Empirische Informationswissenschaft 299
Szientometrie wissenschaftlicher Institutionen
Matthäus-Zitationen der Zeitschrift „Science“
Empirische Informationswissenschaft 300
Szientometrie wissenschaftlicher Institutionen
Der Matthäus-Effekt wissenschaftlicher Zeitschriften
Länder mit
niedrigen
Erwartungs-
werten:
häufig
„Verlierer“
Länder mit
hohen
Erwatungs-
werten:
häufig
„Gewinner“
Empirische Informationswissenschaft 301
Szientometrie wissenschaftlicher Institutionen
Der Matthäus-Effekt
wissenschaftlicher
Zeitschriften
Rangfolge
ausgewählter
Länder nach
Gewinnern (rechts)
und Verlierern
(links)
Empirische Informationswissenschaft 302
Szientometrie wissenschaftlicher Institutionen
Der Matthäus-Effekt wissenschaftlicher
Zeitschriften und die Gewinner- und Verlierer-
Länder
Interpretation:
– Bonitz: Der Matthäus-Effekt für Länder ist ein Indikator für
die wissenschaftliche Leistungsfähigkeit eines Landes
– Alternative: Der Matthäus-Effekt für Länder ist ein
Indikator für die Wahrnehmung der wissenschaftliche
Leistungsfähigkeit eines Landes (was ja nicht mit der
faktischen Leistungsfähigkeit übereinstimmen muss)
Empirische Informationswissenschaft 303
Szientometrie wissenschaftlicher Institutionen
Evaluation wissenschaftlicher Institute
• Publikationen pro Kopf: Anzahl der Publikationen pro Jahr
und pro Wissenschaftler
• Publication Strategy Index: Summe der Impact Factors der
publizierenden Zeitschriften / Anzahl der Artikel
• Zitationen pro Kopf: Anzahl der Zitationen in einem Jahr auf
Publikationen aus den letzten n Jahren (bei Vinkler: 10) pro
Wissenschaftler
• Relative Häufigkeit der Wissenschaftler ohne Publikationen in
den letzten m Jahren (bei Vinkler: 3) in Prozent
• Verteilung der Publikationen auf Zeitschriften bzw. auf
Disziplinen
Peter Vinkler: Bibliometric analysis of publication activity of a scientific research institute. – In: Leo Egghe;
Ronald Rousseau (Hrsg.): Informetrics 89/90. – Amsterdam: Elsevier, 1990, 309-334.
Empirische Informationswissenschaft 304
Szientometrie wissenschaftlicher Institutionen
Evaluation wissenschaftlicher Institute • Vergleich von Instituten
Christian Schloegl; Juan Gorrais; Christoph Bart; Monika Bargmann: Evaluating two Austrian university
departments: Lessons learnt. – In: Scientometrics 56 (2003), 287-299.
Empirische Informationswissenschaft 305
Szientometrie wissenschaftlicher Institutionen
Evaluation wissenschaftlicher Institute
• bei wissenschaftlichen Instituten, die nicht (oder nicht nur)
auf Fachkollegen fixiert sind, sondern auf die Öffentlichkeit
oder die Politikberatung:
– Fixierung auf Zitationen einseitig (da ausschließlich auf
die Wirkung innerhalb des Wissenschaftssystems
bezogen)
– zusätzlich zu erheben: Thematisierungen in
Tageszeitungen oder in Meldungen einer Presseagentur
• Beispiel: ifo Institut für Wirtschaftsforschung: in 1993 und
1994 nur 40mal in SSCI zitiert (bei rund 1.000 Publikationen).
Wissenschaftliche Wirkung: marginal
Wolfgang G. Stock: Wissenschaftsevaluation mittels Datenbanken – methodisch einwandfrei? –
In: Spektrum der Wissenschaft Nr. 11 (1995), 118-121.
Empirische Informationswissenschaft 306
Szientometrie wissenschaftlicher Institutionen
Evaluation wissenschaftlicher Institute
• Wirkung des ifo Instituts in der Öffentlichkeit
Anzahl der Titel, in
denen „ifo“ thema-
tisiert ist
• dt. Zeitungen
• Agentur
• zum Vergleich:
SSCI
Wirkung des ifo
Instituts in der
Öffentlichkeit:
sehr hoch
Empirische Informationswissenschaft 307
Szientometrie wissenschaftlicher Institutionen
Leistung und Wirkung in technischen Disziplinen
• Leitindikatoren:
• (1) Patente
– Anmeldungen
– Auslandsanmeldungen
– Patenterteilungen im Inland
– Patenterteilungen im Ausland
• (2) Referenzen in Patenten
– Referenzen auf andere Patente
– Referenzen auf wissenschaftliche Literatur
• (3) Zitationen von Patenten
Francis Narin: Patent bibliometrics. – In: Scientometrics 30 (1994), 147-155.
Francis Narin; D.Olivastro: Technology indicators based on patents and patent citations. – In: A.F.J.van Raan
(Hrsg.): Handbook of Quantitative Studies of Science and Technology. – Amsterdam: Elsevier Science,
1988, 465-507.
Empirische Informationswissenschaft 308
Szientometrie wissenschaftlicher Institutionen
Leistung und Wirkung in technischen Disziplinen
• Wissenschaftsbindung der Technik
• Anzahl der Nicht-Patent-Referenzen in Patenten (NPL-
Referenzen)
• Je höher die durchschnittliche Zahl der NPL pro Patent, desto
höher ist die Wissenschaftsbindung der jeweiligen Menge
von Patenten
• Wissenschaftsbindung
– technische Disziplinen
– Länder
– Unternehmen
Hariolf Grupp; Ulrich Schmoch: Wissenschaftsbindung der Technik. – Heidelberg: Physica, 1992.
Empirische Informationswissenschaft 309
Szientometrie wissenschaftlicher Institutionen
Leistung und Wirkung in technischen Disziplinen
• Wissenschaftsbindung der Technik: USA versus Deutschland
Wissenschaftsbindung über
Weltdurchschnitt
Wissenschaftsbindung unter
Weltdurchschnitt
Empirische Informationswissenschaft 310
Szientometrie wissenschaftlicher Institutionen
Leistung und Wirkung in
technischen Disziplinen
• Wissenschaftsbindung von Disziplinen
(Abweichungen vom Durchschnitt aller
Disziplinen.
Quelle: Europäisches Patentamt,
Patentanmeldungen 1989 – 1992)
Ulrich Schmoch: Indicators and the relations
between science and technology. – In: Scientometrics 38 (1997),
103-116.
Empirische Informationswissenschaft 311
Szientometrie wissenschaftlicher Institutionen
Informetrische Indikatoren der Patentliteratur
Wichtigste Institution: CHI Research, Inc.
(Haddon Height, NJ). Präsident: Francis
Narin. Produkte: Tech-Line (Patentanalysen
von Unternehmen, Städten und Ländern);
Analyse von (börsennotierten) Unternehmen
Francis Narin: Tech-Line Background Paper. – Haddon Heights, NJ: CHI Research, 1999. –
Anthony F. Breitzman; Francis Narin: Method and apparatus für choosing a stock portfolio, based on
patent indicators. – Patent Nr. US 6,175,824. – Priorität: 14.7.1999. – Patentinhaber: CHI Research, Inc.
Francis Narin
Empirische Informationswissenschaft 312
Szientometrie wissenschaftlicher Institutionen
Informetrische Indikatoren der Patentliteratur
• Gibt es einen Zusammenhang zwischen Patentindikatoren
und dem Börsenwert eines Unternehmens?
• Wissenschaftsbindung
der Patente korreliert mit
Börsenwert
• Citation Impact korreliert
mit Börsenwert
Empirische Informationswissenschaft 313
Szientometrie wissenschaftlicher Institutionen
Informetrische Indikatoren der Patentliteratur
• Anzahl der (erteilten) Patente eines Unternehmens in einem
Zeitintervall (etwa: 5 Jahre)
• jährliches Wachstum der Anzahl der Patente (in %)
• Voraussetzung: Identifikation des Unternehmens
Empirische Informationswissenschaft 314
Szientometrie wissenschaftlicher Institutionen
Informetrische Indikatoren der Patentliteratur
• Zitationen pro Patent: Zitationen, die ein Patent eines
Prioritätsjahres im Laufe seiner Geschichte anhäuft
(empirisches Ergebnis: ein „durchschnittliches“ us-
amerikanisches Patent
hat nach 6 Jahren rund
5 Zitationen in der
US PTO-Datenbank)
• Anzahl der Zitationen
eines Patentes : durch-
schnittliche Zitations-
anzahl: Pioniere, Ehren-
halle und historische
Relevanz
Empirische Informationswissenschaft 315
Szientometrie wissenschaftlicher Institutionen
Informetrische Indikatoren der Patentliteratur
• Current Impact Index (CII) eines Unternehmens: Anzahl der
Zitationen auf Patente eines Unternehmens (mit Priorität aus den
letzten 5 Jahren) im Berichtsjahr, relativiert auf die durchschnittliche
Zitationsrate einer Disziplin (1 bedeutet demnach: genau wie der
Durchschnitt; 2: doppelt so viele Zitationen wie der Durchschnitt; ½:
die Hälfte des Durchschnitts)
• Bestimmungswerte:
– (1) Anzahl der Patente eines Unternehmens sowie der Disziplin in den
Jahren t-1, t-2, ..., t-5
– (2) Anzahl der Zitationen im Jahr t auf die Patente unter (1)
– (3) durchschnittliche Anzahl der Zitationen pro Patent in t für das
Unternehmen ZR(U) und für alle Patente der Disziplin ZR(D) in den Jahren
t-1, t-2, ..., t-5;
– (4) Quotient Q aus ZR(U) und ZR(D) für die 5 Jahre
– (5) gewichtete Summe der Anzahl der Patente in einem Jahr mal Q, geteilt
durch die Summe der Anzahl der Patente über die 5 Jahre
Empirische Informationswissenschaft 316
Szientometrie wissenschaftlicher Institutionen
Current Impact Index (CII) eines Unternehmens. Beispiel
Schritt 1
Schritt 2
Empirische Informationswissenschaft 317
Szientometrie wissenschaftlicher Institutionen
Current Impact Index (CII) eines Unternehmens. Beispiel
Schritt 3
Schritt 4
Schritt 5
Empirische Informationswissenschaft 318
Szientometrie wissenschaftlicher Institutionen
Informetrische Indikatoren der Patentliteratur
• Technische Stärke eines Unternehmens
Produkt aus der Anzahl der Patente in einem Jahr mit dem
Current Impact Index dieses Jahres
• Halbwertszeit der Referenzen auf Patente („Technology Cycle
Time“ TCT). Beispiele (US PTO) für Disziplinen:
– Telecommunications 5,7
– Computers and Peripherals 5,8
– Semiconductors and Electronic 6,0
– ...
– Wood and Paper 12,3
– Machinery 12,3
– Aerospace and Parts 13,2
Empirische Informationswissenschaft 319
Szientometrie wissenschaftlicher Institutionen
Informetrische Indikatoren der Patentliteratur
• Wissenschaftsbindung der Technik eines Unternehmens
(„Science Linkage“)
durchschnittliche Anzahl der Referenzen auf
wissenschaftliche Literatur bei den Patenten eines
Unternehmens. Beispiele (US PTO) für Disziplinen:
– Biotechnology 14,4
– Pharmaceuticals 7,3
– Agriculture 3,3
– Chemicals 2,7
– Medical Electronics 2,2
– ...
– Machinery 0,1
– Motor Vehicles and Parts 0,1
Empirische Informationswissenschaft 320
Szientometrie wissenschaftlicher Institutionen
Informetrische Indikatoren der Patentliteratur
• Wissenschaftsstärke eines Unternehmens („Science
Strength“ SS)
Produkt aus der Anzahl der Patente eines Unternehmens und
der durchschnittlichen Wissenschaftsbindung
• TechLine Company Profile: Angebot aller informetrischer
Indikatoren für ein Unternehmen über 10 Jahre
• Preise: pro Einheit: komplett:
Unternehmen $ 200
Städte/Regionen $ 150 $ 10.000
Länder $ 300 $ 10.000
Empirische Informationswissenschaft 321
Szientometrie wissenschaftlicher Institutionen
Beispiel: IBM (1990 – 1999)
Empirische Informationswissenschaft 322
Szientometrie wissenschaftlicher Institutionen
Beispiel: IBM (1990 – 1999)
Empirische Informationswissenschaft 323
Nutzer- und Nutzungsanalysen
Empirische Informationswissenschaft 324
Nutzer- und Nutzungsanalysen
Empirische Analysen des Umfeldes von Informationssystemen
• Informationsbedarfsanalyse
– gerichtet auf Bedarfe / Bedürfnisse (nächstes Kapitel)
• Nutzerforschung
– gerichtet auf Typen und Verhalten von Nutzern
• Nutzungsforschung
– gerichtet auf den Einsatz von Informationssystemen
Michael Kluck: Methoden der Informationsanalyse – Einführung in die empirischen Methoden für die
Informationsbedarfsanalyse und die Markt- und Benutzerforschung. –
In: Grundlagen der praktischen Information und Dokumentation. – München: Saur, 5. Aufl., 2004, 271-288.
Michael Kluck: Die Informationsanalyse im Online-Zeitalter. –
In: Grundlagen der praktischen Information und Dokumentation. – München: Saur, 5. Aufl., 2004, 289-298.
Empirische Informationswissenschaft 325
Nutzer- und Nutzungsanalysen
Dimensionen der Nutzerforschung
– Nutzergruppen
– Anfragetypen
– Formulierung der Suchanfrage / Auswertung der Treffer
– Themen
– Methoden
• Logfile-Analysen
• Nutzerbefragung
• Nutzerbeobachtung (im Labor, im "Feld")
Stock, W.G.; Lewandowski, D. (2006): Suchmaschinen und wie sie genutzt werden. -
In: WISU 8-9, S. 1078-1083, 1121-1122.
Empirische Informationswissenschaft 326
Nutzer- und Nutzungsanalysen
• „Informationsverhalten“ (information behavior): Gesamtheit
menschlichen Verhaltens beim Suchen, Finden und Nutzen
von Informationen
• „Informationssuchverhalten“ (information seeking
behavior): Informationsverhalten beim Suchen
nach Informationen (egal, wo)
• „Informationsrechercheverhalten“ (information
searching behavior): Verhalten beim Suchen in
einem konkreten System (etwa: Gebrauch
boole„scher Operatoren)
• „Informationsnutzung“ (information use):
Umwandlung gefundener Informationen in
(subjektives) Wissen
Thomas D. Wilson: Human Information Behavior. – In: Informing Science 3 (2000) 2, 49-55
Empirische Informationswissenschaft 327
Nutzer- und Nutzungsanalysen
• Informationssuchverhalten
– Initialisierung (starting): z.B. einen Kollegen fragen
– Verweisen folgen (chaining): Referenzen und Zitationen, Links
– Stöbern (browsing): halb-strukturiertes Suchen
– Filtern von Informationsquellen (differentiating): unter-
schiedliche Quellen gezielt aufsuchen
– Suchen (extracting): relevantes Material in einer Informations-
quelle gezielt suchen
– Profile überwachen (monitoring): den aktuellen Stand halten
– Verifizieren (verifying): Informationen überprüfen
– Komplettieren und beenden (ending): abschließendes Suchen,
ein Ende finden
Empirische Informationswissenschaft 328
Nutzer- und Nutzungsanalysen
• Informationsbeschaffungsverhalten
Quelle: Wilson 2000, 53.
Empirische Informationswissenschaft 329
Nutzer- und Nutzungsanalysen
Informationsrechercheverhalten: Wie fragen Information Professionals?
– Einige Informationsanbieter haben (in den 90er Jahren) neben den Boole„schen Systemen natürlichsprachige Oberflächen geschaffen:
• WIN (Westlaw)
• Freestyle (Lexis-Nexis)
• Target (DIALOG).
– Keines dieser Systeme ist von den Information Professionals angenommen worden. Anders herum: Alle waren Flops.
– Information Professionals arbeiten (nahezu ausschließlich) mit elaborierten boole„schen Retrievalsystemen.
Empirische Informationswissenschaft 330
Nutzer- und Nutzungsanalysen
Informationsrechercheverhalten: Wie fragen Nutzer bei Suchmaschinen? Untersuchung I: AltaVista
• Untersuchung bei AltaVista (August/September 1998)
• Basis: 993.208.159 Anfragen
• Anzahl Suchargumente in der Anfrage:
– 0 20,6%
– 1 25,8%
– 2 26,0%
– 3 15,0%
– > 3 12,6%
Craig Silverstein; Monika Henzinger; Hannes Marais; Michael Moricz: Analysis of a Very Large AltaVista
Query Log. – Palo Alto: digital Systems Research Center, 1998. – (SRC Technical Note; 1998-014).
durchschnittliche Anzahl: 2,35
Standardabweichung: 1,74
Empirische Informationswissenschaft 331
Nutzer- und Nutzungsanalysen
AltaVista-Untersuchung
• Anzahl der Booleschen Operatoren in der Suchanfrage:
– 0 79,6%
– 1 9,7%
– 2 6,0%
– 3 2,6%
– > 3 2,1%
– arithmetisches Mittel: 0,41 (Standardabweichung: 1,11)
• Anzahl der Anfragen pro Session:
– 1 77,6%
– 2 13,5%
– 3 4,4%
– > 3 4,5%
arithmetisches Mittel: 2,02
(Standardabweichung: 123,40)
Empirische Informationswissenschaft 332
Nutzer- und Nutzungsanalysen
AltaVista-Untersuchung
• bei Modifikation der Suchfrage:
– (1) Terme hinzufügen: 7,1% (1 Term: 5,4%)
– (2) Terme löschen: 3,1% (1 Term: 2,1%)
– (3) Operator ändern: 1,4%
– Mischungen aus (1)-(3) 53,2%
– total neue Anfrage: 35,2%
• Anzeige: wie viele Bildschirme (á 10 Treffer) angesehen?
– 1 85,2%
– 2 7,5%
– 3 3,0%
– >3 4,3%
– arithmetisches Mittel: 1,39 (Standardabweichung: 3,74)
Empirische Informationswissenschaft 333
Nutzer- und Nutzungsanalysen
Suchanfragen II: EXCITE
• Untersuchung bei EXCITE; gut 1 Mio. Suchanfragen (1999)
Amanda Spink; Dietmar Wolfram; B.J.Jansen; Tefko Saracevic: Searching the Web: The public and their
queries. - In: Journal of the American Society for Information Science and Technology 52 (2001), 226-234.
Anzahl der
Suchargumente in den
Suchanfragen
Median: 2
(ausgeschlossen:
Anfragen mit 0 Termen)
Empirische Informationswissenschaft 334
Nutzer- und Nutzungsanalysen
EXCITE-Untersuchung
Modifikationen an
Suchanfragen
Empirische Informationswissenschaft 335
Nutzer- und Nutzungsanalysen
EXCITE-Untersuchung
Anzeigeseiten (á 10
Treffer) angesehen
Empirische Informationswissenschaft 336
Nutzer- und Nutzungsanalysen
EXCITE-Untersuchung
Empirische Informationswissenschaft 337
Nutzer- und Nutzungsanalysen
Nutzer von Suchmaschinen
– Nutzer von Suchmaschinen haben ein völlig anderes Rechercheverhalten als Information Professionals.
– sie verwenden pro Suchfrage rund 2 Suchargumente.
– selten werden Boole„sche Operatoren eingesetzt.
– Suchanfragen werden – wenn überhaupt – nur selten modifiziert (und damit optimiert).
– Web-Nutzer tendieren dazu, die erste (ggf. noch die zweite) Anzeigeseite (mit je 10 Treffern) anzusehen.
– „People are spending more and more time creating, seeking, retrieving and using electronic information. But their interactions with Web search engines are short and limited. To adjust to these factors and to human behavior we need a new generation of Web searching tools ...“ (Spink et al., 2001).
Empirische Informationswissenschaft 338
Nutzer- und Nutzungsanalysen
• Anfragetypen
Broder Lewandowski
navigationsorientiert 20 - 24,5% 40%
informationsorientiert 39 - 48% 42 - 47%
transaktionsorientiert 22 - 36% 11 - 18%
USA Deutschland
(Fireball, MetaGer,
Seekport)
Broder, A. (2002): Taxonomy of Web search. - In: SIGIR Forum 36, S. 3-10.
Lewandowski, D. (2006): Themen und Typen der Suchanfragen an deutsche Web-Suchmaschinen. -
In: Multikonferenz Wirtschaftsinformatik 2006 (MKWI '06), Bd. 2, Berlin, S. 33-43.
Empirische Informationswissenschaft 339
Nutzer- und Nutzungsanalysen
• Nutzungsforschung
• Bsp.: Neueinführung eines neuen Informationsproduktes
• Beispiel: MedPilot (Digitale Bibliothek / Typ 2 für Mediziner;
Produzenten: ZBMed, DIMDI)
• Methode: Befragung (strukturierter Fragebogen, z.T. freie
Antworten) via Internet
– via Portal: Pop-up Fenster mit Link zum Fragebogen (N =
1.112)
– via E-Mail an registrierte MedPilot-Kunden: in Mail Link zum
Fragebogen (angeschrieben: 2.762 Personen, geantwortet:
659; Rücklaufquote: 23,9%)
– Stichprobe (insgesamt): 1.771
– nicht befragt: Nicht-Nutzer (d.i.: Zielgruppe abzüglich Nutzer)
Yasemin El-Menouar: Evaluation der Virtuellen Fachbibliothek „MedPilot“. Ergebnisse einer internetbasierten
Nutzerbefragung. – Köln: Deutsche Zentralbibliothek für Medizin, 2004.
Empirische Informationswissenschaft 340
Nutzer- und Nutzungsanalysen
Empirische Informationswissenschaft 341
Nutzer- und Nutzungsanalysen
Empirische Informationswissenschaft 342
Nutzer- und Nutzungsanalysen
Anm.: Hier fehlen Angaben
zu den Größenordnungen
der Fachärzte in
Deutschland
Empirische Informationswissenschaft 343
Nutzer- und Nutzungsanalysen
Empirische Informationswissenschaft 344
Nutzer- und Nutzungsanalysen
Empirische Informationswissenschaft 345
Nutzer- und Nutzungsanalysen
Empirische Informationswissenschaft 346
Nutzer- und Nutzungsanalysen
Empirische Informationswissenschaft 347
Nutzer- und Nutzungsanalysen
Empirische Informationswissenschaft 348
Nutzer- und Nutzungsanalysen
• Nutzungsforschung: aufwendige Methode:
Beobachtung (Feldforschung)
• Bsp.: Beobachtung des Informationssuchverhaltens von
Krankenschwestern bei Online-Datenbanken
• Zeitraum: 8 Testpersonen, 30 Tage; Notieren von
Datenbankaufrufen und Suchanfragen
• Detailergebnis Ovid:
– 8 Aufrufe
– 5mal Ovid verlassen ohne überhaupt ein Suchargument
einzugeben
– 3mal Stöbern im Thesaurus von Medline, aber keine
Suche abgeschickt
Jody A. Wozar; Paul C. Worona: The use of online information resources by nurses. – In:
Journal of the Medical Library Association 91 (2003), 216-221.
Empirische Informationswissenschaft 349
Informationsbedarfsanalysen
Empirische Informationswissenschaft 350
Informationsbedarfsanalysen
Informationsbedarf • „Bedarf“: objektiv feststehender Mangel bei der "Stelle"
Erfassung: durch Experten definieren
• „Bedürfnis“: subjektiv wahrgenommener Mangel beim Stelleninhaber
Erfassung: empirisch beim Nutzer erheben
• „Information“:
– (1) Informationsverarbeitung (Hardware, Software)
– (2) externes und internes Wissen
– (3) Dienste (Unternehmensblog, -wiki, -datenbank, ...)
– (4) Kommunikation
• Befriedigung des Informationsbedarfs: Zusammenspiel von:
– (Wirtschafts-)Informatik: Geräte – Programme – Vernetzung
– Betriebswirtschaftslehre: Organisation – Mitarbeiter
– Informationswissenschaft: Identifizierung externen Wissens; Auswertung internen Wissens, Aufbau der Dienste
Empirische Informationswissenschaft 351
Informationsbedarfsanalysen
Informationsbedarf. Leitfragen
Empirische Informationswissenschaft 352
Informationsbedarfsanalysen
Informationsbedarf
Informationsbedürfnis
Informationsnachfrage
Informationsstand
Informationsangebot
Bedarfserzeugung durch Informations-marketing
Mujan, D. (2006): Informationsmanagement in Lernenden Organisationen. - Berlin: Logos.
Empirische Informationswissenschaft 353
Informationsbedarfsanalysen
Analyseebenen – Informationsbedarf bei Arbeitsroutinen (beim single-loop
learning oder Anpassungslernen)
– Informationsbedarf beim organisatorischen Normen-system, Hinterfragen der "Philosophie" (beim double-loop learning oder Veränderungslernen)
– Informationsbedarf beim Lernen (beim deutero learning oder Prozesslernen)
Empirische Informationswissenschaft 354
Informationsbedarfsanalysen
Wovon ist der Bedarf an Content abhängig?
– Beruf – Stellung im Unternehmen
– Land – Kultur (Deutsche fragen spezifischer als Briten.)
– Persönlichkeitsfaktoren (Rezeptionsfreudigkeit,
Motivation, Informationsbewusstsein, Hartnäckigkeit,
analytisches Denken)
– Ausbildung (allg.) – Informationskompetenz
– Geschlecht (Frauen artikulieren eher Informationsbedarf,
Männer fürchten, sich zu blamieren)
David Nicholas: Assessing Information Needs: Tools, Techniques and Concepts for the Internet Age. –
London: Aslib 22000.
Empirische Informationswissenschaft 355
Informationsbedarfsanalysen
Wovon ist der Bedarf an Content abhängig?
– Alter (ggf.: mit fortschreitendem Alter fällt der
Informationsbedarf)
– Zeit (1. Informationen zu suchen; 2. gefundene
Informationen zu sichten)
– Zugang (günstig: leichte Anfragen am eigenen PC,
komplizierte Probleme an Informationsvermittlungs-
stelle delegieren)
– Kosten
– Information Overload
Empirische Informationswissenschaft 356
Informationsbedarfsanalysen
Informationsbedarf. Erhebungstechniken
• Interview
DIE zentrale Methode
• Fragebogen
• Beobachtung
• Dokumentenanalyse
• Selbstaufschreibung
Matthias Fank: Einführung in das Informationsmanagement. – München; Wien: Oldenbourg, 1996. –
Kap. 8: Erhebungstechniken, 244-269.
Matthias Fank
Empirische Informationswissenschaft 357
Informationsbedarfsanalysen
Interview
• bei Informa-
tions-
bedarfs-
analysen:
• halbst.
Interview
(mit
Leitfaden)
Götz Schmidt: Methode und Techniken der Organisation. – Gießen: Verl. Dr. Götz Schmidt, 12. Aufl., 2001.
Empirische Informationswissenschaft 358
Informationsbedarfsanalysen
Interview
mit
Leitfaden
Ablauf
Philipp Mayring: Einführung in die qualitative Sozialforschung. – Weinheim: Beltz, 5.Aufl., 2002.
Empirische Informationswissenschaft 359
Informationsbedarfsanalysen
Interview:
• Autoritätsanspruch
• häufigste Form: neutrales Interview
Quelle: Schmidt
Empirische Informationswissenschaft 360
Informationsbedarfsanalysen
Interview:
• Wo? Interviewort
in vertrauter Umgebung des Befragten (Arbeitszimmer,
Besprechungsraum, ...)
• Wann? Interviewzeit
nach Vereinbarung (wann halt beide Parteien Zeit haben)
• Wie lange?
½ - 2 Stunden – kann beträchtlich schwanken
• Wer? Interviewer
nur geschulte Interviewer – mit Fachkenntnissen
– soziale Fertigkeiten (Schaffen gelöster Gesprächsatmosphäre)
– Kompetenz in der Sache (bei Rückfragen)
Empirische Informationswissenschaft 361
Informationsbedarfsanalysen
Interview:
• Wen? Die Interviewten
– Repräsentative Stichprobe
– Stichprobe so groß wie möglich: um Aussagekraft zu erhöhen
– Stichprobe so klein wie möglich: um Kosten zu sparen
• Aufzeichnung des Interviews
– Notizen im Leitfaden (Fragebogen) während des Interviews
– danach: Kurzprotokoll
– Aufzeichnung des Gespräches auf Band (vorher
Einverständnis einholen)
• kann problematisch sein, wenn Probanden von Aufzeichnungs-
geräten verunsichert werden
• ist aber nötig wegen wiederholter Abspielmöglichkeit
Empirische Informationswissenschaft 362
Informationsbedarfsanalysen
Interview: Fragen
• Aufbau des Interviews
– nur solche Fragen, die nicht auch auf anderem Wege erfasst werden
könnten
– keine Fragen wiederholen
– Fragen klar und unmissverständlich formulieren
– vom Allgemeinen zum Besonderen
– bei Antwortvorgaben: sind diese angemessen?
– ggf. Filterfragen (Bedingungen)
– enthält das Interview genügend Abwechslung (Motivation der
Befragten)?
– können verzerrte Antworten auftreten?
– Achtung: Fragen können „ausstrahlen“ (Beispiel: Haben Sie bei der Einführung von X mitgewirkt? Antwort: ja. Nächste Frage: Finden Sie X innovativ? Antwort: ??)
Empirische Informationswissenschaft 363
Informationsbedarfsanalysen
Interview: Fragearten: offene / geschlossene Fragen
Quelle: Fank
Empirische Informationswissenschaft 364
Informationsbedarfsanalysen
Interview: Fragearten: Rangfragen
Empirische Informationswissenschaft 365
Informationsbedarfsanalysen
Interview: Fragearten: Hypothetische Situation
Kontrollfragen
– Variation einer gleichen Frage an unterschiedlichen Stellen
im Interview (möglicher Vorteil: Überprüfung der Wahrheit
der Antwort – großer Nachteil: Verwirrung, Misstrauen)
Empirische Informationswissenschaft 366
Informationsbedarfsanalysen
Interview: Fragearten: Indirekte Fragen
(Gültigkeit umstritten)
Empirische Informationswissenschaft 367
Informationsbedarfsanalysen
Fragebogen
• analog dem standardisiertem Interview (ohne Interviewer)
• eignet sich u.U. für die Befragung einer homogenen Gruppe
• erfordert gute Strukturierbarkeit der Fragen
• Fragen müssen selbsterklärend sein
• Vorgehen:
– Pretest
– Test (Verschicken – Anschreiben – Ausfüllanweisung – rücklauf-
steigende Maßnahmen: frankierter Rückumschlag, Sonderbrief-
marke, ...)
– Rücklauf (telefonisches / schriftliches Erinnern)